시스템 설정

시스템 설정에서는 알람 조건, 위젯 구성, 시스템 인프라 상태를 관리합니다. 온프레미스 환경에서는 일부 메뉴가 시스템 관리자 전용으로 제공되며, 관리자 사이드바에는 표시되지 않을 수 있습니다.

설정 변경은 대시보드 표시, 알람 발생, 메트릭 수집 상태에 영향을 줄 수 있으므로 변경 전 적용 범위와 영향을 확인하세요.

관리자 설정

알람 규칙 관리

알람 규칙 관리에서는 서버 메트릭에 대한 자동 알람 조건을 설정합니다. 예를 들어 "CPU 사용률이 90%를 초과하면 WARNING 알람 생성" 같은 규칙을 정의합니다.

각 규칙의 심각도(WARNING/CRITICAL)와 활성화 상태를 관리하며, 비활성화된 규칙은 알람을 생성하지 않습니다. GPU 온도, ECC 에러 등 하드웨어 관련 메트릭도 모니터링할 수 있습니다.

사용 방법

사이드바에서 시스템 설정 > 알람 규칙 관리를 클릭합니다.
알람 규칙 테이블에서 기존 규칙의 이름, 대상 메트릭, 조건, 심각도, 활성화 상태를 확인합니다.
새 규칙을 추가하려면 규칙 추가 버튼을 클릭합니다.
기존 규칙을 수정하려면 해당 행의 수정 버튼을 클릭합니다.
규칙을 삭제하려면 해당 행의 삭제 버튼을 클릭합니다.
규칙을 일시적으로 비활성화하려면 활성화 상태 토글을 변경합니다.

확인할 수 있는 정보

항목	설명
알람 규칙 테이블	규칙 이름, 대상 메트릭, 대상 사용자, 조건, 심각도, 활성화 상태, 작업(수정/삭제)
심각도 배지	WARNING(주황색), CRITICAL(빨간색)
활성화 상태	활성(녹색), 비활성(회색)

기본 제공 알람 규칙 예시

규칙 이름	대상 메트릭	조건	심각도
CPU 과부하 경고	cpu_usage	> 90%	WARNING
GPU 온도 위험	gpu_temperature	> 85도C	CRITICAL
메모리 부족	memory_usage	> 95%	WARNING
디스크 용량 부족	disk_usage	> 90%	CRITICAL
GPU 에러 감지	gpu_ecc_errors	> 0	CRITICAL

삭제·비활성화 영향

규칙을 비활성화하면 새 알람은 발생하지 않지만, 기존 알람 이력은 유지됩니다.
규칙을 삭제하면 해당 조건으로는 더 이상 알람이 생성되지 않습니다.

알람 규칙 추가 모달

"규칙 추가" 버튼을 클릭하면 나타나는 모달입니다. 단순 모드와 고급 모드 두 가지 방식으로 알람 조건을 설정할 수 있습니다.

사용 방법 (단순 모드)

알람 규칙 관리 페이지에서 규칙 추가 버튼을 클릭합니다.
규칙 이름(필수)을 입력합니다.
대상 사용자를 선택합니다.
조건 모드를 단순(기본)으로 설정합니다.
메트릭 드롭다운에서 대상(CPU, MEM, DISK, GPU 등)을 선택합니다.
연산자 드롭다운에서 조건(초과 등)을 선택합니다.
임계값을 숫자로 입력합니다 (예: 80).
**지속 시간(분)**을 입력합니다 (예: 5분간 유지 시 알람 발생).
집계 방식을 선택합니다 (평균/최대값/최소값/최신값).
심각도를 선택합니다 (정보/주의/심각).
저장 버튼을 클릭합니다.

사용 방법 (고급 모드)

규칙 추가 모달에서 조건 모드를 고급으로 전환합니다.
조건 트리 빌더를 사용하여 여러 메트릭을 조합한 복합 조건을 정의합니다. AND/OR 논리로 조건을 결합하고, 메트릭 간 산술 연산을 적용할 수 있습니다.
나머지 설정(규칙 이름, 대상 사용자, 심각도)을 입력합니다.
저장 버튼을 클릭합니다.

주요 입력 항목

항목	필수	설명
규칙 이름	필수	알람 규칙 이름
대상 사용자	필수	규칙을 적용할 사용자 (해당 사용자의 서버가 모니터링 대상)
조건 모드	-	단순(기본) / 고급 토글
메트릭	필수(단순)	CPU, MEM, DISK, GPU 등 드롭다운
연산자	필수(단순)	초과(>) 등 드롭다운
임계값	필수(단순)	숫자 입력 (예: 80)
지속 시간(분)	필수(단순)	조건 유지 시간 (예: 5)
집계	필수(단순)	평균, 최대값, 최소값, 최신값 드롭다운
심각도	필수	정보(INFO), 주의(WARNING), 심각(CRITICAL) 드롭다운

심각도 안내

심각도	설명
INFO	참고용 정보 알람입니다
WARNING	주의가 필요한 알람입니다
CRITICAL	즉시 확인이 필요한 심각 알람입니다

단순 모드 vs 고급 모드

일반적인 알람 규칙은 단순 모드로 충분합니다. 여러 메트릭을 조합하거나 복잡한 조건이 필요한 경우에만 고급 모드(조건 트리 빌더)를 사용하세요.

위젯 설정

위젯 설정에서는 위젯 기반 대시보드에 표시할 위젯의 종류와 순서를 관리합니다. 토글 스위치로 각 위젯을 활성화/비활성화하고, 위/아래 버튼으로 표시 순서를 변경합니다.

"필수" 배지가 붙은 위젯은 기본 포함 위젯이며, "dcgm"이나 "ipmi" 배지는 해당 Exporter가 설치된 경우에만 데이터가 표시됩니다.

사용 방법

사이드바에서 시스템 설정 > 위젯 설정을 클릭합니다.
위젯 목록에서 각 위젯의 이름, 설명, 배지(필수/dcgm/ipmi)를 확인합니다.
위젯을 활성화/비활성화하려면 토글 스위치를 클릭합니다.
위젯 표시 순서를 변경하려면 위/아래 화살표 버튼을 클릭합니다.
기본 템플릿으로 복원하려면 템플릿에서 불러오기 버튼을 클릭합니다.
저장된 프리셋을 적용하려면 프리셋 불러오기 버튼을 클릭합니다.
현재 구성을 저장하려면 현재 설정을 프리셋으로 저장 버튼을 클릭합니다.

확인할 수 있는 정보

항목	설명
위젯 목록	위젯명, 설명, 필수/dcgm/ipmi 배지, 토글 스위치
순서 변경	위/아래 화살표 버튼
프리셋 관리	템플릿 불러오기, 프리셋 불러오기, 현재 설정 저장

제공 위젯 목록

위젯	설명	배지
Hero KPI	핵심 지표 요약 바	필수
서버 상태	서버 UP/DOWN 상태 도넛 차트	필수
아침 브리핑	지난 16시간 요약	-
CPU / 메모리	CPU/메모리 평균 사용률 도넛	필수
디스크 사용량	디스크별 사용률 바 차트	필수
GPU 현황	GPU 사용률/온도 모니터링	dcgm
리소스 분포	서버 그룹/담당자별 분포 바 차트	-
핵심 자산	핵심 자산 상태 스포트라이트	-
네트워크 트래픽	네트워크 I/O 모니터링	-
IPMI 센서	IPMI 하드웨어 센서	ipmi

위젯 에러 로그

위젯 에러 로그는 위젯 기반 대시보드 위젯에서 발생한 렌더링 오류를 추적하는 페이지입니다. 24시간 내 발생한 에러 건수, 영향 받은 위젯 종류, 영향 사용자 수를 요약으로 확인합니다.

에러 발생 시 해당 Exporter나 데이터 소스의 상태를 점검해야 합니다.

사용 방법

사이드바에서 시스템 설정 > 위젯 에러 로그를 클릭합니다.
상단 요약 카드에서 24시간 총 발생 건수, 영향 받은 위젯 종류, 영향 받은 사용자 수를 확인합니다.
위젯별 집계 테이블에서 WIDGET_KEY, 발생 횟수, 영향 사용자, 마지막 발생을 확인합니다.
최근 발생 목록에서 시각, WIDGET_KEY, 메시지, ORG_ID, USER_ID를 확인합니다.
검색창에 widget_key 또는 메시지를 입력하여 특정 에러를 찾습니다.
즉시 갱신하려면 새로고침 버튼을 클릭합니다.

확인할 수 있는 정보

항목	설명
요약 카드	24시간 총 발생 건수, 영향 받은 위젯 종류, 영향 받은 사용자 수
위젯별 집계 테이블	WIDGET_KEY, 발생 횟수, 영향 사용자, 마지막 발생
최근 발생 목록	시각, WIDGET_KEY, 메시지, ORG_ID, USER_ID, 상세
과거 에러 이력	시간, 위젯, 에러 메시지, 스택트레이스
검색	widget_key / 메시지 검색

에러 로그 확인

위젯 에러 로그에는 에러 메시지와 스택트레이스가 기록됩니다. 에러가 반복적으로 발생하는 위젯이 있다면 해당 Exporter나 데이터 소스의 상태를 점검하세요. Prometheus 연결 상태, 대상 서버의 네트워크, Exporter 버전 호환성 등을 확인합니다.

시스템 관리자 전용 설정

다음 기능은 시스템 관리자(admin) 패널에서만 접근할 수 있습니다. 관리자 사이드바에는 표시되지 않습니다.

위젯 모듈 관리

위젯 모듈 관리는 위젯 기반 대시보드에서 사용 가능한 위젯 모듈을 등록하고 관리하는 페이지입니다. 등록된 위젯 모듈 목록을 확인하고, 새로운 커스텀 위젯을 추가하거나 기존 모듈을 수정·삭제할 수 있습니다.

각 모듈의 KEY, 카테고리, 레이아웃 크기(COLSPAN), 표시 우선순위를 설정합니다.

사용 방법

시스템 관리자(admin) 패널에서 위젯 모듈 관리 페이지에 접근합니다.
검색창에 key/label/category를 입력하거나 카테고리/상태 드롭다운으로 필터링합니다.
모듈 테이블에서 KEY, LABEL, CATEGORY, MODULE_PATH, COLSPAN, PRIORITY, 필수 여부, 상태를 확인합니다.
새 위젯 모듈을 등록하려면 위젯 모듈 추가 버튼을 클릭합니다.
기존 모듈을 변경하려면 해당 행의 수정 버튼을 클릭합니다.
모듈을 삭제하려면 해당 행의 삭제 버튼을 클릭합니다.

확인할 수 있는 정보

항목	설명
모듈 테이블	KEY, LABEL, CATEGORY, MODULE_PATH, COLSPAN, PRIORITY, 필수 여부, 상태, 작업(수정/삭제)
카테고리	general, cluster, storage, governance, health
검색/필터	key/label/category 검색, 전체 카테고리/상태 드롭다운
총 모듈 수	등록된 전체 위젯 모듈 수 표시

주의사항

필수 위젯은 삭제할 수 없습니다.
위젯 모듈을 비활성화하면 해당 위젯이 대시보드에 표시되지 않을 수 있습니다.
KEY, MODULE_PATH, CATEGORY를 잘못 설정하면 위젯이 렌더링되지 않을 수 있습니다.

Prometheus 관리

온프레미스 환경에서 PRISM이 연동하는 Prometheus 서버의 연결 상태를 확인하고 관리하는 페이지입니다. Prometheus는 서버 메트릭 수집의 핵심 인프라이므로, 연결 상태를 주기적으로 확인하는 것이 중요합니다.

사용 방법

시스템 관리자(admin) 패널에서 Prometheus 관리 페이지에 접근합니다.
Prometheus 서버 연결 상태(연결됨/연결 끊김)를 확인합니다.
서버 정보에서 Prometheus 서버 URL, 버전, 가동 시간(uptime)을 확인합니다.
수집 대상 목록에서 Prometheus가 스크래핑하는 타겟(target)의 상태를 확인합니다.
연결 상태를 즉시 확인하려면 연결 테스트 버튼을 클릭합니다.

확인할 수 있는 정보

항목	설명
연결 상태	Prometheus 서버 연결됨/연결 끊김 실시간 표시
서버 정보	Prometheus 서버 URL, 버전, 가동 시간(uptime)
수집 대상	Prometheus가 스크래핑하는 타겟(target) 목록 및 상태
연결 테스트	Prometheus 서버 접근 가능 여부 즉시 확인

Prometheus 장애 시 영향

Prometheus 연결이 끊어지면 모든 서버의 메트릭 수집이 중단됩니다. 대시보드에 "데이터 수집 상태: 중단"으로 표시되며, 서버 상태가 Unknown으로 변경됩니다. 연결 상태가 비정상이면 Prometheus 프로세스와 네트워크 상태를 점검하세요.

Redis 관리

PRISM이 시계열 데이터 저장에 사용하는 Redis TimeSeries의 상태와 메모리 사용량에 대한 안내입니다.

Redis 관리 안내

Redis 관리 전용 UI 페이지는 현재 제공되지 않습니다. Redis 상태는 서버에서 직접 확인하거나, Prometheus 메트릭을 통해 모니터링합니다.

확인 방법

Redis 서버에 직접 접속하여 상태를 확인합니다 (redis-cli INFO).
INFO server 명령으로 Redis 버전, 가동 시간을 확인합니다.
INFO memory 명령으로 메모리 사용량, 최대 메모리 설정을 확인합니다.
TS.INFO 명령으로 TimeSeries 키 현황과 데이터 보관 기간을 확인합니다.

주요 확인 항목

항목	설명
Redis 서버 상태	연결 상태, 버전, 가동 시간
메모리 사용량	현재 메모리 사용량, 최대 메모리 설정, 사용률(%)
TimeSeries 키 현황	저장된 시계열 키 수, 데이터 보관 기간

Redis 메모리 관리

Redis 메모리 사용률이 90%를 초과하면 오래된 시계열 데이터가 자동으로 정리됩니다. 메모리 사용량이 지속적으로 높다면 데이터 보관 기간 조정이나 Redis 서버의 메모리 증설을 검토하세요.

로그 뷰어

시스템 로그를 실시간으로 조회하고 분석하는 페이지입니다. PRISM 서비스 및 관련 컴포넌트에서 발생하는 로그를 레벨별, 서비스별로 필터링하여 확인할 수 있습니다.

사용 방법

시스템 관리자(admin) 패널에서 로그 뷰어 페이지에 접근합니다.
로그 레벨 필터에서 확인하려는 레벨(ERROR, WARN, INFO, DEBUG)을 선택합니다.
서비스별 필터에서 대상 서비스(GPU, Hardware, System, Service, Exporter 등)를 선택합니다.
시간 범위를 선택하여 특정 시간대의 로그만 조회합니다.
검색창에 키워드를 입력하여 특정 로그 메시지를 검색합니다.
실시간 로그 스트림에서 로그가 발생하는 즉시 확인합니다.
조회된 로그를 파일로 내보내려면 로그 다운로드 버튼을 클릭합니다.

확인할 수 있는 정보

항목	설명
실시간 로그 스트림	로그가 발생하는 즉시 화면에 표시
로그 레벨 필터	ERROR, WARN, INFO, DEBUG 등 레벨별 필터링
서비스별 필터	GPU, Hardware, System, Service, Exporter 등 서비스별 필터링
검색	키워드로 특정 로그 메시지 검색
시간 범위 선택	특정 시간대의 로그만 조회
로그 다운로드	조회된 로그를 파일로 내보내기

로그 레벨 안내

레벨	설명
ERROR	서비스 오류 발생, 즉시 확인 필요
WARN	잠재적 문제, 주의 관찰 필요
INFO	정상 동작 정보
DEBUG	상세 디버깅 정보

Watcher 규칙 관리

Watcher는 PRISM의 별도 서비스 감시 시스템으로, Prometheus에서 수집된 메트릭을 기반으로 자동 감시 규칙을 설정하고 알람을 발송합니다. 알람 규칙 관리와 별도로 운영되며, PromQL 기반의 고급 조건식을 활용할 수 있습니다.

사용 방법

시스템 설정 페이지 하단의 Watcher 규칙 관리 섹션으로 이동합니다.
규칙 목록 테이블에서 현재 등록된 Watcher 규칙을 확인합니다.
새 규칙을 추가하려면 규칙 추가 버튼을 클릭합니다.
규칙명을 입력합니다.
PromQL 조건식을 입력합니다.
- 예: avg(node_cpu_seconds_total{mode="idle"}) < 0.1 (전체 CPU idle이 10% 미만일 때)
- 예: node_filesystem_avail_bytes / node_filesystem_size_bytes < 0.1 (디스크 잔여 용량 10% 미만)
심각도를 선택합니다.
알람 채널을 설정합니다 (이메일, Slack, 웹훅 등).
추가 버튼을 클릭하여 규칙을 저장합니다.
기존 규칙을 수정하려면 편집 버튼, 삭제하려면 삭제 버튼을 클릭합니다.
개별 규칙을 일시적으로 중단하려면 활성/비활성 토글을 전환합니다.

확인할 수 있는 정보

항목	설명
규칙명	Watcher 감시 규칙의 이름
PromQL 조건식	Prometheus 쿼리 언어 기반 감시 조건
심각도	알람 심각도 수준
알람 채널	이메일, Slack, 웹훅 등 알람 전달 채널
상태	활성 / 비활성

삭제·비활성화 영향

규칙을 비활성화하면 새 알람은 발생하지 않지만, 기존 알람 이력은 유지됩니다.
규칙을 삭제하면 해당 조건으로는 더 이상 알람이 생성되지 않습니다.

참고사항

알람 규칙과의 중복 주의

동일한 조건을 알람 규칙과 Watcher 규칙에 동시에 등록하면 중복 알람이 발생할 수 있습니다. 알람 규칙 관리에서는 단순 임계값 기반 규칙을, Watcher 규칙 관리에서는 PromQL을 활용한 고급 감시 조건을 설정합니다. 양쪽에 유사한 조건이 없는지 확인하세요.

Watcher vs 알람 규칙

알람 규칙은 PRISM 내부에서 처리되며, Watcher 규칙은 Watcher 서비스가 독립적으로 감시합니다.

시스템 설정 ​

관리자 설정 ​

알람 규칙 관리 ​

사용 방법 ​

확인할 수 있는 정보 ​

삭제·비활성화 영향 ​

알람 규칙 추가 모달 ​

사용 방법 (단순 모드) ​

사용 방법 (고급 모드) ​

주요 입력 항목 ​

위젯 설정 ​

사용 방법 ​

확인할 수 있는 정보 ​

위젯 에러 로그 ​

사용 방법 ​

확인할 수 있는 정보 ​

시스템 관리자 전용 설정 ​

위젯 모듈 관리 ​

사용 방법 ​

확인할 수 있는 정보 ​

주의사항 ​

Prometheus 관리 ​

사용 방법 ​

확인할 수 있는 정보 ​

Redis 관리 ​

확인 방법 ​

주요 확인 항목 ​

로그 뷰어 ​

사용 방법 ​

확인할 수 있는 정보 ​

Watcher 규칙 관리 ​

사용 방법 ​

확인할 수 있는 정보 ​

삭제·비활성화 영향 ​

참고사항 ​

시스템 설정

관리자 설정

알람 규칙 관리

사용 방법

확인할 수 있는 정보

삭제·비활성화 영향

알람 규칙 추가 모달

사용 방법 (단순 모드)

사용 방법 (고급 모드)

주요 입력 항목

위젯 설정

사용 방법

확인할 수 있는 정보

위젯 에러 로그

사용 방법

확인할 수 있는 정보

시스템 관리자 전용 설정

위젯 모듈 관리

사용 방법

확인할 수 있는 정보

주의사항

Prometheus 관리

사용 방법

확인할 수 있는 정보

Redis 관리

확인 방법

주요 확인 항목

로그 뷰어

사용 방법

확인할 수 있는 정보

Watcher 규칙 관리

사용 방법

확인할 수 있는 정보

삭제·비활성화 영향

참고사항