다크 모드
시스템 설정
알람 규칙 관리, 위젯 설정, 위젯 모듈 관리, 위젯 에러 로그 등 시스템 설정 기능을 안내합니다.
알람 규칙 관리

알람 규칙 관리에서는 서버 메트릭에 대한 자동 알람 조건을 설정합니다. 예를 들어 "CPU 사용률이 90%를 초과하면 Warning 알람 생성" 같은 규칙을 정의합니다.
각 규칙의 심각도(Warning/Critical)와 활성화 상태를 관리하며, 비활성화된 규칙은 알람을 생성하지 않습니다. GPU 온도, ECC 에러 등 하드웨어 관련 메트릭도 모니터링할 수 있습니다.
주요 기능
- 규칙 추가 버튼: 새 알람 규칙 생성 (모달 호출)
- 알람 규칙 테이블: 규칙 이름, 대상 메트릭, 대상 사용자, 조건, 심각도(Warning/Critical), 활성화 상태, 작업(수정/삭제)
- 심각도 배지: Warning(주황색), Critical(빨간색)
- 활성화 상태: 활성(녹색), 비활성(회색)
기본 제공 알람 규칙 예시
| 규칙 이름 | 대상 메트릭 | 조건 | 심각도 |
|---|---|---|---|
| CPU 과부하 경고 | cpu_usage | > 90% | Warning |
| GPU 온도 위험 | gpu_temperature | > 85도C | Critical |
| 메모리 부족 | memory_usage | > 95% | Warning |
| 디스크 용량 부족 | disk_usage | > 90% | Critical |
| GPU 에러 감지 | gpu_ecc_errors | > 0 | Critical |
알람 규칙 추가 모달

"규칙 추가" 버튼을 클릭하면 나타나는 모달입니다. 규칙 이름을 입력하고, 대상 사용자를 선택한 후 조건을 설정합니다.
단순 모드에서는 메트릭(CPU/메모리/디스크/GPU 등), 연산자(초과/미만), 임계값, 지속 시간, 집계 방식(평균/최대/최소), 심각도(주의/경고/위험)를 설정합니다. 예시: "CPU 평균 사용률이 5분 동안 80%를 초과하면 주의 알람 생성".
고급 모드에서는 PromQL 쿼리를 직접 작성하여 더 복잡한 조건을 정의할 수 있습니다.
- 규칙 이름: 알람 규칙 이름 입력 (필수)
- 대상 사용자: 알람 수신 대상 선택
- 조건 모드: 단순(기본) / 고급 토글
- 메트릭: CPU, MEM, DISK, GPU 등 드롭다운
- 연산자: 초과(>) 등 드롭다운
- 임계값: 숫자 입력 (예: 80)
- 지속 시간(분): 조건 유지 시간 입력 (예: 5)
- 집계: 평균, 최대, 최소 드롭다운
- 심각도: 주의, 경고, 위험 드롭다운
- 저장/취소 버튼
단순 모드 vs 고급 모드
일반적인 알람 규칙은 단순 모드로 충분합니다. 여러 메트릭을 조합하거나 복잡한 수식이 필요한 경우에만 고급 모드(PromQL)를 사용하세요.
위젯 설정

위젯 설정에서는 V2 대시보드에 표시할 위젯의 종류와 순서를 관리합니다. 토글 스위치로 각 위젯을 활성화/비활성화하고, 위/아래 버튼으로 표시 순서를 변경합니다.
"필수" 배지가 붙은 위젯(Hero KPI, 서버 상태, CPU/메모리, 디스크 사용량)은 기본 포함 위젯이며, "dcgm"이나 "ipmi" 배지는 해당 Exporter가 설치된 경우에만 데이터가 표시됩니다. 프리셋을 저장/불러오기하여 위젯 구성을 빠르게 전환할 수 있습니다.
주요 기능
- 위젯 목록: 위젯명, 설명, 필수/dcgm/ipmi 배지, 토글 스위치
- 순서 변경: 위/아래 화살표 버튼
- 템플릿에서 불러오기 버튼: 기본 템플릿 적용
- 프리셋 불러오기 버튼: 저장된 프리셋 적용
- 현재 설정을 프리셋으로 저장 버튼: 현재 구성 저장
제공 위젯 목록
| 위젯 | 설명 | 필수 |
|---|---|---|
| Hero KPI | 핵심 지표 요약 바 | 필수 |
| 서버 상태 | 서버 UP/DOWN 상태 도넛 차트 | 필수 |
| 아침 브리핑 | 지난 16시간 요약 | - |
| CPU / 메모리 | CPU/메모리 평균 사용률 도넛 | 필수 |
| 디스크 사용량 | 디스크별 사용률 바 차트 | 필수 |
| GPU 현황 | GPU 사용률/온도 모니터링 | dcgm |
| 리소스 분포 | 서버 그룹/소유자별 분포 바 차트 | - |
| 핵심 자산 | 핵심 자산 상태 스포트라이트 | - |
| 네트워크 트래픽 | 네트워크 I/O 모니터링 | - |
| IPMI 센서 | IPMI 하드웨어 센서 | ipmi |
위젯 모듈 관리

위젯 모듈 관리는 시스템 관리자가 V2 대시보드에서 사용 가능한 위젯 모듈을 등록하고 관리하는 화면입니다. 각 모듈의 KEY, 카테고리(general/cluster/hardware/storage), 레이아웃 크기(COLSPAN), 표시 우선순위를 설정합니다.
현재 총 47개의 위젯 모듈이 등록되어 있으며, "수정"으로 모듈 설정을 변경하거나 "삭제"로 제거할 수 있습니다. 새로운 커스텀 위젯을 추가하려면 "위젯 모듈 추가" 버튼을 사용합니다.
주요 기능
- 위젯 모듈 추가 버튼: 새 위젯 모듈 등록
- 검색/필터: key/label/category 검색, 전체 카테고리/상태 드롭다운
- 모듈 테이블: KEY, LABEL, CATEGORY, MODULE_PATH, COLSPAN, PRIORITY, 필수 여부, 상태, 작업(수정/삭제)
- 총 모듈 수: 등록된 전체 위젯 모듈 수 표시
위젯 에러 로그

위젯 에러 로그는 V2 대시보드 위젯에서 발생한 렌더링 오류를 추적하는 화면입니다. 24시간 내 발생한 에러 건수, 영향 받은 위젯 종류, 영향 사용자 수를 요약으로 확인합니다.
에러 코드별로 TIMEOUT(수집 지연), CONNECTION(연결 실패), DATA_ERROR(데이터 오류), PARSE_ERROR(파싱 실패) 등이 표시되며, 에러 발생 시 해당 Exporter나 데이터 소스의 상태를 점검해야 합니다.
주요 기능
- 요약 카드: 24시간 총 발생 건수, 영향 받은 위젯 종류, 영향 받은 사용자 수
- 위젯별 집계 테이블: WIDGET_KEY, 발생 횟수, 영향 사용자, 마지막 발생
- 최근 발생 목록: 시각, WIDGET_KEY, 메시지, ORG_ID, USER_ID, 상세
- 과거 에러 이력: 시간, 위젯, 에러 코드(TIMEOUT/CONNECTION/DATA_ERROR/PARSE_ERROR), 메시지
- 새로고침 버튼: 수동 갱신
- 검색: widget_key / 메시지 검색
에러 코드 안내
| 에러 코드 | 의미 | 조치 |
|---|---|---|
| TIMEOUT | 메트릭 수집 타임아웃 | Exporter 응답 속도 확인 |
| CONNECTION | BMC/서버 연결 실패 | 네트워크 및 대상 서버 상태 확인 |
| DATA_ERROR | 데이터베이스 쿼리 오류 | InfluxDB/Prometheus 상태 확인 |
| PARSE_ERROR | Exporter 응답 파싱 실패 | Exporter 버전 호환성 확인 |
Prometheus 관리
On-Premise 환경에서 PRISM이 연동하는 Prometheus 서버의 연결 상태를 확인하고 관리하는 페이지입니다. Prometheus는 서버 메트릭 수집의 핵심 인프라이므로, 연결 상태를 주기적으로 확인하는 것이 중요합니다.
주요 기능
- Prometheus 서버 연결 상태: 연결됨/연결 끊김 상태 실시간 표시
- 서버 정보: Prometheus 서버 URL, 버전, 가동 시간(uptime) 표시
- 수집 대상 확인: Prometheus가 스크래핑하는 타겟(target) 목록 및 상태
- 연결 테스트 버튼: Prometheus 서버 접근 가능 여부 즉시 확인
Prometheus 장애 시 영향
Prometheus 연결이 끊어지면 모든 서버의 메트릭 수집이 중단됩니다. 대시보드에 "데이터 수집 상태: 중단"으로 표시되며, 서버 상태가 Unknown으로 변경됩니다. 연결 상태가 비정상이면 Prometheus 프로세스와 네트워크 상태를 점검하세요.
Redis 관리
PRISM이 시계열 데이터 저장에 사용하는 Redis TimeSeries의 상태와 메모리 사용량을 확인하는 페이지입니다.
주요 기능
- Redis 서버 상태: 연결 상태, 버전, 가동 시간 표시
- 메모리 사용량: 현재 메모리 사용량, 최대 메모리 설정, 사용률(%) 표시
- TimeSeries 키 현황: 저장된 시계열 키 수, 데이터 보관 기간 확인
- 연결 테스트 버튼: Redis 서버 접근 가능 여부 즉시 확인
Redis 메모리 관리
Redis 메모리 사용률이 90%를 초과하면 오래된 시계열 데이터가 자동으로 정리됩니다. 메모리 사용량이 지속적으로 높다면 데이터 보관 기간 조정이나 Redis 서버의 메모리 증설을 검토하세요.
로그 뷰어
시스템 로그를 실시간으로 조회하고 분석하는 페이지입니다. PRISM 서비스 및 관련 컴포넌트에서 발생하는 로그를 레벨별, 서비스별로 필터링하여 확인할 수 있습니다.
주요 기능
- 실시간 로그 스트림: 로그가 발생하는 즉시 화면에 표시
- 로그 레벨 필터: ERROR, WARN, INFO, DEBUG 등 로그 레벨별 필터링
- 서비스별 필터: PRISM Service, Data, Watcher, Bridge 등 서비스별 필터링
- 검색: 키워드로 특정 로그 메시지 검색
- 시간 범위 선택: 특정 시간대의 로그만 조회
- 로그 다운로드: 조회된 로그를 파일로 내보내기
로그 레벨 안내
| 레벨 | 설명 |
|---|---|
| ERROR | 서비스 오류 발생, 즉시 확인 필요 |
| WARN | 잠재적 문제, 주의 관찰 필요 |
| INFO | 정상 동작 정보 |
| DEBUG | 상세 디버깅 정보 |
Watcher 규칙 관리
Watcher는 PRISM의 별도 서비스 감시 시스템으로, Prometheus에서 수집된 메트릭을 기반으로 자동 감시 규칙을 설정하고 알림을 발송합니다. 알람 규칙 관리와 별도로 운영되며, PromQL 기반의 고급 조건식을 활용할 수 있습니다.
주요 기능
- PromQL 기반 조건식: Prometheus 쿼리 언어(PromQL)를 직접 사용하여 복잡한 감시 조건 정의
- 예:
avg(node_cpu_seconds_total{mode="idle"}) < 0.1(전체 CPU idle이 10% 미만일 때) - 예:
node_filesystem_avail_bytes / node_filesystem_size_bytes < 0.1(디스크 잔여 용량 10% 미만)
- 예:
- 알림 채널 연동: 규칙별로 알림을 전달할 채널 설정
- 이메일, Slack, 웹훅 등 다양한 알림 채널 지원
- 규칙 활성/비활성 관리: 개별 규칙의 활성화 상태를 토글로 관리
- 규칙 목록 테이블: 규칙명, PromQL 조건식, 심각도, 알림 채널, 상태(활성/비활성)
- 규칙 추가/편집/삭제: Watcher 규칙의 CRUD 관리
Watcher vs 알람 규칙
알람 규칙 관리에서는 단순/고급 모드로 규칙을 설정하고, Watcher 규칙 관리에서는 PromQL을 활용한 별도의 감시 조건을 설정합니다. 알람 규칙은 PRISM 내부에서 처리되며, Watcher 규칙은 Watcher 서비스가 독립적으로 감시합니다.
