Skip to content

시스템 설정

알람 규칙 관리, 위젯 설정, 위젯 모듈 관리, 위젯 에러 로그 등 시스템 설정 기능을 안내합니다.

알람 규칙 관리

알람 규칙 관리

알람 규칙 관리에서는 서버 메트릭에 대한 자동 알람 조건을 설정합니다. 예를 들어 "CPU 사용률이 90%를 초과하면 Warning 알람 생성" 같은 규칙을 정의합니다.

각 규칙의 심각도(Warning/Critical)와 활성화 상태를 관리하며, 비활성화된 규칙은 알람을 생성하지 않습니다. GPU 온도, ECC 에러 등 하드웨어 관련 메트릭도 모니터링할 수 있습니다.

주요 기능

  • 규칙 추가 버튼: 새 알람 규칙 생성 (모달 호출)
  • 알람 규칙 테이블: 규칙 이름, 대상 메트릭, 대상 사용자, 조건, 심각도(Warning/Critical), 활성화 상태, 작업(수정/삭제)
  • 심각도 배지: Warning(주황색), Critical(빨간색)
  • 활성화 상태: 활성(녹색), 비활성(회색)

기본 제공 알람 규칙 예시

규칙 이름대상 메트릭조건심각도
CPU 과부하 경고cpu_usage> 90%Warning
GPU 온도 위험gpu_temperature> 85도CCritical
메모리 부족memory_usage> 95%Warning
디스크 용량 부족disk_usage> 90%Critical
GPU 에러 감지gpu_ecc_errors> 0Critical

알람 규칙 추가 모달

알람 규칙 추가 모달

"규칙 추가" 버튼을 클릭하면 나타나는 모달입니다. 규칙 이름을 입력하고, 대상 사용자를 선택한 후 조건을 설정합니다.

단순 모드에서는 메트릭(CPU/메모리/디스크/GPU 등), 연산자(초과/미만), 임계값, 지속 시간, 집계 방식(평균/최대/최소), 심각도(주의/경고/위험)를 설정합니다. 예시: "CPU 평균 사용률이 5분 동안 80%를 초과하면 주의 알람 생성".

고급 모드에서는 PromQL 쿼리를 직접 작성하여 더 복잡한 조건을 정의할 수 있습니다.

  • 규칙 이름: 알람 규칙 이름 입력 (필수)
  • 대상 사용자: 알람 수신 대상 선택
  • 조건 모드: 단순(기본) / 고급 토글
  • 메트릭: CPU, MEM, DISK, GPU 등 드롭다운
  • 연산자: 초과(>) 등 드롭다운
  • 임계값: 숫자 입력 (예: 80)
  • 지속 시간(분): 조건 유지 시간 입력 (예: 5)
  • 집계: 평균, 최대, 최소 드롭다운
  • 심각도: 주의, 경고, 위험 드롭다운
  • 저장/취소 버튼

단순 모드 vs 고급 모드

일반적인 알람 규칙은 단순 모드로 충분합니다. 여러 메트릭을 조합하거나 복잡한 수식이 필요한 경우에만 고급 모드(PromQL)를 사용하세요.

위젯 설정

위젯 설정

위젯 설정에서는 V2 대시보드에 표시할 위젯의 종류와 순서를 관리합니다. 토글 스위치로 각 위젯을 활성화/비활성화하고, 위/아래 버튼으로 표시 순서를 변경합니다.

"필수" 배지가 붙은 위젯(Hero KPI, 서버 상태, CPU/메모리, 디스크 사용량)은 기본 포함 위젯이며, "dcgm"이나 "ipmi" 배지는 해당 Exporter가 설치된 경우에만 데이터가 표시됩니다. 프리셋을 저장/불러오기하여 위젯 구성을 빠르게 전환할 수 있습니다.

주요 기능

  • 위젯 목록: 위젯명, 설명, 필수/dcgm/ipmi 배지, 토글 스위치
  • 순서 변경: 위/아래 화살표 버튼
  • 템플릿에서 불러오기 버튼: 기본 템플릿 적용
  • 프리셋 불러오기 버튼: 저장된 프리셋 적용
  • 현재 설정을 프리셋으로 저장 버튼: 현재 구성 저장

제공 위젯 목록

위젯설명필수
Hero KPI핵심 지표 요약 바필수
서버 상태서버 UP/DOWN 상태 도넛 차트필수
아침 브리핑지난 16시간 요약-
CPU / 메모리CPU/메모리 평균 사용률 도넛필수
디스크 사용량디스크별 사용률 바 차트필수
GPU 현황GPU 사용률/온도 모니터링dcgm
리소스 분포서버 그룹/소유자별 분포 바 차트-
핵심 자산핵심 자산 상태 스포트라이트-
네트워크 트래픽네트워크 I/O 모니터링-
IPMI 센서IPMI 하드웨어 센서ipmi

위젯 모듈 관리

위젯 모듈 관리

위젯 모듈 관리는 시스템 관리자가 V2 대시보드에서 사용 가능한 위젯 모듈을 등록하고 관리하는 화면입니다. 각 모듈의 KEY, 카테고리(general/cluster/hardware/storage), 레이아웃 크기(COLSPAN), 표시 우선순위를 설정합니다.

현재 총 47개의 위젯 모듈이 등록되어 있으며, "수정"으로 모듈 설정을 변경하거나 "삭제"로 제거할 수 있습니다. 새로운 커스텀 위젯을 추가하려면 "위젯 모듈 추가" 버튼을 사용합니다.

주요 기능

  • 위젯 모듈 추가 버튼: 새 위젯 모듈 등록
  • 검색/필터: key/label/category 검색, 전체 카테고리/상태 드롭다운
  • 모듈 테이블: KEY, LABEL, CATEGORY, MODULE_PATH, COLSPAN, PRIORITY, 필수 여부, 상태, 작업(수정/삭제)
  • 총 모듈 수: 등록된 전체 위젯 모듈 수 표시

위젯 에러 로그

위젯 에러 로그

위젯 에러 로그는 V2 대시보드 위젯에서 발생한 렌더링 오류를 추적하는 화면입니다. 24시간 내 발생한 에러 건수, 영향 받은 위젯 종류, 영향 사용자 수를 요약으로 확인합니다.

에러 코드별로 TIMEOUT(수집 지연), CONNECTION(연결 실패), DATA_ERROR(데이터 오류), PARSE_ERROR(파싱 실패) 등이 표시되며, 에러 발생 시 해당 Exporter나 데이터 소스의 상태를 점검해야 합니다.

주요 기능

  • 요약 카드: 24시간 총 발생 건수, 영향 받은 위젯 종류, 영향 받은 사용자 수
  • 위젯별 집계 테이블: WIDGET_KEY, 발생 횟수, 영향 사용자, 마지막 발생
  • 최근 발생 목록: 시각, WIDGET_KEY, 메시지, ORG_ID, USER_ID, 상세
  • 과거 에러 이력: 시간, 위젯, 에러 코드(TIMEOUT/CONNECTION/DATA_ERROR/PARSE_ERROR), 메시지
  • 새로고침 버튼: 수동 갱신
  • 검색: widget_key / 메시지 검색

에러 코드 안내

에러 코드의미조치
TIMEOUT메트릭 수집 타임아웃Exporter 응답 속도 확인
CONNECTIONBMC/서버 연결 실패네트워크 및 대상 서버 상태 확인
DATA_ERROR데이터베이스 쿼리 오류InfluxDB/Prometheus 상태 확인
PARSE_ERRORExporter 응답 파싱 실패Exporter 버전 호환성 확인

Prometheus 관리

On-Premise 환경에서 PRISM이 연동하는 Prometheus 서버의 연결 상태를 확인하고 관리하는 페이지입니다. Prometheus는 서버 메트릭 수집의 핵심 인프라이므로, 연결 상태를 주기적으로 확인하는 것이 중요합니다.

주요 기능

  • Prometheus 서버 연결 상태: 연결됨/연결 끊김 상태 실시간 표시
  • 서버 정보: Prometheus 서버 URL, 버전, 가동 시간(uptime) 표시
  • 수집 대상 확인: Prometheus가 스크래핑하는 타겟(target) 목록 및 상태
  • 연결 테스트 버튼: Prometheus 서버 접근 가능 여부 즉시 확인

Prometheus 장애 시 영향

Prometheus 연결이 끊어지면 모든 서버의 메트릭 수집이 중단됩니다. 대시보드에 "데이터 수집 상태: 중단"으로 표시되며, 서버 상태가 Unknown으로 변경됩니다. 연결 상태가 비정상이면 Prometheus 프로세스와 네트워크 상태를 점검하세요.

Redis 관리

PRISM이 시계열 데이터 저장에 사용하는 Redis TimeSeries의 상태와 메모리 사용량을 확인하는 페이지입니다.

주요 기능

  • Redis 서버 상태: 연결 상태, 버전, 가동 시간 표시
  • 메모리 사용량: 현재 메모리 사용량, 최대 메모리 설정, 사용률(%) 표시
  • TimeSeries 키 현황: 저장된 시계열 키 수, 데이터 보관 기간 확인
  • 연결 테스트 버튼: Redis 서버 접근 가능 여부 즉시 확인

Redis 메모리 관리

Redis 메모리 사용률이 90%를 초과하면 오래된 시계열 데이터가 자동으로 정리됩니다. 메모리 사용량이 지속적으로 높다면 데이터 보관 기간 조정이나 Redis 서버의 메모리 증설을 검토하세요.

로그 뷰어

시스템 로그를 실시간으로 조회하고 분석하는 페이지입니다. PRISM 서비스 및 관련 컴포넌트에서 발생하는 로그를 레벨별, 서비스별로 필터링하여 확인할 수 있습니다.

주요 기능

  • 실시간 로그 스트림: 로그가 발생하는 즉시 화면에 표시
  • 로그 레벨 필터: ERROR, WARN, INFO, DEBUG 등 로그 레벨별 필터링
  • 서비스별 필터: PRISM Service, Data, Watcher, Bridge 등 서비스별 필터링
  • 검색: 키워드로 특정 로그 메시지 검색
  • 시간 범위 선택: 특정 시간대의 로그만 조회
  • 로그 다운로드: 조회된 로그를 파일로 내보내기

로그 레벨 안내

레벨설명
ERROR서비스 오류 발생, 즉시 확인 필요
WARN잠재적 문제, 주의 관찰 필요
INFO정상 동작 정보
DEBUG상세 디버깅 정보

Watcher 규칙 관리

Watcher는 PRISM의 별도 서비스 감시 시스템으로, Prometheus에서 수집된 메트릭을 기반으로 자동 감시 규칙을 설정하고 알림을 발송합니다. 알람 규칙 관리와 별도로 운영되며, PromQL 기반의 고급 조건식을 활용할 수 있습니다.

주요 기능

  • PromQL 기반 조건식: Prometheus 쿼리 언어(PromQL)를 직접 사용하여 복잡한 감시 조건 정의
    • 예: avg(node_cpu_seconds_total{mode="idle"}) < 0.1 (전체 CPU idle이 10% 미만일 때)
    • 예: node_filesystem_avail_bytes / node_filesystem_size_bytes < 0.1 (디스크 잔여 용량 10% 미만)
  • 알림 채널 연동: 규칙별로 알림을 전달할 채널 설정
    • 이메일, Slack, 웹훅 등 다양한 알림 채널 지원
  • 규칙 활성/비활성 관리: 개별 규칙의 활성화 상태를 토글로 관리
  • 규칙 목록 테이블: 규칙명, PromQL 조건식, 심각도, 알림 채널, 상태(활성/비활성)
  • 규칙 추가/편집/삭제: Watcher 규칙의 CRUD 관리

Watcher vs 알람 규칙

알람 규칙 관리에서는 단순/고급 모드로 규칙을 설정하고, Watcher 규칙 관리에서는 PromQL을 활용한 별도의 감시 조건을 설정합니다. 알람 규칙은 PRISM 내부에서 처리되며, Watcher 규칙은 Watcher 서비스가 독립적으로 감시합니다.

PRISM Server Monitoring Platform