다크 모드
위젯
서버 카드를 클릭하면 해당 서버에 활성화된 위젯들이 표시됩니다. 위젯은 서버의 다양한 모니터링 지표를 시각화하는 구성 요소로, 관리자가 환경에 맞게 설정합니다.
시스템 개요

시스템 개요 위젯은 서버의 전반적인 상태를 한눈에 파악할 수 있는 요약 위젯입니다. 도넛 차트로 CPU, 메모리, 디스크의 사용률을 시각화하며, 호스트명, 운영체제, 가동 시간, 로드 평균 등 서버의 기본 정보를 함께 표시합니다.
주요 기능
- 호스트 정보: 서버명, OS 종류 및 버전, 커널 버전
- 가동 시간: uptime 표시 (일/시간/분)
- CPU 사용률 도넛 차트: 전체 CPU 사용률 (%), 유휴/시스템/사용자 비율
- 메모리 사용률 도넛 차트: 사용/캐시/여유 메모리 비율
- 디스크 사용률 도넛 차트: 사용/여유 디스크 비율
- 네트워크 상태: 네트워크 인터페이스 정보, 송수신 트래픽
- 로드 평균: 1분/5분/15분 로드 평균값
Lustre 모니터링

Lustre 모니터링 위젯은 HPC 환경의 Lustre 병렬 파일 시스템 상태를 모니터링합니다. 파일 시스템의 읽기/쓰기 성능, OST 용량 사용률, MDT 상태를 실시간으로 확인하여 스토리지 병목이나 용량 부족을 사전에 파악할 수 있습니다.
주요 기능
- Lustre 상태 표시: 파일 시스템 마운트 상태 (정상/비정상)
- I/O 성능 라인 차트: 읽기/쓰기 처리량 (MB/s) 시계열 차트
- OST(Object Storage Target) 상태: 각 OST의 용량 사용률 바 차트
- MDT(Metadata Target) 상태: 메타데이터 처리 현황
- 연결 클라이언트 수: 현재 Lustre에 연결된 클라이언트 수
특수 하드웨어

특수 하드웨어 위젯은 GPU, InfiniBand 등 고성능 컴퓨팅에 사용되는 특수 장비의 상태를 전용으로 모니터링합니다. GPU의 온도, 전력 소비, 메모리 사용률을 실시간으로 확인하며, 온도가 임계치에 가까워지면 색상으로 경고합니다.
주요 기능
- GPU 상태 카드: GPU별 온도(도), 전력(W), 메모리 사용률(%), 활용률(%)
- GPU 온도 게이지: 온도별 색상 구분 (녹색: 정상, 주황색: 주의, 빨간색: 위험)
- InfiniBand 링크 상태: 링크 속도, 에러 카운트, 연결 상태
- NVLINK 상태: GPU 간 NVLINK 연결 상태 (해당 시)
팁
GPU 온도가 지속적으로 주황색 이상을 유지하면, 쿨링 시스템 점검이 필요할 수 있습니다.
클러스터 Slurm

클러스터 Slurm 위젯은 Slurm 작업 스케줄러의 전체 현황을 보여줍니다. 현재 실행 중인 작업 수, 대기 중인 작업 수, 노드 상태(Idle/Allocated/Down)를 한눈에 파악할 수 있으며, 파티션별 사용 현황을 통해 클러스터의 부하 분포를 확인할 수 있습니다.
주요 기능
- 작업 현황 카운트: 실행중(Running), 대기(Pending), 완료(Completed), 실패(Failed) 건수
- 노드 상태 바 차트: Idle/Allocated/Down/Drain 비율
- 파티션별 현황 테이블: 파티션명, 총 노드 수, 사용 중 노드, 유휴 노드, 대기 작업 수
- 큐 대기 시간: 평균 작업 대기 시간
- 최근 작업 목록: 최근 제출된 작업 5~10건 (작업 ID, 사용자, 상태, 소요 시간)
스토리지 Lustre

스토리지 Lustre 위젯은 Lustre 파일 시스템의 용량과 성능을 상세하게 모니터링합니다. 전체 용량 사용률과 각 OST별 사용 비율을 비교하여 특정 OST에 데이터가 편중되는지 확인할 수 있으며, I/O 트렌드 차트로 성능 변화를 추적합니다.
주요 기능
- 전체 용량 도넛 차트: 전체 Lustre 스토리지의 사용/여유 비율
- OST별 용량 바 차트: 각 OST의 사용률 비교
- I/O 트렌드 라인 차트: 시간별 읽기/쓰기 처리량 변화
- IOPS 표시: 초당 I/O 작업 수
- 대역폭 표시: 총 대역폭 사용률
트렌드 분석

트렌드 분석 위젯은 서버 리소스의 장기적인 사용 추이를 분석합니다. CPU, 메모리, 디스크 사용률의 변화 패턴을 파악하여 용량 증설이 필요한 시점을 예측하거나, 특정 시간대의 부하 패턴을 분석할 수 있습니다. 차트를 드래그하여 관심 구간을 확대할 수 있습니다.
주요 기능
- 멀티 라인 차트: CPU/MEM/DISK 사용률을 색상 구분된 라인으로 동시 표시
- 시간 범위 선택: 24시간 / 7일 / 30일 / 90일
- 범례: 각 지표의 색상 구분
- 최고/최저/평균값 표시: 선택 기간 동안의 통계 요약
- 줌 기능: 차트 영역 드래그로 특정 구간 확대
팁
장기간(30일, 90일) 트렌드를 확인하면 리소스 사용량의 증가 추세를 파악하여 용량 증설 시기를 예측할 수 있습니다.
상세 분석

상세 분석 위젯은 서버의 리소스를 프로세스 수준까지 세부적으로 분석합니다. CPU와 메모리를 가장 많이 사용하는 프로세스를 상위 순으로 확인할 수 있어, 리소스 과다 사용의 원인을 빠르게 식별할 수 있습니다.
주요 기능
- 프로세스 테이블: PID, 프로세스명, CPU%, MEM%, 상태
- 상위 프로세스 바 차트: CPU/MEM 점유율 기준 상위 5~10개 프로세스
- 리소스 히스토그램: 사용률 분포 (막대 차트)
- 선택 지표: CPU/MEM/DISK/Network 탭 전환
Slurm 클러스터

Slurm 클러스터 위젯은 클러스터의 각 노드를 그리드 형태로 표시하여 전체 클러스터의 상태를 직관적으로 파악합니다. 녹색(유휴), 파란색(작업 중), 빨간색(다운), 주황색(유지보수) 등 색상으로 노드 상태가 구분됩니다.
주요 기능
- 노드 그리드: 노드별 셀을 그리드로 배치, 상태별 색상 구분
- 녹색(Idle): 유휴 상태
- 파란색(Allocated): 작업 할당됨
- 빨간색(Down): 다운
- 주황색(Drain): 유지보수 중
- 파티션 필터: 파티션별 노드 필터링
- 노드 클릭 상세: 개별 노드 상세 정보 (CPU/MEM, 할당된 작업, 파티션)
- 전체 현황 요약: 총 노드 수, 상태별 비율
추가 위젯

PRISM은 기업 환경에 맞게 다양한 위젯을 추가로 구성할 수 있습니다. 관리자가 환경 키트나 위젯 설정에서 활성화한 위젯이 대시보드에 표시됩니다. 위젯은 라인 차트, 바 차트, 도넛 차트, 테이블 등 다양한 시각화 형태를 지원합니다.
주요 기능
- 커스텀 차트/테이블: 기업별 맞춤 지표를 표시하는 위젯
- 차트 유형: 라인 차트, 바 차트, 도넛 차트, 테이블 등 다양한 형태
- 데이터 지표: 기업 환경에 맞는 커스텀 모니터링 지표
- 위젯 헤더: 위젯 제목과 설명
IPMI 서버 상세

IPMI 서버 상세 위젯은 BMC를 통해 수집한 하드웨어 수준의 센서 데이터를 보여줍니다. CPU 온도, 시스템 온도, 팬 속도, 전력 소비량 등 물리적 서버의 건강 상태를 실시간으로 모니터링합니다. 온도가 임계치에 가까워지면 색상으로 경고하여 사전에 대응할 수 있습니다.
주요 기능
- 온도 센서 목록: CPU 온도, 시스템 온도, 인렛/아웃렛 온도 (도 단위)
- 온도 게이지: 온도별 색상 구분 (정상: 녹색, 주의: 주황색, 위험: 빨간색)
- 팬 속도: 각 팬의 RPM 값
- 전원 상태: 전원 공급 상태, 전력 소비량(W)
- 이벤트 로그: 최근 IPMI SEL(System Event Log) 항목
네트워크 · 서비스 위젯

추가 위젯은 기업 환경에 맞게 구성된 모니터링 도구로, 네트워크 트래픽, 서비스 상태, 에러 카운트 등 다양한 지표를 시각화합니다. 관리자가 위젯 설정에서 활성화한 항목만 대시보드에 표시됩니다.
주요 기능
- 네트워크 트래픽 차트: 인터페이스별 송수신 트래픽 (라인 차트)
- 서비스 상태 테이블: 주요 서비스(sshd, docker 등)의 실행 상태
- 에러 카운트: 시스템 에러/경고 발생 건수 카운트
- 위젯 헤더: 위젯 이름과 마지막 갱신 시각
Slurm 리소스

Slurm 리소스 위젯은 클러스터의 리소스(CPU, 메모리, GPU) 할당 및 사용 현황을 보여줍니다. 전체 리소스 풀 대비 할당 비율과 실제 사용량을 비교하여 리소스 낭비나 부족 상태를 파악할 수 있습니다. 사용자별 리소스 사용 현황도 확인할 수 있습니다.
주요 기능
- 리소스 풀 게이지: 전체 CPU 코어/메모리/GPU 중 할당된 비율 (게이지 차트)
- 할당 vs 사용 비교 바 차트: 할당된 리소스와 실제 사용 리소스 비교
- 사용자별 리소스 테이블: 사용자명, 할당 CPU, 할당 MEM, 할당 GPU, 실행 작업 수
- 효율성 지표: 리소스 활용 효율 (실제 사용량 / 할당량 비율)
GPU 에러 현황

GPU 에러 현황 위젯은 GPU에서 발생한 하드웨어 오류를 전용으로 추적합니다. ECC 에러(메모리 비트 오류) 중 Uncorrectable 에러는 데이터 손상 가능성이 있으므로 즉시 확인이 필요합니다. XID 에러는 GPU 드라이버 수준의 오류를 나타냅니다. 에러 트렌드를 통해 특정 GPU의 불량 조짐을 사전에 감지할 수 있습니다.
주요 기능
- 에러 카운트 카드:
- ECC 에러 (Correctable / Uncorrectable) 건수
- XID 에러 건수
- 온도 이상 건수
- 에러 이력 테이블: 발생시각, GPU 번호, 에러 유형, 에러 코드, 설명
- 에러 트렌드 라인 차트: 시간별 에러 발생 추이
- GPU별 에러 비교 바 차트: GPU 번호별 에러 건수 비교
주의
Uncorrectable ECC 에러가 발생하면 데이터 손상 가능성이 있으므로 즉시 관리자에게 보고하고 해당 GPU의 상태를 점검해야 합니다.
GPU 노드 상세
GPU 노드 상세 위젯은 개별 GPU 노드의 상세 메트릭을 집중적으로 모니터링합니다. GPU별 온도, 메모리 사용량, 연산 사용률, 팬 속도를 실시간으로 확인하여 개별 GPU의 건강 상태를 정밀하게 파악할 수 있습니다.
주요 기능
- GPU별 온도 모니터링: 각 GPU의 실시간 온도 표시 (도 단위), 임계치 초과 시 색상 경고
- GPU 메모리 사용량: GPU별 VRAM 사용량/전체 용량 표시 (MB/GB 단위)
- GPU 사용률 게이지: 연산 코어 사용률을 게이지 차트로 표시 (0~100%)
- 팬 속도 표시: 각 GPU의 쿨링 팬 RPM 값 및 정상 범위 표시
- 전력 소비: GPU별 현재 전력 소비량(W) 및 전력 제한값
팁
딥러닝 학습 작업 시 GPU 메모리 사용량과 사용률을 함께 확인하면 모델 배치 크기 최적화에 도움이 됩니다.
IPMI 센서
IPMI 센서 위젯은 BMC(Baseboard Management Controller)를 통해 수집한 하드웨어 센서 데이터를 실시간으로 모니터링합니다. 운영체제 수준에서 확인할 수 없는 물리적 하드웨어 상태(온도, 팬, 전력)를 직접 모니터링하여 하드웨어 장애를 사전에 감지할 수 있습니다.
주요 기능
- 온도 센서 실시간 모니터링: CPU, 시스템 보드, 인렛/아웃렛 온도를 실시간 갱신
- 팬 상태 모니터링: 각 팬의 RPM 값 및 동작 상태 (정상/경고/장애)
- 전력 모니터링: 전체 시스템 전력 소비량(W), PSU별 상태
- 센서 임계값 표시: 각 센서의 정상/주의/위험 범위를 색상으로 구분
- 센서 이력 차트: 센서 값의 시간별 변화 추이를 라인 차트로 표시
참고
IPMI 센서 위젯은 서버에 BMC가 설치되어 있고, IPMI 접속 설정이 완료된 경우에만 데이터가 표시됩니다.
Slurm 작업
Slurm 작업 위젯은 Slurm 워크로드 매니저의 작업 현황, 큐 상태, 노드 가용성을 종합적으로 표시합니다. 클러스터에 제출된 작업의 실행 상태를 한눈에 파악하고, 대기 중인 작업과 사용 가능한 노드를 확인하여 작업 제출 시점을 판단할 수 있습니다.
주요 기능
- 작업 현황 요약: 실행 중(Running) / 대기(Pending) / 완료(Completed) / 실패(Failed) 작업 건수
- 큐 상태: 파티션별 대기 작업 수, 평균 대기 시간
- 노드 가용성: 전체 노드 대비 사용 가능(Idle) 노드 비율 표시
- 작업 타임라인: 최근 작업의 제출 시각, 시작 시각, 완료 시각을 타임라인으로 표시
- 사용자별 작업 현황: 사용자별 실행 중/대기 중 작업 수 요약
Lustre 모니터링 상세
Lustre 모니터링 상세 위젯은 Lustre 병렬 파일시스템의 스토리지 용량, I/O 처리량, 메타데이터 서버 상태를 상세하게 모니터링합니다. 대용량 데이터 처리 환경에서 스토리지 병목 현상을 사전에 파악하고 용량 계획을 수립하는 데 활용할 수 있습니다.
주요 기능
- 스토리지 용량: 전체 Lustre 파일시스템의 사용/여유 용량 표시 (도넛 차트)
- I/O 처리량: 실시간 읽기/쓰기 처리량(MB/s, GB/s) 라인 차트
- 메타데이터 서버(MDS) 상태: MDS 연결 상태, 메타데이터 처리 IOPS
- OST별 상태: 각 Object Storage Target의 용량 사용률 및 I/O 부하
- 클라이언트 연결 수: 현재 Lustre에 마운트된 클라이언트 수 및 연결 상태
팁
OST별 용량 사용률에 편차가 큰 경우, 데이터 분배가 불균형한 상태일 수 있습니다. 관리자에게 보고하여 스토리지 밸런싱을 검토하는 것을 권장합니다.
