다크 모드
대시보드 · 모니터링
기관 관리자의 대시보드 및 모니터링 관련 기능을 안내합니다. 조직 내 전체 서버의 실시간 상태를 파악하고, 알람 확인 및 리소스 분석을 수행할 수 있습니다.
대시보드

대시보드는 조직 내 전체 서버의 실시간 상태를 한눈에 보여주는 메인 화면입니다. 상단 카드에서 전체 서버 수, 온라인/오프라인 비율, 사용자 수를 확인할 수 있으며, 담당자별로 서버가 카드 형태로 그룹화되어 배치됩니다.
V2 대시보드 토글을 켜면 위젯 기반의 커스터마이즈 가능한 대시보드로 전환할 수 있습니다. 24시간 내 알림 현황과 활성 고장 서버 정보도 즉시 확인 가능합니다.
주요 기능
- 서버 요약 카드: 전체 서버 수, 온라인/오프라인/Unknown 수, 사용자 수
- 실시간 연결 상태: 마지막 갱신 시각 표시
- V2 대시보드 토글: 위젯 기반 대시보드로 전환
- 최근 24시간 알림 카드: Critical/Warning/Info 건수 표시
- 활성 고장 카드: 장애 서버 현황 표시
- 서버 배치 현황: 담당자별 서버 카드 그룹, 검색 및 필터 기능
- 리소스 사용량 테이블: 담당자별 CPU/MEM 평균 사용률
사이드바 메뉴 구성
좌측 사이드바에는 개요(대시보드, 모니터링 현황, 알람 현황, 리소스 모니터링, 활용 현황, 토폴로지), 인프라 관리, 조직 관리, 시스템 설정 등 20개 메뉴가 제공됩니다.
모니터링 현황

모니터링 현황 화면에서는 등록된 전체 서버의 실시간 리소스 사용량과 수집 상태를 테이블로 확인합니다. 컬럼 헤더를 클릭하면 CPU%, MEM% 등으로 정렬할 수 있으며, CSV 버튼으로 현재 데이터를 다운로드할 수 있습니다.
상단의 데이터 수집 상태에서 데이터 흐름이 "중단"으로 표시되면, Prometheus 연결이나 Exporter 상태를 점검해야 합니다. On-Premise 환경에서는 Bridge 없이 내부 API를 통해 직접 데이터를 수집합니다.
주요 기능
- 상태 요약 카드: Online, Offline, Down 서버 수 표시
- 데이터 수집 상태: 데이터 흐름 상태, 마지막 수집 시각, 수집 속도
- 서버 모니터링 테이블: 서버명, IP, 연구실, CPU%, MEM%, DISK%, NETWORK, 상태, 마지막 수집
- CSV 다운로드 버튼: 현재 데이터 내보내기
- 정렬: 컬럼 헤더 클릭으로 정렬
On-Premise 차이점
On-Premise에서는 SaaS의 "Bridge 상태" 대신 "데이터 수집 상태"로 표시됩니다. 직접 연결 방식의 내부 API를 통해 데이터를 수집합니다.
알람 현황

알람 현황 화면에서는 설정된 규칙에 따라 발생한 알람을 확인합니다. 상단 카드에서 심각도별(Critical/Warning/Info) 건수를 한눈에 파악할 수 있으며, 드롭다운으로 심각도와 기간을 필터링할 수 있습니다.
알람은 알람 규칙 관리에서 설정한 조건(예: CPU > 90%, 메모리 > 95%)에 해당하는 상황이 감지되면 자동으로 생성됩니다. "전체 읽음" 버튼으로 모든 알람을 읽음 처리할 수 있습니다.
주요 기능
- 심각도 요약 카드: Critical(빨간색), Warning(주황색), Info(파란색) 건수 표시
- 필터 영역: 심각도 드롭다운, 기간 선택(오늘 등)
- 전체 읽음 버튼: 모든 알람을 읽음 상태로 변경
- 알람 테이블: 시간, 심각도, 유형, 제목, 메시지, 상태
리소스 모니터링

리소스 모니터링 화면에서는 전체 서버의 CPU, 메모리, GPU 사용률을 시계열 라인 차트로, 디스크 사용률을 바 차트로 확인합니다. 상단에서 특정 서버만 선택하거나 시간 범위(1시간/6시간/24시간)를 변경할 수 있습니다.
디스크 바 차트에서 색상이 빨간색인 서버는 사용률이 높아 주의가 필요합니다. 각 차트의 라인에 마우스를 올리면 서버명과 정확한 수치를 확인할 수 있습니다.
주요 기능
- 서버 선택: "전체" 또는 특정 서버 드롭다운
- 시간 범위: 1시간 / 6시간(기본) / 24시간 버튼 그룹
- CPU Usage 차트: 서버별 CPU 사용률 라인 차트
- Memory Usage 차트: 서버별 메모리 사용률 라인 차트
- Disk Usage 차트: 서버별 디스크 사용률 수평 바 차트 (색상 코딩: 파랑-정상, 주황-경고, 빨강-위험)
- GPU Usage 차트: GPU 보유 서버의 사용률 라인 차트
활용 현황

활용 현황 화면에서는 담당자별 서버 배정 현황과 리소스 활용도를 한눈에 파악합니다. 상단 카드에서 각 담당자가 관리하는 서버 수와 평균 CPU/메모리/디스크 사용률을 확인할 수 있으며, "Low Activity"는 활용도가 낮은 상태를 나타냅니다.
하단 테이블에서는 서버를 CPU%, MEM%, DISK% 등으로 정렬하여 자원 사용 효율을 분석할 수 있습니다. CSV 다운로드로 엑셀 분석도 가능합니다.
주요 기능
- 담당자별 요약 카드: 담당자명, 서버 수(온라인/전체), CPU/Mem/Disk 평균, 활동 상태
- 서버 랭킹 테이블: 서버명, IP, 담당자, CPU%, MEM%, DISK%, 상태(Idle/Offline)
- 필터: 전체 담당자 드롭다운, CPU% 내림차순 정렬
- CSV 다운로드: 데이터 내보내기
토폴로지

토폴로지 화면에서는 등록된 서버들의 상태를 카드 형태로 시각화합니다. 상단 요약 카드에서 전체/정상/주의/장애 서버 수를 확인할 수 있으며, 각 서버 카드의 점 색상으로 상태를 즉시 파악할 수 있습니다.
녹색(ON)은 정상 수집 중, 노란색(주의)은 일부 메트릭 이상, 빨간색(OFF)은 수집 불가 상태를 나타냅니다. 카드를 클릭하면 해당 서버의 상세 정보를 확인할 수 있습니다.
주요 기능
- 상태 요약 카드: 전체 노드 수, 정상(ON), 주의, 장애(OFF) 수
- 서버 카드 그리드: 서버명, IP, 상태(ON/주의/OFF) 표시
- 상태 아이콘: 녹색 점(ON), 노란색 점(주의), 빨간색 점(OFF)
- 카드 클릭: 서버 상세 정보 확인
On-Premise 차이점
On-Premise에서는 2D 카드 뷰가 기본입니다. SaaS 버전에서는 3D sphere 뷰가 기본으로 표시됩니다.
클러스터 대시보드
클러스터 대시보드는 클러스터 전체 현황을 한눈에 파악할 수 있는 전용 뷰입니다. 서버 그룹별 상태를 집약하여 표시하며, 대규모 클러스터 환경에서 그룹 단위의 상태 파악에 최적화되어 있습니다.
주요 기능
- 클러스터 전체 현황: 클러스터 소속 서버의 온라인/오프라인/장애 상태 집계
- 서버 그룹별 상태 요약: 그룹(GPU 클러스터, CPU 클러스터, 스토리지 등)별 서버 상태를 카드 또는 테이블로 표시
- 리소스 사용률 집계: 그룹별 평균 CPU/메모리/GPU 사용률
- 장애 서버 하이라이트: 문제가 발생한 서버를 우선 표시하여 빠른 대응 지원
Slurm 클러스터 모니터링
HPC(High-Performance Computing) 환경에서 Slurm 작업 스케줄러의 상태를 모니터링하는 전용 페이지입니다. Slurm 클러스터의 노드 상태, 작업 진행 현황, 큐/파티션별 사용 현황을 실시간으로 확인할 수 있습니다.
주요 기능
- 노드 상태 모니터링: 각 노드의 Slurm 상태(Idle/Allocated/Down/Drain/Mixed) 실시간 확인
- 작업 진행 현황: 현재 실행 중인 작업 수, 대기 중인 작업 수, 완료된 작업 이력
- 큐/파티션별 사용 현황: 파티션별 할당된 노드 수, 사용 중인 노드 수, 대기 작업 수
- 노드 리소스 현황: Slurm이 관리하는 CPU/메모리/GPU 자원의 할당률 표시
HPC 환경 전용
Slurm 모니터링은 HPC 환경에 Slurm이 설치되어 있고, PRISM이 Slurm 클러스터와 연동되어 있는 경우에만 데이터가 표시됩니다. 환경 키트에서 "HPC 기본" 키트를 적용하면 관련 위젯이 자동 구성됩니다.
Lustre 파일시스템 모니터링
HPC 환경에서 주로 사용되는 Lustre 분산 파일시스템의 건강 상태와 성능을 모니터링하는 전용 페이지입니다.
주요 기능
- 파일시스템 건강 상태: Lustre MDT(Metadata Target), OST(Object Storage Target) 상태 확인
- 스토리지 용량: 전체 용량, 사용 중인 용량, 남은 용량을 시각적으로 표시
- I/O 처리량: 읽기/쓰기 처리량(MB/s) 실시간 시계열 차트
- 메타데이터 성능: 메타데이터 서버의 연산 처리 성능 모니터링
Lustre 스토리지 키트
환경 키트에서 "Lustre 스토리지" 키트를 적용하면 Lustre 파일시스템 모니터링에 필요한 위젯과 알림 규칙이 자동으로 구성됩니다.
IPMI 하드웨어 모니터링
BMC를 통한 IPMI(Intelligent Platform Management Interface) 하드웨어 모니터링 전용 페이지입니다. 서버 전체의 하드웨어 센서 데이터를 실시간으로 확인할 수 있습니다.
주요 기능
- 온도 히트맵: 서버별 CPU, GPU, 메인보드 온도를 히트맵으로 시각화하여 과열 서버를 즉시 식별
- 팬 속도 모니터링: 각 서버의 팬 속도(RPM) 실시간 확인 및 이상 감지
- 전력 소비 모니터링: 서버별 현재 전력 소비량(W) 및 추이 확인
- 센서 데이터 실시간 갱신: IPMI 센서에서 수집되는 온도, 전압, 팬 속도, 전력 데이터를 실시간 표시
- 서버 전체 뷰: 모든 BMC 등록 서버의 하드웨어 상태를 한 페이지에서 비교 분석
BMC 사전 등록 필요
IPMI 하드웨어 모니터링을 사용하려면 BMC 정보 관리 페이지에서 대상 서버의 BMC IP와 인증 정보를 사전 등록해야 합니다.
리포트 생성
PDF 리포트 자동 생성 및 데이터 내보내기 기능을 통해 서버 운영 현황을 문서로 정리하고 외부 시스템에서 활용할 수 있습니다.
주요 기능
- PDF 리포트 자동 생성: 기간별 서버 상태 요약, 알림 통계, 리소스 사용 추이를 포함한 종합 보고서 PDF 생성
- 기간 선택: 일간 / 주간 / 월간 / 사용자 지정 기간
- 서버 상태 요약: 기간 내 온라인/오프라인 가동률, 장애 발생 이력
- 알림 통계: 심각도별 알림 발생 건수 및 추이
- 리소스 사용 추이: CPU/메모리/디스크/GPU 사용률 평균 및 피크
- 데이터 내보내기: CSV/Excel 형식으로 모니터링 데이터 다운로드
리포트 활용
정기 보고서 작성, 용량 계획 수립, SLA 준수 확인 등에 활용할 수 있습니다. 장애 발생 전후 기간을 지정하여 사후 분석 보고서로도 활용 가능합니다.
다크 모드

PRISM은 다크 모드를 지원합니다. 상단 헤더의 다크 모드 토글로 전환하면 전체 UI가 다크 테마로 변경되어, 어두운 환경에서의 모니터링 작업 시 눈의 피로를 줄여줍니다.
다크 모드에서도 서버 상태(녹색 온라인 표시), 리소스 사용률(프로그레스 바), 작업 버튼 등 모든 기능이 동일하게 동작합니다.
주요 기능
- 전체 UI 다크 테마: 다크 블루/그레이 배경 적용
- 서버 정보 카드: 서버명, 상태, IP, 담당자, 그룹 표시
- 리소스 사용률: CPU/MEM/DISK 프로그레스 바 (녹색 텍스트)
- 최근 알림: 최근 7일간 알림 현황
- 작업 버튼: 팀 이동, 담당자 변경, 배정 해제
