대시보드 · 모니터링

서버 현황을 실시간으로 확인하고, 알람과 리소스를 분석합니다.

대시보드

대시보드는 조직의 전체 서버 현황을 카드 형태로 보여주는 메인 페이지입니다. 상단 카드에서 전체 서버 수, 온라인/오프라인 비율, 사용자 수를 확인할 수 있으며, 담당자별로 서버가 카드 형태로 그룹화되어 배치됩니다.

위젯 기반 대시보드 토글을 켜면 위젯 표시 여부와 배치를 조정할 수 있는 대시보드로 전환됩니다. 24시간 내 알람 현황과 활성 고장 서버 정보도 즉시 확인 가능합니다.

위젯 기반 대시보드

위젯 기반 대시보드는 기존 카드형 대시보드와 달리 위젯 표시 여부와 배치를 조정할 수 있습니다. 환경 키트를 적용하면 모니터링 환경(HPC, GPU, 스토리지 등)에 맞는 위젯이 자동으로 구성됩니다.

사용 방법

사이드바에서 개요 > 대시보드를 클릭합니다.
상단 요약 카드에서 전체 서버 수, 온라인/오프라인 수, 사용자 수를 확인합니다.
담당자별로 그룹화된 서버 카드 영역에서 개별 서버 상태를 확인합니다.
검색창에 서버명 또는 IP를 입력하여 특정 서버를 찾습니다.
위젯 기반 대시보드 토글을 켜면 위젯 기반 대시보드로 전환됩니다.
24시간 알람 카드에서 Critical/Warning/Info 건수를 확인합니다.
활성 고장 카드에서 현재 장애 중인 서버 현황을 확인합니다.

확인할 수 있는 정보

항목	설명
서버 요약 카드	전체 서버 수, 온라인/오프라인/Unknown 수, 사용자 수
실시간 연결 상태	마지막 데이터 갱신 시각 표시
위젯 기반 대시보드 토글	위젯 기반 대시보드로 전환
최근 24시간 알람 카드	Critical/Warning/Info 건수 표시
활성 고장 카드	장애 서버 현황 표시
서버 배치 현황	담당자별 서버 카드 그룹, 검색 및 필터 기능
리소스 사용량 테이블	담당자별 CPU/MEM 평균 사용률

사이드바 메뉴 구성

좌측 사이드바는 개요, 인프라 관리, 조직 관리, 시스템 설정 그룹으로 구성되어 있습니다.

모니터링 현황

등록된 전체 서버의 실시간 리소스 사용량과 수집 상태를 테이블로 확인합니다. 컬럼 헤더를 클릭하면 CPU%, MEM% 등으로 정렬할 수 있으며, CSV 버튼으로 현재 데이터를 다운로드할 수 있습니다.

상단의 데이터 수집 상태에서 데이터 흐름이 중단으로 표시되면, Prometheus 연결이나 Exporter 상태를 점검해야 합니다.

사용 방법

사이드바에서 개요 > 모니터링 현황을 클릭합니다.
상단 상태 요약 카드에서 Online, Offline, Down 서버 수를 확인합니다.
데이터 수집 상태 영역에서 데이터 흐름 상태와 마지막 수집 시각을 확인합니다.
서버 모니터링 테이블에서 각 서버의 CPU%, MEM%, DISK%, NETWORK 등을 확인합니다.
컬럼 헤더를 클릭하여 원하는 기준으로 정렬합니다.
데이터를 외부에서 활용하려면 CSV 다운로드 버튼을 클릭합니다.

확인할 수 있는 정보

항목	설명
상태 요약 카드	Online, Offline, Down 서버 수
데이터 수집 상태	데이터 흐름 상태, 마지막 수집 시각, 수집 속도
서버 모니터링 테이블	서버명, IP, 연구실, CPU%, MEM%, DISK%, NETWORK, 상태, 마지막 수집
CSV 다운로드	현재 테이블 데이터를 CSV 파일로 내보내기

온프레미스 차이점

온프레미스 환경에서는 Bridge를 사용하지 않습니다. PRISM은 내부망에서 Exporter, Prometheus 등을 통해 데이터를 직접 수집합니다. 데이터 흐름이 중단으로 표시되면 Prometheus 연결 상태, Exporter 실행 상태, 내부 네트워크 접근 여부를 확인하세요.

알람 현황

알람 현황 페이지에서는 설정된 규칙에 따라 발생한 알람을 확인합니다. 상단 카드에서 심각도별(Critical/Warning/Info) 건수를 한눈에 파악할 수 있으며, 드롭다운으로 심각도와 기간을 필터링할 수 있습니다.

알람은 알람 규칙 관리에서 설정한 조건(예: CPU > 90%, 메모리 > 95%)에 해당하는 상황이 감지되면 자동으로 생성됩니다.

사용 방법

사이드바에서 개요 > 알람 현황을 클릭합니다.
상단 심각도 요약 카드에서 Critical(빨간색), Warning(주황색), Info(파란색) 건수를 확인합니다.
심각도 드롭다운에서 특정 심각도만 필터링합니다.
기간 선택(오늘 등)으로 조회 기간을 변경합니다.
알람 테이블에서 시간, 심각도, 유형, 제목, 메시지, 상태를 확인합니다.
모든 알람을 읽음 처리하려면 전체 읽음 버튼을 클릭합니다.

확인할 수 있는 정보

항목	설명
심각도 요약 카드	Critical(빨간색), Warning(주황색), Info(파란색) 건수
필터 영역	심각도 드롭다운, 기간 선택
알람 테이블	시간, 심각도, 유형, 제목, 메시지, 상태
전체 읽음 버튼	모든 알람을 읽음 상태로 일괄 변경

리소스 모니터링

전체 서버의 CPU, 메모리, GPU 사용률을 시계열 라인 차트로, 디스크 사용률을 바 차트로 확인합니다. 상단에서 특정 서버만 선택하거나 시간 범위를 변경할 수 있습니다.

디스크 바 차트에서 색상이 빨간색인 서버는 사용률이 높아 주의가 필요합니다.

사용 방법

사이드바에서 개요 > 리소스 모니터링을 클릭합니다.
상단 서버 드롭다운에서 "전체" 또는 특정 서버를 선택합니다.
시간 범위 버튼에서 1시간, 6시간, 24시간 중 하나를 선택합니다.
CPU Usage 라인 차트에서 서버별 CPU 사용률 추이를 확인합니다.
Memory Usage 라인 차트에서 서버별 메모리 사용률 추이를 확인합니다.
Disk Usage 바 차트에서 서버별 디스크 사용률을 확인합니다.
GPU Usage 라인 차트에서 GPU 보유 서버의 사용률 추이를 확인합니다.
각 차트의 라인에 마우스를 올리면 서버명과 정확한 수치를 확인할 수 있습니다.

확인할 수 있는 정보

항목	설명
서버 선택	"전체" 또는 특정 서버 드롭다운
시간 범위	1시간 / 6시간(기본) / 24시간 버튼 그룹
CPU Usage 차트	서버별 CPU 사용률 라인 차트
Memory Usage 차트	서버별 메모리 사용률 라인 차트
Disk Usage 차트	서버별 디스크 사용률 수평 바 차트 (파랑-정상, 주황-경고, 빨강-위험)
GPU Usage 차트	GPU 보유 서버의 사용률 라인 차트

활용 현황

담당자별 서버 배정 현황과 리소스 활용도를 한눈에 파악합니다. 상단 카드에서 각 담당자가 관리하는 서버 수와 평균 CPU/메모리/디스크 사용률을 확인할 수 있으며, "Low Activity"는 활용도가 낮은 상태를 나타냅니다.

하단 테이블에서는 서버를 CPU%, MEM%, DISK% 등으로 정렬하여 자원 사용 효율을 분석할 수 있습니다.

사용 방법

사이드바에서 개요 > 활용 현황을 클릭합니다.
상단 담당자별 요약 카드에서 각 담당자의 서버 수(온라인/전체), CPU/Mem/Disk 평균을 확인합니다.
"Low Activity" 표시가 있는 담당자의 서버 활용도를 점검합니다.
전체 담당자 드롭다운에서 특정 담당자만 필터링합니다.
하단 서버 랭킹 테이블에서 CPU% 내림차순 정렬하여 자원 사용 효율을 분석합니다.
데이터를 외부에서 활용하려면 CSV 다운로드 버튼을 클릭합니다.

확인할 수 있는 정보

항목	설명
담당자별 요약 카드	담당자명, 서버 수(온라인/전체), CPU/Mem/Disk 평균, 활동 상태
서버 랭킹 테이블	서버명, IP, 담당자, CPU%, MEM%, DISK%, 상태(Idle/Offline)
필터	전체 담당자 드롭다운, CPU% 내림차순 정렬
CSV 다운로드	테이블 데이터 내보내기

토폴로지

등록된 서버 상태를 카드 형태로 시각화합니다. 상단 요약 카드에서 전체/정상/주의/장애 서버 수를 확인할 수 있으며, 각 서버 카드의 점 색상으로 상태를 즉시 파악할 수 있습니다.

사용 방법

사이드바에서 개요 > 토폴로지를 클릭합니다.
상단 상태 요약 카드에서 전체 노드 수, 정상(ON), 주의, 장애(OFF) 수를 확인합니다.
서버 카드 그리드에서 각 서버의 상태를 점 색상으로 파악합니다.
특정 서버 카드를 클릭하면 해당 서버의 상세 정보를 확인할 수 있습니다.

확인할 수 있는 정보

항목	설명
상태 요약 카드	전체 노드 수, 정상(ON), 주의, 장애(OFF) 수
서버 카드 그리드	서버명, IP, 상태(ON/주의/OFF) 표시
상태 아이콘	녹색 점(ON) = 정상 수집 중, 노란색 점 = 일부 메트릭 이상, 빨간색 점(OFF) = 수집 불가

온프레미스에서는 2D 카드 뷰가 기본으로 표시됩니다. 상단의 2D/3D 전환 토글로 뷰를 변경할 수 있습니다.

클러스터 대시보드

클러스터 대시보드는 클러스터 전체 현황을 한눈에 파악할 수 있는 전용 뷰입니다. 서버 그룹별 상태를 집약하여 표시하며, 클러스터 단위의 모니터링에 최적화되어 있습니다.

사용 방법

사이드바 또는 위젯 기반 대시보드의 클러스터 관련 메뉴에서 접근합니다.
클러스터 전체 현황에서 등록된 서버의 온라인/오프라인/장애 상태 집계를 확인합니다.
서버 그룹별(GPU 클러스터, CPU 클러스터, 스토리지 등) 상태 요약을 카드 또는 테이블로 확인합니다.
그룹별 평균 CPU/메모리/GPU 사용률을 비교합니다.
장애 서버가 하이라이트되어 있는 경우 해당 서버를 클릭하여 상세 정보를 확인합니다.

확인할 수 있는 정보

항목	설명
클러스터 전체 현황	등록된 서버의 온라인/오프라인/장애 상태 집계
서버 그룹별 상태	그룹(GPU/CPU/스토리지 등)별 서버 상태 요약
리소스 사용률 집계	그룹별 평균 CPU/메모리/GPU 사용률
장애 서버 하이라이트	문제가 발생한 서버를 우선 표시

Slurm 클러스터 모니터링

HPC(High-Performance Computing) 환경에서 Slurm 작업 스케줄러의 상태를 모니터링하는 전용 페이지입니다. Slurm 클러스터의 노드 상태, 작업 진행 현황, 큐/파티션별 사용 현황을 실시간으로 확인할 수 있습니다.

사용 방법

위젯 기반 대시보드에서 환경 키트 "HPC 기본"을 적용하거나, 사이드바의 클러스터 관련 메뉴에서 접근합니다.
노드 상태 영역에서 각 노드의 Slurm 상태(Idle/Allocated/Down/Drain/Mixed)를 확인합니다.
작업 진행 현황에서 실행 중인 작업 수, 대기 중인 작업 수, 완료된 작업 이력을 확인합니다.
큐/파티션별 사용 현황에서 파티션별 할당·사용 노드 수와 대기 작업 수를 확인합니다.
노드 리소스 현황에서 CPU/메모리/GPU 자원의 할당률을 확인합니다.

확인할 수 있는 정보

항목	설명
노드 상태	각 노드의 Slurm 상태 (Idle/Allocated/Down/Drain/Mixed)
작업 진행 현황	실행 중 작업 수, 대기 중 작업 수, 완료 작업 이력
큐/파티션별 사용 현황	파티션별 할당 노드 수, 사용 중 노드 수, 대기 작업 수
노드 리소스 현황	Slurm이 관리하는 CPU/메모리/GPU 자원의 할당률

HPC 환경 전용

Slurm 모니터링은 HPC 환경에 Slurm이 설치되어 있고, PRISM이 Slurm 클러스터와 연동되어 있는 경우에만 데이터가 표시됩니다. 환경 키트에서 "HPC 기본" 키트를 적용하면 관련 위젯이 자동 구성됩니다.

Lustre 파일시스템 모니터링

HPC 환경에서 주로 사용되는 Lustre 분산 파일시스템의 건강 상태와 성능을 모니터링하는 전용 페이지입니다.

사용 방법

위젯 기반 대시보드에서 환경 키트 "Lustre 스토리지"를 적용하거나, 사이드바의 클러스터 관련 메뉴에서 접근합니다.
파일시스템 건강 상태에서 MDT(Metadata Target)와 OST(Object Storage Target) 상태를 확인합니다.
스토리지 용량 시각화에서 전체 용량, 사용 중인 용량, 남은 용량을 확인합니다.
I/O 처리량 시계열 차트에서 읽기/쓰기 처리량(MB/s)을 확인합니다.
메타데이터 성능 영역에서 메타데이터 서버의 연산 처리 성능을 확인합니다.

확인할 수 있는 정보

항목	설명
파일시스템 건강 상태	Lustre MDT(Metadata Target), OST(Object Storage Target) 상태
스토리지 용량	전체 용량, 사용 중인 용량, 남은 용량 시각적 표시
I/O 처리량	읽기/쓰기 처리량(MB/s) 실시간 시계열 차트
메타데이터 성능	메타데이터 서버의 연산 처리 성능

Lustre 스토리지 키트

환경 키트에서 "Lustre 스토리지" 키트를 적용하면 Lustre 파일시스템 모니터링에 필요한 위젯과 알람 규칙이 자동으로 구성됩니다.

IPMI 하드웨어 모니터링

BMC를 통한 IPMI(Intelligent Platform Management Interface) 하드웨어 모니터링 전용 페이지입니다. 서버 전체의 하드웨어 센서 데이터를 확인할 수 있습니다.

사용 방법

BMC 정보 관리 페이지에서 대상 서버의 BMC 정보가 등록되어 있는지 확인합니다.
IPMI 하드웨어 모니터링 페이지에서 BMC가 등록된 전체 서버의 센서 데이터를 확인합니다.
온도 히트맵에서 서버별 CPU, GPU, 메인보드 온도를 시각적으로 비교하여 과열 서버를 식별합니다.
팬 속도 모니터링에서 각 서버의 팬 속도(RPM)와 이상 여부를 확인합니다.
전력 소비 모니터링에서 서버별 전력 소비량(W)과 추이를 확인합니다.

확인할 수 있는 정보

항목	설명
온도 히트맵	서버별 CPU, GPU, 메인보드 온도를 히트맵으로 시각화
팬 속도	각 서버의 팬 속도(RPM) 및 이상 감지
전력 소비	서버별 현재 전력 소비량(W) 및 추이
센서 데이터	IPMI 센서에서 수집되는 온도, 전압, 팬 속도, 전력 데이터
서버 전체 뷰	모든 BMC 등록 서버의 하드웨어 상태를 한 페이지에서 비교

BMC 사전 등록 필요

IPMI 하드웨어 모니터링을 사용하려면 BMC 정보 관리 페이지에서 대상 서버의 BMC IP와 인증 정보를 사전 등록해야 합니다.

리포트 생성

PDF 리포트 자동 생성 및 데이터 내보내기 기능을 통해 서버 운영 현황을 문서로 정리하고 외부 시스템에서 활용할 수 있습니다.

사용 방법

위젯 기반 대시보드 상단의 리포트 생성 버튼을 클릭합니다.
기간 선택에서 일간 / 주간 / 월간 / 사용자 지정 기간 중 하나를 선택합니다.
리포트에 포함할 항목(서버 상태, 알람 통계, 리소스 추이 등)을 확인합니다.
PDF 생성 버튼을 클릭하여 종합 보고서를 다운로드합니다.
CSV/Excel 형식으로 모니터링 데이터를 내보내려면 데이터 내보내기 버튼을 사용합니다.

확인할 수 있는 정보

항목	설명
기간 선택	일간 / 주간 / 월간 / 사용자 지정 기간
서버 상태 요약	기간 내 온라인/오프라인 가동률, 장애 발생 이력
알람 통계	심각도별 알람 발생 건수 및 추이
리소스 사용 추이	CPU/메모리/디스크/GPU 사용률 평균 및 피크
데이터 내보내기	CSV/Excel 형식으로 모니터링 데이터 다운로드

리포트 활용

정기 보고서 작성, 용량 계획 수립, SLA 준수 확인 등에 활용할 수 있습니다. 장애 발생 전후 기간을 지정하여 사후 분석 보고서로도 활용 가능합니다.

다크 모드

PRISM은 다크 모드를 지원합니다. 상단 헤더의 다크 모드 토글을 클릭하면 전체 UI가 다크 테마로 전환됩니다.

사용 방법

상단 헤더의 다크 모드 토글을 클릭합니다.
화면이 다크 테마로 전환됩니다.
라이트 모드로 돌아가려면 토글을 다시 클릭합니다.

다크 모드에서도 서버 상태 색상, 알람 심각도 배지, 차트 색상은 동일하게 표시됩니다.

대시보드 · 모니터링 ​

대시보드 ​

사용 방법 ​

확인할 수 있는 정보 ​

모니터링 현황 ​

사용 방법 ​

확인할 수 있는 정보 ​

온프레미스 차이점 ​

알람 현황 ​

사용 방법 ​

확인할 수 있는 정보 ​

리소스 모니터링 ​

사용 방법 ​

확인할 수 있는 정보 ​

활용 현황 ​

사용 방법 ​

확인할 수 있는 정보 ​

토폴로지 ​

사용 방법 ​

확인할 수 있는 정보 ​

클러스터 대시보드 ​

사용 방법 ​

확인할 수 있는 정보 ​

Slurm 클러스터 모니터링 ​

사용 방법 ​

확인할 수 있는 정보 ​

Lustre 파일시스템 모니터링 ​

사용 방법 ​

확인할 수 있는 정보 ​

IPMI 하드웨어 모니터링 ​

사용 방법 ​

확인할 수 있는 정보 ​

리포트 생성 ​

사용 방법 ​

확인할 수 있는 정보 ​

다크 모드 ​

사용 방법 ​

대시보드 · 모니터링

대시보드

사용 방법

확인할 수 있는 정보

모니터링 현황

사용 방법

확인할 수 있는 정보

온프레미스 차이점

알람 현황

사용 방법

확인할 수 있는 정보

리소스 모니터링

사용 방법

확인할 수 있는 정보

활용 현황

사용 방법

확인할 수 있는 정보

토폴로지

사용 방법

확인할 수 있는 정보

클러스터 대시보드

사용 방법

확인할 수 있는 정보

Slurm 클러스터 모니터링

사용 방법

확인할 수 있는 정보

Lustre 파일시스템 모니터링

사용 방법

확인할 수 있는 정보

IPMI 하드웨어 모니터링

사용 방법

확인할 수 있는 정보

리포트 생성

사용 방법

확인할 수 있는 정보

다크 모드

사용 방법