Skip to content

모니터링 · 알람

모니터링 현황

모니터링 현황

모니터링 현황 페이지에서는 플랫폼에 등록된 모든 기업의 서버를 한 테이블에서 관리합니다. 각 서버의 Bridge 연결 상태, 실시간 리소스 사용량(CPU/메모리/디스크), 마지막 데이터 수집 시각을 확인할 수 있습니다. 상단의 기업 필터를 사용하면 특정 기업의 서버만 빠르게 조회할 수 있습니다.

주요 기능

  • 기업 필터 드롭다운: 전체 기업 또는 특정 기업을 선택하여 서버 목록을 필터링합니다.
  • 서버 목록 테이블: 다음 컬럼으로 구성됩니다.
    • 서버명: 서버 호스트명
    • IP: 서버 IP 주소
    • 기업(연구실): 소속 기업 및 연구실명
    • Bridge 상태: Connected(녹색 배지) / Disconnected(빨간색 배지)
    • CPU%: CPU 사용률 (퍼센트 바)
    • MEM%: 메모리 사용률 (퍼센트 바)
    • DISK%: 디스크 사용률 (퍼센트 바)
    • 상태: 온라인/오프라인/경고 배지
    • 마지막 수집: 최근 데이터 수집 시각 (타임스탬프)
  • 검색 입력란: 서버명 또는 IP로 검색할 수 있습니다.
  • 페이지네이션: 하단 페이지 이동 컨트롤을 제공합니다.

Bridge 상태가 Disconnected인 서버는 데이터 수집이 중단된 상태입니다. 마지막 수집 시각을 확인하여 연결 끊김 시점을 파악하고, 해당 서버의 Bridge 프로세스 상태를 점검하십시오.

알람 현황

알람 현황

알람 현황 페이지에서는 모든 기업에서 발생한 알람을 심각도별로 분류하여 확인할 수 있습니다. Critical(긴급), Warning(경고), Info(정보) 세 단계로 구분되며, 기업, 심각도, 기간 필터를 조합하여 필요한 알람만 빠르게 조회할 수 있습니다.

주요 기능

  • 심각도별 카운트 배지:
    • Critical (빨간색): 즉시 대응이 필요한 긴급 알람 수
    • Warning (주황색): 주의가 필요한 경고 알람 수
    • Info (파란색): 참고용 정보 알람 수
  • 필터 영역:
    • 기업 필터: 전체 또는 특정 기업 선택
    • 심각도 필터: Critical/Warning/Info 개별 또는 복수 선택
    • 기간 필터: 시작일~종료일 날짜 범위 지정
  • 알람 목록 테이블: 발생시각, 기업명, 서버명, 알람 유형, 심각도, 메시지, 상태를 표시합니다.
  • 페이지네이션: 하단 페이지 이동을 지원합니다.

참고

Critical 알람은 서버 장애 또는 긴급 상황을 의미합니다. Critical 알람이 발생하면 즉시 해당 기업과 서버를 확인하여 조치를 취해야 합니다.

토폴로지

토폴로지

토폴로지 페이지에서는 모든 기업의 서버 네트워크 구조를 3D 시각화로 확인할 수 있습니다. 기본 구(sphere) 레이아웃에서 각 서버가 노드로 표시되며, 기업별로 색상이 구분됩니다. 마우스로 회전/줌하여 다양한 각도에서 네트워크 구조를 파악할 수 있습니다.

주요 기능

  • 3D 토폴로지 캔버스: 전체 화면을 차지하는 3D 렌더링 영역입니다.
  • 노드(서버): 구 형태로 표시되며, 기업별 색상으로 구분됩니다. 호버 시 서버 정보 툴팁이 표시됩니다.
  • 연결선: 서버 간 네트워크 연결 관계를 시각화합니다.
  • 레이아웃 전환 컨트롤: 구(sphere), 그리드(grid), 트리(tree) 등의 레이아웃으로 변경할 수 있습니다.
  • 줌/회전 컨트롤: 마우스 휠(줌), 드래그(회전)로 시점을 조작합니다.
  • 기업 필터: 특정 기업의 서버만 표시하여 집중적으로 확인할 수 있습니다.

레이아웃을 트리(tree) 형태로 전환하면 서버 간 계층 구조를 더 명확하게 파악할 수 있습니다. 기업 필터와 함께 사용하면 특정 기업의 네트워크 구조만 집중적으로 분석할 수 있습니다.

클러스터 대시보드

클러스터 대시보드는 클러스터 전체 현황을 한눈에 파악할 수 있는 전용 모니터링 화면입니다. 서버 그룹별 상태, 리소스 사용 추이, 클러스터 건강도를 종합적으로 표시하여 대규모 인프라를 효율적으로 관리할 수 있습니다.

주요 기능

  • 서버 그룹별 상태 요약: 클러스터에 속한 서버 그룹(노드 그룹)의 온라인/오프라인/경고 상태를 그룹 단위로 집계하여 표시합니다.
  • 리소스 사용 추이 차트: CPU, 메모리, GPU 등 주요 리소스의 시간대별 사용 추이를 라인 차트로 시각화합니다. 기간 범위를 조정하여 단기/장기 추세를 분석할 수 있습니다.
  • 클러스터 건강도 지표: 클러스터 전체의 가용성, 장애 노드 비율, 평균 응답 시간 등을 종합하여 건강도 점수로 표시합니다.
  • 그룹별 필터링: 특정 서버 그룹만 선택하여 해당 그룹의 상세 현황을 집중적으로 확인할 수 있습니다.

클러스터 건강도 지표가 임계값 이하로 떨어지면 알람이 자동 발생합니다. 리소스 사용 추이 차트에서 급격한 변화가 감지되면 해당 시점의 작업 이력을 함께 확인하십시오.

Slurm 클러스터 모니터링

HPC 클러스터의 Slurm 작업 스케줄러 모니터링 전용 페이지입니다. 경로: /special/cluster_slurm.html

Slurm 기반 HPC 환경에서 노드 상태, 작업 진행 현황, 큐/파티션 사용 현황을 실시간으로 모니터링할 수 있습니다.

주요 기능

  • 노드 상태 대시보드: 전체 노드의 상태를 Idle, Allocated, Down, Drain 등 Slurm 상태별로 분류하여 표시합니다. 각 상태별 노드 수가 색상 배지로 구분됩니다.
  • 작업 진행 현황: Running(실행 중), Pending(대기 중), Completed(완료) 상태별 작업 수를 실시간으로 집계합니다. 각 작업의 소유자, 파티션, 실행 시간 등 상세 정보를 테이블로 제공합니다.
  • 큐/파티션별 사용 현황: 파티션별 할당된 노드 수, 대기 중인 작업 수, 리소스 사용률을 표시합니다. 파티션 간 부하 불균형을 시각적으로 파악할 수 있습니다.
  • 작업 히스토리 및 리소스 사용 추적: 완료된 작업의 실행 이력과 소요 시간, 사용한 리소스(CPU 코어, 메모리, GPU)를 기록하여 조회할 수 있습니다.

참고

Slurm 모니터링 데이터는 HPC 클러스터에 Slurm이 설치되어 있고, PRISM Exporter가 Slurm 데이터를 수집하도록 구성된 경우에만 표시됩니다. Slurm이 구성되지 않은 환경에서는 이 페이지가 비활성 상태로 표시됩니다.

Lustre 파일시스템 모니터링

HPC 환경의 Lustre 파일시스템 모니터링 전용 페이지입니다. 경로: /special/cluster_lustre.html

Lustre 파일시스템의 건강 상태, 스토리지 용량, I/O 처리량 등을 실시간으로 모니터링하여 파일시스템 성능 및 안정성을 관리합니다.

주요 기능

  • 파일시스템 건강 상태: Lustre 파일시스템의 전반적인 건강 상태를 표시합니다. 정상/경고/장애 상태를 색상으로 구분합니다.
  • 스토리지 용량 및 사용률: 전체 스토리지 용량 대비 사용량을 퍼센트 바와 수치로 표시합니다. OST(Object Storage Target)별 사용률 분포를 확인할 수 있습니다.
  • I/O 처리량 모니터링: 읽기/쓰기 I/O 처리량을 실시간 차트로 시각화합니다. 시간대별 I/O 패턴 분석이 가능합니다.
  • 메타데이터 서버(MDS) 상태: MDS의 가용성, 메타데이터 연산 처리량, 응답 시간을 모니터링합니다.
  • 오브젝트 스토리지 서버(OSS) 상태: 각 OSS 노드의 상태, 디스크 사용률, I/O 처리량을 개별적으로 표시합니다.

참고

Lustre 모니터링은 HPC 클러스터에 Lustre 파일시스템이 구성되어 있고, 관련 Exporter가 활성화된 환경에서만 동작합니다. MDS 또는 OSS 상태가 비정상인 경우, 파일시스템 전체 성능에 영향을 줄 수 있으므로 즉시 점검하십시오.

IPMI 하드웨어 모니터링

서버 하드웨어 센서 데이터 모니터링 전용 페이지입니다. 경로: /special/cluster_ipmi.html

BMC에서 수집한 IPMI 센서 데이터를 기반으로 서버별 온도, 팬 속도, 전력 소비를 실시간으로 모니터링합니다.

주요 기능

  • 온도 히트맵: 서버별 CPU, GPU, 시스템 온도를 히트맵으로 시각화합니다. 색상 스펙트럼(파란색~빨간색)으로 온도 범위를 직관적으로 파악할 수 있으며, 과열 서버를 즉시 식별할 수 있습니다.
  • 팬 속도 모니터링: 서버별 팬 RPM을 스파크라인 차트로 표시합니다. 비정상적인 팬 속도 변화를 시계열로 추적할 수 있습니다.
  • 전력 소비 모니터링: 서버별 전력 소비량(와트)을 실시간으로 추적합니다. 전체 클러스터의 전력 사용 추이와 개별 서버의 전력 소비 패턴을 분석할 수 있습니다.
  • 실시간 센서 데이터 수집: BMC에 등록된 모든 IPMI 센서의 최신 값을 주기적으로 수집하여 표시합니다. 센서별 임계값 초과 시 알람이 연동됩니다.

온도 히트맵에서 특정 서버가 지속적으로 높은 온도를 보이는 경우, 팬 속도 모니터링과 함께 확인하여 냉각 시스템 이상 여부를 판단하십시오. IPMI 모니터링을 사용하려면 인프라 관리 > BMC 정보 관리에서 BMC 접속 정보가 정확하게 등록되어 있어야 합니다.

PRISM Server Monitoring Platform