본문으로 건너뛰기

SRE 보고서

Kubernetes 클러스터의 자원 현황, 용량 예측, 골든 시그널, 정기 보고서, 적정 사이징 추천을 한 화면에서 확인합니다.

개요

SRE 보고서는 Google SRE 방법론에 기반한 종합 보고서 화면입니다. 클러스터, 서버(노드), 네임스페이스 단위의 자원 사용 현황을 파악하고, 미래 용량을 예측하며, SLO(Service Level Objective) 준수 상태를 모니터링할 수 있습니다. 또한 자원의 과다/과소 프로비저닝을 분석하여 비용 최적화를 위한 적정 사이징 추천을 제공합니다.

좌측 사이드바에서 SRE 보고서 메뉴를 클릭하면 진입할 수 있습니다.

화면 구성

SRE 보고서는 7개의 탭으로 구성됩니다.

설명
클러스터클러스터 전체 CPU, 메모리 사용 현황 및 위험 지표
서버서버(노드)별 리소스 사용률 및 이상치 탐지
네임스페이스네임스페이스별 자원 분포, 효율성, 유휴 비용
자원 예측과거 추이 기반 미래 자원 사용량 예측 및 고갈 시점 분석
골든 시그널4대 골든 시그널(가용성, 지연 시간, 트래픽, 에러)과 SLO 현황
SRE 정기 보고서주간/월간 SLO 보고서 생성 및 자동 발송
적정 사이징 추천워크로드별 자원 과다/과소 프로비저닝 분석 및 추천

조회 기간 선택

화면 상단 우측에서 조회 기간을 선택할 수 있습니다. 1h, 6h, 1d, 7d, 30d 중 하나를 클릭하거나, 사용자 지정을 클릭하여 원하는 시작/종료 시각을 직접 지정할 수 있습니다.

참고: 자원 예측 탭과 SRE 정기 보고서 탭은 자체 조회 기간 설정을 사용하므로, 상단 시간 선택기가 표시되지 않습니다.


클러스터

클러스터 탭에서는 클러스터 전체의 CPU, 메모리 사용 현황과 위험 지표를 한눈에 확인할 수 있습니다.

클러스터 현황 요약

화면 상단에 클러스터의 핵심 지표가 타일 형태로 표시됩니다.

항목설명
CPU 사용량 / 할당 가능클러스터 전체 CPU 사용량과 할당 가능 용량
메모리 사용량 / 할당 가능클러스터 전체 메모리 사용량과 할당 가능 용량
총 유휴 비용요청(Request)했으나 실제 사용하지 않는 자원의 일일 비용

리소스 게이지

CPU와 메모리의 사용률을 원형 게이지로 표시합니다. 각 게이지 아래에는 Request 대비 사용률이 함께 표시됩니다.

게이지표시 항목
CPUCPU 사용률(%), Request 대비 사용률
메모리메모리 사용률(%), Request 대비 사용률
효율성CPU/메모리 Request 대비 실제 사용률, 유휴 비율

위험 지표

클러스터의 안정성에 영향을 미치는 위험 지표를 표시합니다.

지표설명
쓰로틀링(Throttling)CPU 제한에 의해 성능이 제한된 횟수
재시작(Restarts)비정상적으로 재시작된 컨테이너 수
OOM메모리 부족(Out of Memory)으로 종료된 컨테이너 수

위험 지표가 0이면 초록색, 1건 이상이면 빨간색으로 표시됩니다.

자원 추이 차트

CPU와 메모리의 시간대별 자원 사용 추이를 차트로 보여줍니다. 차트에는 다음 항목이 겹쳐 표시됩니다.

시리즈색상설명
사용량(Used)파란색 영역실제 CPU/메모리 사용량
요청량(Request)노란색 선Pod에 설정된 Request 합계
제한량(Limit)빨간색 선Pod에 설정된 Limit 합계
할당 가능(Allocatable)초록색 점선클러스터 전체 할당 가능 용량

비용 설정

유휴 비용 계산에 사용되는 단가를 설정할 수 있습니다. 기본값은 AWS 서울 리전 m5.xlarge 온디맨드 가격 기준입니다.

항목기본값설명
CPU 코어당 시간 비용₩55CPU 1 코어의 시간당 비용
메모리 GB당 시간 비용₩14메모리 1 GB의 시간당 비용

인스턴스 타입 프리셋

비용 단가를 직접 입력하는 대신, AWS 인스턴스 타입 프리셋을 선택하면 해당 인스턴스의 온디맨드 가격에서 산출된 CPU/메모리 단가가 자동으로 적용됩니다. 프리셋을 선택한 후 저장 버튼을 클릭하면 설정이 저장됩니다.

프리셋vCPU / GiB시간당 가격CPU 단가(₩/h)메모리 단가(₩/h)
사용자 지정--5514
m5.large2 / 8$0.096 (₩132)6617
m5.xlarge4 / 16$0.192 (₩265)6617
m5.2xlarge8 / 32$0.384 (₩530)6617
m6i.xlarge4 / 16$0.202 (₩279)6917
c5.xlarge4 / 8$0.170 (₩235)5829
c5.2xlarge8 / 16$0.340 (₩469)5829
r5.xlarge4 / 32$0.252 (₩348)8611
r5.2xlarge8 / 64$0.504 (₩696)8611
t3.medium2 / 4$0.052 (₩72)4321
t3.large2 / 8$0.083 (₩115)5213
t3.xlarge4 / 16$0.166 (₩229)5213

참고: 프리셋 가격은 AWS 서울 리전(ap-northeast-2) 온디맨드 기준이며, 환율 약 1,380원을 적용한 참고 값입니다. 실제 청구 금액과 다를 수 있으므로, 정확한 비용 분석이 필요한 경우 사용자 지정을 선택하여 실제 단가를 직접 입력하세요.


서버

서버 탭에서는 각 서버(노드)별 리소스 사용 현황을 비교 분석할 수 있습니다.

서버 요약

상단에 서버 현황 요약 지표가 표시됩니다.

항목설명
서버 수클러스터의 전체 노드 수
CPU 평균전체 노드의 평균 CPU 사용률
메모리 평균전체 노드의 평균 메모리 사용률
CPU 이상치2σ(표준편차 2배) 초과 노드 수
메모리 이상치2σ(표준편차 2배) 초과 노드 수

서버별 사용률 바 차트

CPU와 메모리 사용률을 노드별 수평 막대 차트로 시각화합니다. 이상치(2σ 초과) 노드는 별도 배지로 강조 표시됩니다.

서버 목록 테이블

각 노드의 상세 메트릭이 테이블로 표시됩니다.

컬럼설명
노드노드 이름 및 상태(Ready/NotReady)
CPU 사용량 / 요청 / 제한 / 할당CPU 관련 메트릭
CPU %CPU 사용률
메모리 사용량 / 요청 / 제한 / 할당메모리 관련 메트릭
메모리 %메모리 사용률
파드현재 실행 중인 Pod 수

테이블의 행을 클릭하면 해당 노드의 상세 패널이 열리며, CPU/메모리 게이지와 시계열 추이 차트를 확인할 수 있습니다.


네임스페이스

네임스페이스 탭에서는 네임스페이스별 자원 분포와 효율성을 분석합니다.

네임스페이스 요약

항목설명
네임스페이스 수전체 네임스페이스 수
CPU 평균 효율CPU Request 대비 실제 사용 비율 평균
메모리 평균 효율메모리 Request 대비 실제 사용 비율 평균
총 유휴 비용전체 네임스페이스의 일일 유휴 비용 합계
이상치2σ 초과 네임스페이스 수

네임스페이스 분포 트리맵

CPU와 메모리의 네임스페이스별 분포를 트리맵으로 시각화합니다. 사각형의 크기는 Request 양을, 색상은 효율성(%)을 나타냅니다.

색상의미
초록색효율성 높음 (Request 대비 실제 사용량이 적절)
빨간색효율성 낮음 (Request 대비 실제 사용량이 크게 부족하거나 초과)

네임스페이스 상세 테이블

각 네임스페이스의 상세 메트릭이 테이블로 표시됩니다. CPU 유휴 비용이 높은 순서로 기본 정렬됩니다.

컬럼설명
네임스페이스네임스페이스 이름
CPU 사용량 / 요청 / 제한CPU 관련 메트릭
CPU 효율CPU Request 대비 실제 사용률(%)
CPU 유휴 비용CPU 유휴 자원의 일일 비용
메모리 사용량 / 요청 / 제한메모리 관련 메트릭
메모리 효율메모리 Request 대비 실제 사용률(%)
쓰로틀 / OOM쓰로틀링 및 OOM 발생 횟수

테이블의 행을 클릭하면 해당 네임스페이스의 상세 패널이 열리며, 효율성 게이지와 Top-N 스택 영역 차트를 확인할 수 있습니다.


관련 문서

SRE 보고서의 나머지 탭에 대한 상세 내용은 각 문서를 참조하세요.

  • 자원 예측 — 과거 자원 사용 추이 기반 미래 사용량 예측 및 고갈 시점 분석
  • 골든 시그널 — 4대 골든 시그널(가용성, 지연 시간, 트래픽, 에러)과 SLO 준수 현황
  • SRE 정기 보고서 — 주간/월간 SLO 보고서 생성 및 자동 발송
  • 적정 사이징 추천 — 워크로드별 자원 과다/과소 프로비저닝 분석 및 추천