SRE 보고서
Kubernetes 클러스터의 자원 현황, 용량 예측, 골든 시그널, 정기 보고서, 적정 사이징 추천을 한 화면에서 확인합니다.

개요
SRE 보고서는 Google SRE 방법론에 기반한 종합 보고서 화면입니다. 클러스터, 서버(노드), 네임스페이스 단위의 자원 사용 현황을 파악하고, 미래 용량을 예측하며, SLO(Service Level Objective) 준수 상태를 모니터링할 수 있습니다. 또한 자원의 과다/과소 프로비저닝을 분석하여 비용 최적화를 위한 적정 사이징 추천을 제공합니다.
좌측 사이드바에서 SRE 보고서 메뉴를 클릭하면 진입할 수 있습니다.
화면 구성
SRE 보고서는 7개의 탭으로 구성됩니다.
| 탭 | 설명 |
|---|---|
| 클러스터 | 클러스터 전체 CPU, 메모리 사용 현황 및 위험 지표 |
| 서버 | 서버(노드)별 리소스 사용률 및 이상치 탐지 |
| 네임스페이스 | 네임스페이스별 자원 분포, 효율성, 유휴 비용 |
| 자원 예측 | 과거 추이 기반 미래 자원 사용량 예측 및 고갈 시점 분석 |
| 골든 시그널 | 4대 골든 시그널(가용성, 지연 시간, 트래픽, 에러)과 SLO 현황 |
| SRE 정기 보고서 | 주간/월간 SLO 보고서 생성 및 자동 발송 |
| 적정 사이징 추천 | 워크로드별 자원 과 다/과소 프로비저닝 분석 및 추천 |
조회 기간 선택
화면 상단 우측에서 조회 기간을 선택할 수 있습니다. 1h, 6h, 1d, 7d, 30d 중 하나를 클릭하거나, 사용자 지정을 클릭하여 원하는 시작/종료 시각을 직접 지정할 수 있습니다.
참고: 자원 예측 탭과 SRE 정기 보고서 탭은 자체 조회 기간 설정을 사용하므로, 상단 시간 선택기가 표시되지 않습니다.
클러스터
클러스터 탭에서는 클러스터 전체의 CPU, 메모리 사용 현황과 위험 지표를 한눈에 확인할 수 있습니다.
클러스터 현황 요약
화면 상단에 클러스터의 핵심 지표가 타일 형태로 표시됩니다.
| 항목 | 설명 |
|---|---|
| CPU 사용량 / 할당 가능 | 클러스터 전체 CPU 사용량과 할당 가능 용량 |
| 메모리 사용량 / 할당 가능 | 클러스터 전체 메모리 사용량과 할당 가능 용량 |
| 총 유휴 비용 | 요청(Request)했으나 실제 사용하지 않는 자원의 일일 비용 |
리소스 게이지
CPU와 메모리의 사용률을 원형 게이지로 표시합니다. 각 게이지 아래에는 Request 대비 사용률이 함께 표시됩니다.
| 게이지 | 표시 항목 |
|---|---|
| CPU | CPU 사용률(%), Request 대비 사용률 |
| 메모리 | 메모리 사용률(%), Request 대비 사용률 |
| 효율성 | CPU/메모리 Request 대비 실제 사용률, 유휴 비율 |
위험 지표
클러스터의 안정성에 영향을 미치는 위험 지표를 표시합니다.
| 지표 | 설명 |
|---|---|
| 쓰로틀링(Throttling) | CPU 제한에 의해 성능이 제한된 횟수 |
| 재시작(Restarts) | 비정상적으로 재시작된 컨테이너 수 |
| OOM | 메모리 부족(Out of Memory)으로 종료된 컨테이너 수 |
위험 지표가 0이면 초록색, 1건 이상이면 빨간색으로 표시됩니다.
자원 추이 차트
CPU와 메모리의 시간대별 자원 사용 추이를 차트로 보여줍니다. 차트에는 다음 항목이 겹쳐 표시됩니다.
| 시리즈 | 색상 | 설명 |
|---|---|---|
| 사용량(Used) | 파란색 영역 | 실제 CPU/메모리 사용량 |
| 요청량(Request) | 노란색 선 | Pod에 설정된 Request 합계 |
| 제한량(Limit) | 빨간색 선 | Pod에 설정된 Limit 합계 |
| 할당 가능(Allocatable) | 초록색 점선 | 클러스터 전체 할당 가능 용량 |
비용 설정
유휴 비용 계산에 사용되는 단가를 설정할 수 있습니다. 기본값은 AWS 서울 리전 m5.xlarge 온디맨드 가격 기준입니다.
| 항목 | 기본값 | 설명 |
|---|---|---|
| CPU 코어당 시간 비용 | ₩55 | CPU 1 코어의 시간당 비용 |
| 메모리 GB당 시간 비용 | ₩14 | 메모리 1 GB의 시간당 비용 |
인스턴스 타입 프리셋
비용 단가를 직접 입력하는 대신, AWS 인스턴스 타입 프리셋을 선택하면 해당 인스턴스의 온디맨드 가격에서 산출된 CPU/메모리 단가가 자동으로 적용됩니다. 프리셋을 선택한 후 저장 버튼을 클릭하면 설정이 저장됩니다.
| 프리셋 | vCPU / GiB | 시간당 가격 | CPU 단가(₩/h) | 메모리 단가(₩/h) |
|---|---|---|---|---|
| 사용자 지정 | - | - | 55 | 14 |
| m5.large | 2 / 8 | $0.096 (₩132) | 66 | 17 |
| m5.xlarge | 4 / 16 | $0.192 (₩265) | 66 | 17 |
| m5.2xlarge | 8 / 32 | $0.384 (₩530) | 66 | 17 |
| m6i.xlarge | 4 / 16 | $0.202 (₩279) | 69 | 17 |
| c5.xlarge | 4 / 8 | $0.170 (₩235) | 58 | 29 |
| c5.2xlarge | 8 / 16 | $0.340 (₩469) | 58 | 29 |
| r5.xlarge | 4 / 32 | $0.252 (₩348) | 86 | 11 |
| r5.2xlarge | 8 / 64 | $0.504 (₩696) | 86 | 11 |
| t3.medium | 2 / 4 | $0.052 (₩72) | 43 | 21 |
| t3.large | 2 / 8 | $0.083 (₩115) | 52 | 13 |
| t3.xlarge | 4 / 16 | $0.166 (₩229) | 52 | 13 |
참고: 프리셋 가격은 AWS 서울 리전(ap-northeast-2) 온디맨드 기준이며, 환율 약 1,380원을 적용한 참고 값입니다. 실제 청구 금액과 다를 수 있으므로, 정확한 비용 분석이 필요한 경우 사용자 지정을 선택하여 실제 단가를 직접 입력하세요.
서버
서버 탭에서는 각 서버(노드)별 리소스 사용 현황을 비교 분석할 수 있습니다.

서버 요약
상단에 서버 현황 요약 지표가 표시됩니다.
| 항목 | 설명 |
|---|---|
| 서버 수 | 클러스터의 전체 노드 수 |
| CPU 평균 | 전체 노드의 평균 CPU 사용률 |
| 메모리 평균 | 전체 노드의 평균 메모리 사용률 |
| CPU 이상치 | 2σ(표준편차 2배) 초과 노드 수 |
| 메모리 이상치 | 2σ(표준편차 2배) 초과 노드 수 |
서버별 사용률 바 차트
CPU와 메모리 사용률을 노드별 수평 막대 차트로 시각화합니다. 이상치(2σ 초과) 노드는 별도 배지로 강조 표시됩니다.
서버 목록 테이블
각 노드의 상세 메트릭이 테이블로 표시됩니다.
| 컬럼 | 설명 |
|---|---|
| 노드 | 노드 이름 및 상태(Ready/NotReady) |
| CPU 사용량 / 요청 / 제한 / 할당 | CPU 관련 메트릭 |
| CPU % | CPU 사용률 |
| 메모리 사용량 / 요청 / 제한 / 할당 | 메모리 관련 메트릭 |
| 메모리 % | 메모리 사용률 |
| 파드 | 현재 실행 중인 Pod 수 |
테이블의 행을 클릭하면 해당 노드의 상세 패널이 열리며, CPU/메모리 게이지와 시계열 추이 차트를 확인할 수 있습니다.
네임스페이스
네임스페이스 탭에서는 네임스페이스별 자원 분포와 효율성을 분석합니다.

네임스페이스 요약
| 항목 | 설명 |
|---|---|
| 네임스페이스 수 | 전체 네임스페이스 수 |
| CPU 평균 효율 | CPU Request 대비 실제 사용 비율 평균 |
| 메모리 평균 효율 | 메모리 Request 대비 실제 사용 비율 평균 |
| 총 유휴 비용 | 전체 네임스페이스의 일일 유휴 비용 합계 |
| 이상치 | 2σ 초과 네임스페이스 수 |
네임스페이스 분포 트리맵
CPU와 메모리의 네임스페이스별 분포를 트리맵으로 시각화합니다. 사각형의 크기는 Request 양을, 색상은 효율성(%)을 나타냅니다.
| 색상 | 의미 |
|---|---|
| 초록색 | 효율성 높음 (Request 대비 실제 사용량이 적절) |
| 빨간색 | 효율성 낮음 (Request 대비 실제 사용량이 크게 부족하거나 초과) |
네임스페이스 상세 테이블
각 네임스페이스의 상세 메트릭이 테이블로 표시됩니다. CPU 유휴 비용이 높은 순서로 기본 정렬됩니다.
| 컬럼 | 설명 |
|---|---|
| 네임스페이스 | 네임스페이스 이름 |
| CPU 사용량 / 요청 / 제한 | CPU 관련 메트릭 |
| CPU 효율 | CPU Request 대비 실제 사용률(%) |
| CPU 유휴 비용 | CPU 유휴 자원의 일일 비용 |
| 메모리 사용량 / 요청 / 제한 | 메모리 관련 메트릭 |
| 메모리 효율 | 메모리 Request 대비 실제 사용률(%) |
| 쓰로틀 / OOM | 쓰로틀링 및 OOM 발생 횟수 |
테이블의 행을 클릭하면 해당 네임스페이스의 상세 패널이 열리며, 효율성 게이지와 Top-N 스택 영역 차트를 확인할 수 있습니다.
관련 문서
SRE 보고서의 나머지 탭에 대한 상세 내용은 각 문서를 참조하세요.
- 자원 예측 — 과거 자원 사용 추이 기반 미래 사용량 예측 및 고갈 시점 분석
- 골든 시그널 — 4대 골든 시그널(가용성, 지연 시간, 트래픽, 에러)과 SLO 준수 현황
- SRE 정기 보고서 — 주간/월간 SLO 보고서 생성 및 자동 발송
- 적정 사이징 추천 — 워크로드별 자원 과다/과소 프로비저닝 분석 및 추천