골든 시그널
Google SRE의 4대 골든 시그널(가용성, 지연 시간, 트래픽, 에러)과 SLO 준수 현황, 에러 버짓 관리를 모니터링합니다.

골든 시그널 탭에서는 Google SRE의 4대 골든 시그널과 SLO 준수 현황을 모니터링합니다.
골든 시그널이란
골든 시그널이란 Google SRE가 정의한 모든 서비스에 적용 가능한 4가지 핵심 모니터링 지표입니다. 이 지표들을 통해 서비스의 건강 상태를 종합적으로 파악할 수 있습니다.
| 시그널 | 설명 | 측정항목 | 목표 예시 | 의미 |
|---|---|---|---|---|
| Latency (지연 시간) | 요청을 처리하는 데 걸리는 시간 | p50/p95/p99 응답 시간, 성공 vs 실패 요청 분리 측정 | p99 < 200ms | 느린 서비스는 곧 장애 |
| Traffic (트래픽) | 서비스에 들어오는 요청의 양 | 초당 요청 수(RPS), 초당 트랜잭션 수(TPS) | RPS 1,200 | 부하 수준 = 용량 판단 근거 |
| Errors (에러) | 실패한 요청의 비율 | HTTP 5xx 에러 비율, 비즈니스 로직 에러 비율 | 에러율 < 0.1% | 사용자가 직접 체감하는 품질 |
| Saturation (포화도) | 시스템 자원의 사용률 | CPU, 메모리, 디스크, 네트워크 사용률 | CPU < 70% | 한계 도달 전 사전 경고 |
골든 시그널은 다음과 같은 SRE 워크플로우의 출발점이 됩니다.
골든 시그널 → SLI 측정 → SLO 설정 → 에러 버짓 → 배포 판단
골든 시그널을 기반으로 SLI(서비스 수준 지표)를 측정하고, SLO(서비스 수준 목표)를 설정합니다. SLO에서 허용하는 오류 범위인 에러 버짓을 관리하여 배포 속도와 서비스 안정성 사이의 균형을 판단할 수 있습니다.
4대 골든 시그널
화면 상단에 네임스페이스 필터로 범위를 지정할 수 있으며, 인프라 카테고리 포함 토글로 모니터링/컨트롤 플레인 서비스의 포함 여부를 선택할 수 있습니다. 4개의 핵심 시그널 카드가 표시됩니다.
| 시그널 | 설명 |
|---|---|
| 가용성(Availability) | 서비스 가용률(%) |
| 지연 시간(Latency) | 응답 시간 p50/p95/p99 |
| 트래픽(Traffic) | 초당 요청 수(RPS) |
| 에러(Errors) | 에러 발생률(%) |
각 시그널 아래에 시간대별 추이 차트(지연 시간 추이, 트래픽 추이, 에러율 추이)가 표시됩니다.
카테고리별 골든 시그널 분해
4대 골든 시그널 아래에 카테고리별 분해 섹션이 표시됩니다. 애플리케이션 카테고리(예: web, api, worker 등)별로 지연 시간, 트래픽, 에러율의 현재값을 비교할 수 있습니다. 특정 카테고리를 클릭하면 해당 카테고리의 SLO만 테이블에 필터링됩니다.
SLO 현황
4대 골든 시그널 아래에 SLO 현황 섹션이 표시됩니다.
| 항목 | 설명 |
|---|---|
| 전체 SLO | 등록된 SLO 총 개수 |
| 준수 | SLO를 준수하고 있는 서비스 수 (초록색) |
| 위반 | SLO를 위반한 서비스 수 (빨간색) |
| 버짓 위험 | 에러 버짓이 위험 수준인 서비스 수 (주황색) |
네임스페이스 SLO 히트맵
네임스페이스별 SLO 건강 상태를 히트맵으로 시각화합니다. 각 셀의 색상은 에러 버짓 잔량을 나타냅니다.
| 색상 | 기준 | 의미 |
|---|---|---|
| 초록색 | 75% 이상 | 건강 |
| 노란색 | 50~75% | 주의 |
| 주황색 | 25~50% | 경고 |
| 빨간색 | 25% 미만 | 위험 |
SLO 상세 테이블
각 서비스의 SLO 상세 정보가 테이블로 표시됩 니다.
| 컬럼 | 설명 |
|---|---|
| 서비스 | 애플리케이션 이름 |
| 유형 | SLO 유형 (가용성 / 지연 시간) |
| 목표 | SLO 목표값 (예: 99.9%) |
| 현재 SLI | 현재 서비스 수준 지표 |
| 상태 | 준수/위반 상태 |
| 버짓 잔량 | 에러 버짓 잔량(%) |
| 소진율(Burn Rate) | 에러 버짓 소진 속도 |
| 정책 | 배포 정책 권고 |
서비스를 클릭하면 SLI 추이, 에러 버짓 번다운 차트, 상관관계 타임라인을 확인할 수 있습니다.
에러 버짓 번다운 해석
에러 버짓 번다운 차트의 소진 속도를 해석하여 개발과 운영 사이의 균형을 판단할 수 있습니다.
| 번다운 속도 | 의미 | 권장 조치 |
|---|---|---|
| 너무 빠름 | 장애가 잦아 SLO 위반 위험이 높음 | 기능 배포를 동결하고 안정화에 집중 |
| 이상적 | 적절한 속도로 개발과 운영이 균형을 이루고 있음 | 현행 배포 빈도 유지 |
| 너무 느림 | 지나치게 보수적으로 운영하여 혁신 속도가 부족함 | 배포 빈도를 높여 에러 버짓을 적극 활용 |
참고: 에러 버짓은 SLO에서 허용하는 최대 오류 비율입니 다. 예를 들어 가용성 SLO가 99.9%이면 에러 버짓은 0.1%입니다. 에러 버짓을 소진하지 않는 것이 목표가 아니라, 적절히 활용하면서 서비스 품질과 개발 속도의 균형을 맞추는 것이 SRE의 핵심입니다.
Fast Burn / Slow Burn 감지
에러 버짓이 비정상적으로 빠르게 소진되는 경우, 화면 상단에 경고 배너가 표시됩니다.
| 유형 | 기준 | 의미 |
|---|---|---|
| Fast Burn | 1시간 번 레이트 > 14.4x | 즉시 조치가 필요한 급격한 에러 버짓 소진 |
| Slow Burn | 6시간 번 레이트 > 6x | 점진적이지만 지속적인 에러 버짓 소진 |
Fast Burn이 감지되면 빨간색 경고 배너가, Slow Burn이 감지되면 노란색 주의 배너가 표시됩니다.
배포 정책 권고
에러 버짓 잔량에 따라 배포 정책이 자동으로 권고됩니다.
| 정책 | 조건 | 설명 |
|---|---|---|
| 자유롭게 배포 | 버짓 충분 | 제한 없이 배포 가능 |
| 배포 주의 | 버짓 감소 중 | 배포 시 주의 필요 |
| 기능 배포 중단 | 버짓 부족 | 기능 변경 배포 중단 권고 |
| 배포 중지 | 버짓 위험 | 모든 배포 중지 |
| 인시던트 대응 | 버짓 소진 | 인시던트 대응에 집중 |
상관관계 타임라인
SLI 추이, 인시던트, 배포, 에러 버짓 간의 시간적 상관관계를 4개 계층으로 시각화합니다.
| 계층 | 표시 내용 |
|---|---|
| SLI 추이 | SLI 퍼센트 라인 + SLO 목표선 + 위반 구간(빨간 영역) |
| 인시던트 | 인시던트 발생 기간(심각도별 색상 가로 막대) |
| 배포 | 배포 이벤트 시점(보라색 마커) |
| 에러 버짓 | 에러 버짓 잔량 추이(영역 차트) + 이상적 소모 직선 |
배포 후 30분 이내에 SLO 위반이 발생하면 배포 마커와 위반 구간이 연결선으로 표시되어, 배포가 SLO 위반의 원인인지 빠르게 파악할 수 있습니다.