본문으로 건너뛰기

골든 시그널

Google SRE의 4대 골든 시그널(가용성, 지연 시간, 트래픽, 에러)과 SLO 준수 현황, 에러 버짓 관리를 모니터링합니다.

골든 시그널 탭에서는 Google SRE의 4대 골든 시그널과 SLO 준수 현황을 모니터링합니다.

골든 시그널이란

골든 시그널이란 Google SRE가 정의한 모든 서비스에 적용 가능한 4가지 핵심 모니터링 지표입니다. 이 지표들을 통해 서비스의 건강 상태를 종합적으로 파악할 수 있습니다.

시그널설명측정항목목표 예시의미
Latency (지연 시간)요청을 처리하는 데 걸리는 시간p50/p95/p99 응답 시간, 성공 vs 실패 요청 분리 측정p99 < 200ms느린 서비스는 곧 장애
Traffic (트래픽)서비스에 들어오는 요청의 양초당 요청 수(RPS), 초당 트랜잭션 수(TPS)RPS 1,200부하 수준 = 용량 판단 근거
Errors (에러)실패한 요청의 비율HTTP 5xx 에러 비율, 비즈니스 로직 에러 비율에러율 < 0.1%사용자가 직접 체감하는 품질
Saturation (포화도)시스템 자원의 사용률CPU, 메모리, 디스크, 네트워크 사용률CPU < 70%한계 도달 전 사전 경고

골든 시그널은 다음과 같은 SRE 워크플로우의 출발점이 됩니다.

골든 시그널SLI 측정SLO 설정에러 버짓배포 판단

골든 시그널을 기반으로 SLI(서비스 수준 지표)를 측정하고, SLO(서비스 수준 목표)를 설정합니다. SLO에서 허용하는 오류 범위인 에러 버짓을 관리하여 배포 속도와 서비스 안정성 사이의 균형을 판단할 수 있습니다.


4대 골든 시그널

화면 상단에 네임스페이스 필터로 범위를 지정할 수 있으며, 인프라 카테고리 포함 토글로 모니터링/컨트롤 플레인 서비스의 포함 여부를 선택할 수 있습니다. 4개의 핵심 시그널 카드가 표시됩니다.

시그널설명
가용성(Availability)서비스 가용률(%)
지연 시간(Latency)응답 시간 p50/p95/p99
트래픽(Traffic)초당 요청 수(RPS)
에러(Errors)에러 발생률(%)

각 시그널 아래에 시간대별 추이 차트(지연 시간 추이, 트래픽 추이, 에러율 추이)가 표시됩니다.

카테고리별 골든 시그널 분해

4대 골든 시그널 아래에 카테고리별 분해 섹션이 표시됩니다. 애플리케이션 카테고리(예: web, api, worker 등)별로 지연 시간, 트래픽, 에러율의 현재값을 비교할 수 있습니다. 특정 카테고리를 클릭하면 해당 카테고리의 SLO만 테이블에 필터링됩니다.

SLO 현황

4대 골든 시그널 아래에 SLO 현황 섹션이 표시됩니다.

항목설명
전체 SLO등록된 SLO 총 개수
준수SLO를 준수하고 있는 서비스 수 (초록색)
위반SLO를 위반한 서비스 수 (빨간색)
버짓 위험에러 버짓이 위험 수준인 서비스 수 (주황색)

네임스페이스 SLO 히트맵

네임스페이스별 SLO 건강 상태를 히트맵으로 시각화합니다. 각 셀의 색상은 에러 버짓 잔량을 나타냅니다.

색상기준의미
초록색75% 이상건강
노란색50~75%주의
주황색25~50%경고
빨간색25% 미만위험

SLO 상세 테이블

각 서비스의 SLO 상세 정보가 테이블로 표시됩니다.

컬럼설명
서비스애플리케이션 이름
유형SLO 유형 (가용성 / 지연 시간)
목표SLO 목표값 (예: 99.9%)
현재 SLI현재 서비스 수준 지표
상태준수/위반 상태
버짓 잔량에러 버짓 잔량(%)
소진율(Burn Rate)에러 버짓 소진 속도
정책배포 정책 권고

서비스를 클릭하면 SLI 추이, 에러 버짓 번다운 차트, 상관관계 타임라인을 확인할 수 있습니다.

에러 버짓 번다운 해석

에러 버짓 번다운 차트의 소진 속도를 해석하여 개발과 운영 사이의 균형을 판단할 수 있습니다.

번다운 속도의미권장 조치
너무 빠름장애가 잦아 SLO 위반 위험이 높음기능 배포를 동결하고 안정화에 집중
이상적적절한 속도로 개발과 운영이 균형을 이루고 있음현행 배포 빈도 유지
너무 느림지나치게 보수적으로 운영하여 혁신 속도가 부족함배포 빈도를 높여 에러 버짓을 적극 활용

참고: 에러 버짓은 SLO에서 허용하는 최대 오류 비율입니다. 예를 들어 가용성 SLO가 99.9%이면 에러 버짓은 0.1%입니다. 에러 버짓을 소진하지 않는 것이 목표가 아니라, 적절히 활용하면서 서비스 품질과 개발 속도의 균형을 맞추는 것이 SRE의 핵심입니다.

Fast Burn / Slow Burn 감지

에러 버짓이 비정상적으로 빠르게 소진되는 경우, 화면 상단에 경고 배너가 표시됩니다.

유형기준의미
Fast Burn1시간 번 레이트 > 14.4x즉시 조치가 필요한 급격한 에러 버짓 소진
Slow Burn6시간 번 레이트 > 6x점진적이지만 지속적인 에러 버짓 소진

Fast Burn이 감지되면 빨간색 경고 배너가, Slow Burn이 감지되면 노란색 주의 배너가 표시됩니다.

배포 정책 권고

에러 버짓 잔량에 따라 배포 정책이 자동으로 권고됩니다.

정책조건설명
자유롭게 배포버짓 충분제한 없이 배포 가능
배포 주의버짓 감소 중배포 시 주의 필요
기능 배포 중단버짓 부족기능 변경 배포 중단 권고
배포 중지버짓 위험모든 배포 중지
인시던트 대응버짓 소진인시던트 대응에 집중

상관관계 타임라인

SLI 추이, 인시던트, 배포, 에러 버짓 간의 시간적 상관관계를 4개 계층으로 시각화합니다.

계층표시 내용
SLI 추이SLI 퍼센트 라인 + SLO 목표선 + 위반 구간(빨간 영역)
인시던트인시던트 발생 기간(심각도별 색상 가로 막대)
배포배포 이벤트 시점(보라색 마커)
에러 버짓에러 버짓 잔량 추이(영역 차트) + 이상적 소모 직선

배포 후 30분 이내에 SLO 위반이 발생하면 배포 마커와 위반 구간이 연결선으로 표시되어, 배포가 SLO 위반의 원인인지 빠르게 파악할 수 있습니다.