본문으로 건너뛰기

인시던트

SLO(서비스 수준 목표) 위반 또는 시스템 이상이 탐지되면 자동으로 생성되는 경보 목록을 확인하고 근본 원인을 분석합니다.

개요

인시던트 메뉴에서는 Observability가 자동으로 탐지한 인시던트(Incident)를 한눈에 파악할 수 있습니다. 인시던트(Incident)는 SLO(Service Level Objective, 서비스 수준 목표)를 위반하거나 애플리케이션 이상이 탐지될 때 자동으로 생성되는 경보입니다.

이 화면에서는 현재 진행 중인 인시던트와 해결된 인시던트를 조회하고, 인시던트별 심각도(Severity), 지속 시간, 영향받은 요청 비율, 오류 예산(Error Budget) 소비량을 확인할 수 있습니다. 각 인시던트를 클릭하면 상세 페이지로 이동하여 RCA(Root Cause Analysis, 근본원인분석)를 통해 인시던트 발생 원인을 파악할 수 있습니다.

화면 구성

인시던트 페이지는 다음 영역으로 구성됩니다.

  • 상단 헤더: 애플리케이션 필터
  • 상태 요약 스트립: 심각도별 인시던트 개수 및 해결된 인시던트 표시 옵션
  • 인시던트 목록 테이블: 전체 인시던트 목록 및 SLO 영향 지표

주요 기능

상태 요약 스트립으로 현황 파악

화면 상단의 상태 요약 스트립에서 심각도별 인시던트 개수를 한눈에 확인할 수 있습니다.

상태의미
심각(Critical)즉각 조치가 필요한 인시던트 수
경고(Warning)주의가 필요한 인시던트 수
해결됨 (심각)심각 상태에서 해결된 인시던트 수
해결됨 (경고)경고 상태에서 해결된 인시던트 수

특정 상태 항목을 클릭하면 해당 상태의 인시던트만 목록에 필터링되어 표시됩니다. 다시 클릭하면 필터가 해제됩니다.

: 심각(Critical) 상태를 클릭하면 즉각 대응이 필요한 인시던트를 빠르게 확인할 수 있습니다.

해결된 인시던트 표시

기본적으로 현재 진행 중인(해결되지 않은) 인시던트만 표시됩니다. 해결된 인시던트 표시 체크박스를 활성화하면 해결된 인시던트도 목록에 포함됩니다.

해결된 인시던트는 목록에서 반투명하게 표시되며, 지속 시간 열에 해결됨 배지가 표시됩니다.

참고: 해결된 인시던트 표시 설정은 브라우저에 저장되어, 다음 접속 시에도 마지막 선택이 유지됩니다.

애플리케이션 필터

페이지 우측 상단의 애플리케이션 필터를 사용해 특정 애플리케이션 또는 네임스페이스(Namespace)의 인시던트만 표시할 수 있습니다. 인시던트 ID나 키워드를 검색하여 특정 인시던트를 빠르게 찾을 수도 있습니다.

인시던트 목록 테이블

인시던트 목록 테이블에는 다음 정보가 표시됩니다.

컬럼설명
인시던트인시던트 ID (예: i-123). 심각도에 따라 색상이 다르며, 심각 상태는 깜빡이는 애니메이션으로 표시됩니다.
애플리케이션인시던트가 발생한 애플리케이션 이름
네임스페이스애플리케이션이 속한 네임스페이스(Namespace)
종류(Kind)Kubernetes 워크로드 종류 (예: Deployment, StatefulSet) 또는 외부 서비스(ExternalService)
열린 시간인시던트 최초 감지 시각 및 경과 시간
지속 시간인시던트 지속 시간. 진행 중이면 해결안됨, 종료되었으면 해결됨 배지 표시
가용성가용성(Availability) SLO 준수율. SLO를 위반한 경우 빨간색으로 강조 표시됩니다.
응답 시간응답 시간(Latency) SLO 준수율. SLO를 위반한 경우 빨간색으로 강조 표시됩니다.
영향을 받은 요청인시던트로 영향받은 요청 비율(막대 그래프)
소비된 오류 예산오류 예산(Error Budget) 소비율(막대 그래프). 100% 초과 시 빨간색으로 표시됩니다.

참고: 가용성, 응답 시간, 영향을 받은 요청, 소비된 오류 예산 값은 인시던트 데이터를 추가 분석한 후 표시되므로, 로딩 중에는 스피너가 표시될 수 있습니다.

컬럼 헤더를 클릭하면 해당 컬럼 기준으로 오름차순/내림차순 정렬이 가능합니다.

SLO 조정

각 인시던트 행의 오른쪽 끝에 있는 더보기(...) 버튼을 클릭하면 해당 애플리케이션의 SLO 임계값을 빠르게 조정할 수 있습니다.

  • 가용성 SLO 조정: 가용성(Availability) SLO 임계값 수정
  • 응답 시간 SLO 조정: 응답 시간(Latency) SLO 임계값 수정

참고: SLO 임계값 조정은 해당 애플리케이션에만 적용됩니다. 프로젝트 전체 기본값 변경은 설정 > 검사 조건 설정에서 할 수 있습니다.


인시던트 상세

인시던트 목록에서 인시던트 ID 또는 애플리케이션 이름을 클릭하면 해당 인시던트의 상세 페이지로 이동합니다.

헤더 정보

상세 페이지 상단에는 다음 정보가 표시됩니다.

  • 인시던트 ID: i- 접두사가 붙은 고유 식별자
  • 심각도 배지: 심각(Critical) 또는 경고(Warning)
  • 상태 배지: 진행 중이면 아직 지속되고 있음, 종료되었으면 해결됨
  • 메타 정보: 애플리케이션 이름, 네임스페이스, 시작 시간, 지속 시간

인시던트 목록 링크를 클릭하면 인시던트 목록 페이지로 돌아갑니다.

인시던트 상세 정보

인시던트 상세 섹션에서는 인시던트의 기본 속성을 그리드 형태로 확인할 수 있습니다.

항목설명
심각도심각(Critical) 또는 경고(Warning). 색상 배지로 표시됩니다.
애플리케이션영향받은 애플리케이션. 클릭 시 해당 애플리케이션의 상세 다이얼로그가 열립니다.
시작됨인시던트 최초 감지 시각 및 경과 시간
해결됨해결 시각 또는 아직 지속되고 있음 상태 표시
지속 시간총 인시던트 지속 시간
카테고리애플리케이션 카테고리. 클릭 시 해당 애플리케이션 상세 페이지로 이동합니다.

서비스 수준 목표(SLO) 섹션

서비스 수준 목표(SLO) 섹션에서는 인시던트가 발생한 SLO 항목을 확인할 수 있습니다. 테이블 형식으로 다음 정보가 표시됩니다.

설명
SLOSLO 항목 이름(가용성 또는 응답 시간). 위반 여부에 따라 녹색 체크 또는 빨간색 경고 아이콘이 표시됩니다.
준수율실제 SLO 준수율. 위반된 경우 빨간색으로 강조 표시됩니다.
목표SLO 목표 조건 (예: "99%의 요청이 500ms 이내에 서비스되어야 합니다"). 연필 아이콘을 클릭하면 SLO 임계값을 직접 수정할 수 있습니다.

분석 탭

인시던트 상세 페이지 하단에는 두 가지 분석 탭이 제공됩니다.

설명
RCA(근본원인분석)인시던트 원인을 시스템이 자동 분석한 결과. 기본 선택 탭입니다.
분산추적인시던트 발생 시간대의 추적(Trace) 데이터

RCA(근본원인분석) 탭

RCA 탭은 인시던트 발생 원인을 시스템이 자동으로 분석한 결과를 보여줍니다. SLI 히트맵, 근본원인 요약, 이슈 전파 경로, 인과 타임라인, 상세 RCA 보고서의 5가지 섹션으로 구성됩니다.

자세한 내용은 근본원인분석(RCA) 문서를 참고하세요.


인시던트 조사 워크플로

인시던트를 효과적으로 조사하려면 다음 단계를 따릅니다.

  1. 인시던트 목록에서 현황 파악: 상태 요약 스트립에서 심각(Critical)/경고(Warning) 인시던트 개수를 확인합니다.
  2. 대상 인시던트 선택: 심각도 필터 또는 애플리케이션 필터를 사용하여 조사할 인시던트를 선택합니다.
  3. SLO 위반 내역 확인: 인시던트 상세 페이지에서 가용성(Availability)과 응답 시간(Latency) SLO의 준수율을 확인합니다.
  4. SLI 히트맵 및 차트 확인: RCA 탭의 SLI 섹션에서 히트맵으로 응답 시간 분포를 확인하고, SLI 차트로 응답 시간/오류율 추이를 파악합니다.
  5. RCA 요약으로 원인 파악: 근본원인분석 요약 카드에서 추정 근본 원인, 신뢰도, 카테고리별 분류를 확인합니다.
  6. 전파 경로 분석: 이슈 전파 경로에서 장애가 어떤 서비스에서 시작되어 어디로 전파되었는지 확인합니다.
  7. 인과 타임라인 검토: 인과 타임라인에서 배포, 설정 변경, 스케일링 등 인프라 변경 이벤트와 인시던트 발생 사이의 시간 관계를 파악합니다.
  8. 상세 RCA 보고서 탐색: 상세 RCA 보고서의 트리 구조에서 개별 원인을 카테고리별로 탐색하고, 스파크 차트로 시계열 상관관계를 확인합니다.
  9. 로그 분석: 로그 이상 카테고리의 발견 항목을 클릭하여 에러 로그 패턴, 발생 추이, 샘플 메시지를 확인합니다.
  10. 트레이스 분석: 분산추적 탭에서 느린 트레이스와 오류 트레이스를 분석하여 RCA 추정 결과를 실제 요청 흐름 수준에서 검증합니다.
  11. 애플리케이션 상세로 이동: 애플리케이션 링크를 클릭하여 관련 메트릭, 로그, 분산추적을 추가로 분석합니다.