본문으로 건너뛰기

경고 정책

모니터링 대상 WAS, 시스템의 데이터의 통계 정보를 기반으로 운영자에 경고를 알리기 위한 정책설정 및 발생한 이벤트들을 확인할 수 있는 메뉴이다.

경고 이벤트가 매 항목마다 발생하게 되면 너무 많은 이벤트가 발생할 가능성이 높아, 정말 문제가 될 가능성이 있을 때만 경고 이벤트가 발생할 수 있도록 실시간 통계를 기준으로 이벤트가 발생하도록 한다.

경고 정책 설정

WAS 인스턴스 별, Web 서버, 시스템, DB (Cubrid / MySQL), 사용자 정의 경고 정책을 설정할 수 있다.


WAS 인스턴스 경고 항목

항목설명
① APDEX (사용자 만족도지수)사용자 만족도 지수(APDEX)를 기준으로 경고(Warning), 심각(Critial) 레벨로 설정할 수 있다.
② Pending Transactions트랜잭션 Pending 상태 갯수에 따른 경고 정책 설정
- 심각 단계 시 스레드 덤프를 저장합니다.
③ JVM Heap Usage
(JVM Heap 사용률)
JVM의 Heap 사용률로 설정
④ GC Usage (GC 사용률)5초동안 GC에 사용된 시간의 비율로 설정

항목설명
⑤ Error Rate (오류율)애플리케이션의 상태 코드로 판단한 오류율로 설정한다.
⑥ Error Count (오류 개수)애플리케이션 상태코드 중 에러 개수에 따른 경고 정책 설정
⑦ Slow And Error Transaction트랜잭션 오류 상태와 느린 상태 개수에 따른 경고 정책 설정
- 심각 단계 시 JVM 메모리 히스토그램을 저장합니다.
⑧ Database Response Time데이터베이스 쿼리의 평균 응답시간을 기준으로 설정

항목설명
⑨ Database Connection Pool Usage (데이터베이스 커넥션 풀 사용률)데이터베이스 커넥션 풀의 사용률을 기준으로 설정
⑩ JVM Perm UsageJVM의 Perm 영역 사용률로 설정

WEB 서버 인스턴스 경고 항목

항목설명
① Worker Usage웹서버 리소스 사용률에 따라 경고정책 설정
② WEB Traffic웹서버가 처리하는 트래픽의 Byte 량을 기준으로 설정

시스템 경고 항목

항목설명
① CPU Usage (CPU 사용률)시스템의 CPU 사용률을 기준으로 설정
- 심각 단계 시 프로세스 상태 분석을 저장합니다.
② Memory Usage (메모리 사용률)시스템의 메모리 사용률을 기준으로 설정
- 심각 단계 시 프로세스 상태 분석을 저장합니다.
③ Memory Swap Usage (Swap 메모리 사용률)시스템의 Swap 메모리 사용률을 기준으로 설정
④ Disk Usage (디스크 사용률)시스템 디스크 사용률을 기준으로 설정
항목설명
⑤ Network Packet Error Rate (네트워크 패킷 오류율)네트워크 패킷의 오류율을 기준으로 설정
⑥ CPU Load AverageShort Term(1분) 부하율을 기준으로 설정
- CPU Core갯수를 활용하여 백분율(%)로 계산
- ex) CPU Core갯수: 4, Short term: 4 = 100%

Cubrid 경고 항목

항목설명
① CAS UsageCAS 사용률로 설정
-심각 단계 시 Cubrid 브로커 통계를 저장합니다.

MySQL 경고 항목

항목설명
① Connection Usage설정된 최대 연결 가능수 대비 사용하고 있는 비율에 따른 경고 정책 설정
- 심각 단계 시 프로세스 리스트, 상태 스냅샷을 저장합니다.
② InnoDB Pool QuotaInnoDB Buffer Pool 할당률에 따른 경고 정책 설정(총 시스템 메모리 대비 Buffer Pool 할당률)
③ InnoDB Write LatencyInnoDB 쓰기 지연율에 따른 경고 정책 설정
- 심각 단계 시 프로세스 리스트, 상태 스냅샷, 메타 데이터 락, 락 경합 스냅샷을 저장합니다.
④ Table FUll Scan RatioTable Full Scan 비율에 따른 경고 정책 설정
- 심각 단계 시 프로세스 리스트, 상태 스냅샷, 레코드 락 스냅샷, 메타 데이터 락, 락 경합 스냇샵을 저장합니다.
항목설명
⑤ Table Open Cache Miss RatioTable Open Cache Miss 비율에 따른 경고 정책 설정
- 프로세스 리스트, 상태 스냅샷, 메타 데이터 락, 뮤텍스 스냅샷을 저장합니다.
⑥ Tmp Table Used RatioTemp 디스크 사용 비율에 따른 경고 정책 설정
- 프로세스 리스트, 상태 스냅샷, 메타 데이터 락, 레코드 락 스냅샷, 뮤텍스 스냅샷을 저장합니다.

경고 설정 항목


각 항목들은 다음과 같은 방식으로 설정한다.

항목설명
① Activate This Alert해당 경고 항목을 사용할 것인지를 결정
② Warn, Critical 값을 설정하는 Slider해당 항목에 대한 경고(Warning), 심각(Critical)값을 설정한다.
③ Warning Threshold설정한 시간 동안의 데이터 평균값이 설정한 Warning 값을 넘어서면 경고 이벤트를 발생한다.
④ Critical Threshold설정한 시간 동안의 데이터 평균값이 설정한 Critial 값을 넘어서면 경고 이벤트를 발생한다. 일반적으로 Critical을 판별하는 시간은 Warning 보다 작은 값으로 설정한다.
⑤ Alerts to어떤 사용자에게 이벤트를 발생시킬지를 지정한다.
⑥ Alerts to(Group)어떤 그룹에게 이벤트를 발생시킬지를 지정한다.
⑦ Alerts via메일을 통해서 이벤트를 알릴지를 설정한다.
⑧ Prevent Duplicated계속 같은 경고 이벤트가 반복하여 발생하는 것을 방지하기 위해 동일한 이벤트를 지정한 시간만큼 발생하지 않도록 설정한다.
⑨ Enable Forecast예측(Forecast) 기능을 사용할지 설정한다.
⑩ Next X at예측할 시간을 설정한다. Next X를 5분으로 설정하면 통계를 기반으로 5분후의 값을 예측하여 예측 경고 이벤트로 알려준다.
⑪ Detect Outliers실시간 통계를 기반으로 극단치(Outlier)값을 알려줄 것인지를 설정한다.
⑫ Sigma표준편차(Sigma)값을 지정하여 해당 범위 밖에 있는 값을 감지하면 경고 이벤트로 알려준다.

사용자 정의 경고 설정

알림 메시지는 SYS, WEB 및 WAS 인스턴스 및 그룹별로 각각의 담당자에게 발송되게 운영 할 수 있다.

아래와 같이 Custom 탭을 이용해서 등록 할 수 있고, 추가적으로 등록하지 않으면 기본적으로 WAS, Web, System 탭에 등록된 정보로 작동한다.

User Defined Group, Built-in Group, Instance 에 중복으로 등록된 상황에서 우선 순위는 아래와 같다.

  • Instance > User Defined Group > Built-in Group > 기본 설정(WAS, Web, System)

표준 편차란?

통계에서 표준 편차란 값이 얼마나 많이 흩어져 있는지를 표현하는 값이다. 표준편차를 통계학에서는 Sigma로 표현한다. 경고항목 설정에 Sigma가 의미하는 것이 표준 편차이다.

데이터 값이 정규분포를 이룬다면, 다음과 같은 그래프로 표준편차(Sigma)값이 표현된다.

일반적으로 데이터 값들은 대부분 평균을 기준으로 분포되어 있을 것이다. 2 표준편차(Sigma)내에 는 95%의 데이터가 분포하게 되며, 3 Sigma(표준편차)내에는 99.7% 데이터가 분포하게 된다. 즉, 대부분의 데이터들은 이 범위 내에 존재하게 된다.

시간의 흐름에 따라 변하는 모니터링 데이터에 이를 적용하게 되면, 만약 이 범위를 벗어나는 값, 2 Sigma에서는 5%, 3 Sigma에서는 0.3% 값이 들어오게 되면, 이 값은 통계적으로 평소와는 다른 데이터가 모니터링 되고 있음을 파악할 수 있다. 통계학에서는 이를 극단치(Outlier)라고 한다.

OPENMARU APM에서는 경고 설정 항목에 대해 실시간 통계를 통해 극단치를 판별하여 알려주는 알고리즘을 사용하고 있다. 이를 통해 평소와는 다른 값이 수집되면 곧바로 알려준다.

또, 실시간 Forecast도 이러한 통계학을 기반으로 한 알고리즘을 이용하여 앞으로 몇 분 후의 데이터를 예측하여 경고 이벤트로 알려준다.

이벤트 메시지의 종류

이벤트 메시지는 발생하면 화면의 우측 상단에 다음과 같은 형태로 표시한다. 그 종류는 다음과 같다.

정보 – INFO

에이전트가 접속될 때, 스레드 덤프, 오픈 파일, 네트워크 상태 분석 등 사용자가 요청한 명령이 실행되었을 때 다음과 같은 이벤트를 표시한다.

경고 - WARN

경고 정책의 항목이 WARN 설정값을 넘어서게 되면 다음과 같은 이벤트 메시지를 표시한다. ‘현재 평균값 XX가 경고 임계값 ‘XX’을 넘었다.’는 메시지를 표시하며, 이벤트가 발생한 에이전트의 위치를 표시한다.

링크를 클릭하면, 해당 이벤트가 발생한 그래프로 이동하여 현재 상태를 파악할 수 있다.

경고 – WARN – 극단치

표준편차를 기반으로 극단치에 해당하는 값이 수집되면 다음과 같은 이벤트 메시지를 표시한다.

심각 - CRITICAL

경고 정책의 항목이 CRITICAL 설정값을 넘어서게 되면 다음과 같은 이벤트 메시지를 표시한다. ‘현재 평균값 XX가 경고 임계값 ‘XX’을 넘었다.’는 메시지를 표시하며, 이벤트가 발생한 에이전트의 위치를 표시한다.

링크를 클릭하면, 해당 이벤트가 발생한 그래프로 이동하여 현재 상태를 파악할 수 있다.

예측 - FORECAST

통계를 기반으로 지정한 시간 후에 임계값을 넘을 것으로 예상되면, 다음과 같은 이벤트 메시지를 표시한다.

이벤트 목록

발생한 이벤트들을 하루 단위로 검색할 수 있는 기능을 제공한다.

상단에는 시간 별로 발생한 이벤트의 건수를 그래프로 표시하며, 하단에 이벤트 목록을 표시한다.

날짜를 변경하여 해당 날짜에 발생한 이벤트를 검색하거나, 이벤트를 검색할 수 있는 기능을 제공한다. 테이블의 컬럼 이름을 클릭하면 해당 컬럼으로 정렬하여 이벤트 데이터를 분석할 수 있다.

이벤트 메모

발생한 이벤트에 대한 사용자 메시지를 기록할 수 있는 기능이다.

각 이벤트에 대한 상세한 설명이나 의견을 남길 수 있다.

이벤트 선택 후 메모 추가 버튼을 클릭하면 팝업이 호출된다.

작성자의 정보는 기본 정보로 자동 기입되며, 필요에 따라 수정이 가능하다.

이벤트 연동 방법

이벤트 알림에 설정은 이벤트 설정 가이드를 참조