예외 값은 어떻게 계산됩니까?

<시간/>

데이터 이상 인식을 지원하기 위해 예외 지표로 세 가지 측정값이 사용됩니다. 이 측정값은 예상 값과 관련하여 세포의 양이 영향을 미치는 놀라움의 정도를 나타냅니다.

측정값은 모든 집계 수준에 대해 계산되고 모든 셀과 연결됩니다. SelfExp, InExp 및 PathExp 측정을 포함하여 다음과 같습니다. 테이블 분석을 위한 수치적 접근 방식을 기반으로 합니다.

셀 값은 예외로 처리되며, 예상 값은 통계 모델로 결정되는 예상 값과 얼마나 다른지에 따라 다릅니다. 주어진 셀 값과 예상 값 사이의 차이를 잔차라고 합니다.

직관적으로 잔차가 높을수록 제공된 셀 값은 예외입니다. 잔차 값을 비교하려면 잔차와 관련된 예상 표준 편차를 기반으로 값을 조정해야 합니다. 따라서 조정된 잔차 값이 미리 지정된 임계값을 초과하는 경우 셀 값은 예외로 간주됩니다.

SelfExp, InExp 및 PathExp 측정은 이 조정된 잔차를 기반으로 합니다. 주어진 셀의 기대값은 제공된 셀의 더 큰 수준의 group-by의 서비스입니다. 예를 들어, 3차원 A, B, C가 있는 큐브가 주어지면 A의 i번째 위치, B의 j번째 위치, C의 k번째 위치에 있는 셀의 기대값은 γ, γAi 의 함수입니다. 사용된 수치 모델의 계수인 γBj , γCk , γ ABij , γ ACik 및 γ BCjk .

계수는 더 큰 수준의 집계에서 보기에 의해 형성된 일반화된 노출에 따라 더 많은 수준에서 값이 얼마나 다른지 따릅니다. 이 접근 방식에서 셀 값의 예외 품질은 뒤에 오는 값의 예외에 따라 달라집니다. 따라서 예외를 볼 때 사용자는 드릴다운하여 예외를 분석하는 것이 필수적입니다.

이 계산은 다음과 같은 세 단계로 구성됩니다. -

첫 번째 단계에는 합계 또는 개수를 포함하여 예외가 발견될 큐브를 정의하는 집계 값의 계산이 포함됩니다.
두 번째 단계는 계수가 결정되고 표준화된 잔차를 계산하는 데 사용되는 모델 피팅으로 구성됩니다. 이 단계는 계산이 동일하기 때문에 첫 번째 단계와 겹칠 수 있습니다.
세 번째 단계에서는 표준화된 잔차에 따라 SelfExp, InExp 및 PathExp 값을 계산합니다. 이 단계는 계산적으로 1단계와 동일합니다. 따라서 탐색 중심 탐색을 위한 데이터 큐브 계산을 효과적으로 완료할 수 있습니다.