Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

통계적 접근 방식이란 무엇입니까?

<시간/>

통계적 접근 방식은 데이터에 대한 모델이 생성되고 모델에 얼마나 잘 맞는지에 따라 개체가 계산되는 것과 같은 모델 기반 접근 방식입니다. 이상값 감지에 대한 대부분의 통계적 접근 방식은 확률 분포 모델을 개발하고 개체가 해당 모델 아래에 있을 가능성을 고려하는 방법에 따라 다릅니다.

이상치는 데이터의 확률 분포 모델과 관련하여 확률이 낮은 개체입니다. 확률 분포 모델은 사용자 정의 분포의 매개변수를 계산하여 데이터에서 생성됩니다.

따라서 데이터가 가우시안 분포를 갖는다고 가정하면 데이터의 평균과 표준편차를 계산하여 기본 분포의 평균과 표준편차를 측정할 수 있다. 분포 아래에 있는 모든 개체의 확률을 계산할 수 있습니다.

통계 문헌에서 알려진 것처럼 이상치 또는 불일치 관찰을 식별하기 위해 고안된 광범위한 통계 테스트 방법입니다. 이러한 불일치 테스트 중 일부는 매우 전문화되어 있으며 통계 지식의 수준을 이 텍스트의 용량을 더 많이 고려합니다.

데이터 세트의 특정 분포 식별 − Gaussian, Poisson 또는 binomial을 포함한 소수의 공통 분포로 여러 유형의 데이터를 정의할 수 있지만 비표준 분포를 포함하는 데이터 세트는 연관적으로 일반적입니다. 물론 잘못된 모델을 선택하면 개체가 이상값으로 잘못 인식될 수 있습니다.

예를 들어, 데이터는 가우스 분포에서 나타나는 것으로 모델링될 수 있지만 평균에서 멀리 떨어진 값을 수신할 확률이 더 큰 분포에서 올 수 있습니다(가우스 분포보다). 이러한 종류의 행동을 보이는 통계 분포는 실제로 일반적이며 두꺼운 꼬리 분포라고 합니다.

사용된 속성의 수 − 일부 통계적 이상값 감지 기술은 개별 속성에 사용되지만 일부 기술은 다변수 데이터에 대해 표시됩니다.

분포의 혼합물 − 데이터는 분포의 조합으로 모델링할 수 있으며 이러한 모델을 기반으로 이상치 탐지 방식을 생성할 수 있습니다. 잠재적으로 더 역동적이기는 하지만 그러한 모델은 배우고 사용하기에 복잡합니다. 예를 들어, 이전 개체를 식별하는 데 필요한 분포를 이상값으로 정의할 수 있습니다.

이상치 탐지에 대한 통계적 접근 방식은 확고한 기반을 가지고 있으며 분포의 매개변수 계산을 포함하여 표준 통계 기술을 기반으로 구성됩니다. 데이터에 대한 적절한 지식과 사용해야 하는 테스트 유형이 있을 때 이러한 테스트는 효율적일 수 있습니다. 개별 속성에 대한 통계적 이상값 검정에는 광범위한 방법이 있습니다. 다변수 데이터에 대해 액세스할 수 있는 옵션이 더 적고 이러한 테스트는 고차원 레코드에 대해 제대로 구현되지 않을 수 있습니다.