이상치 탐지란 무엇입니까?

<시간/>

이상치는 마치 여러 메커니즘에 의해 생성된 것처럼 나머지 개체와 본질적으로 다른 데이터 개체입니다. 데모 내용의 경우 이상치가 아닌 데이터 개체를 "정상" 또는 예상 데이터로 정의할 수 있습니다. 일반적으로 이상값을 "비정상적인" 데이터로 정의할 수 있습니다.

이상치는 주어진 클래스나 클러스터에서 결합할 수 없는 데이터 구성 요소입니다. 이들은 다른 데이터 개체의 일반적인 동작에서 여러 동작을 갖는 데이터 개체입니다. 이러한 종류의 데이터 분석은 지식을 캐내는 데 중요할 수 있습니다.

이상치는 나머지 데이터와 동일한 구조로 생성되지 않는 것으로 의심되기 때문에 매력적입니다. 따라서 이상값 감지에서는 식별된 이상값이 여러 메커니즘에 의해 생성되는 이유를 정당화하는 것이 필수적입니다.

학습 알고리즘을 사용하여 학습 기록의 분포와 관련하여 정상 및 비정상적으로 발생하는 데이터를 구별할 수 있기 때문에 단일 클래스 분류를 이상치(또는 신규성) 감지라고 합니다.

예를 들어, 새로운 콘텐츠가 접근하는 소셜 미디어 웹사이트를 관찰함으로써 신규성 감지는 새로운 주제와 트렌드를 신속하게 식별할 수 있습니다. 새로운 주제는 원래 이상치로 나타날 수 있습니다.

이상치 탐지 및 신규 탐지는 모델링 및 탐지 접근 방식에서 몇 가지 유사점을 공유합니다. 그러나 둘 사이의 중요한 차이점은 신규성 감지에서 새로운 주제가 확인되면 일반적으로 일반 행동 모델에 통합되어 후속 사례가 더 이상 이상치로 간주되지 않는다는 것입니다.

하나의 클래스 분류에 대한 일반적인 통계 방법은 훈련 정보의 주어진 백분율 p에서 거리 d만큼 떨어진 인스턴스로 이상치를 인식하는 것입니다. 또한, 가우시안을 포함한 통계 분포를 훈련 정보에 피팅함으로써 목표 클래스에 대한 확률 밀도를 계산할 수 있습니다. 낮은 확률 값을 가진 일부 테스트 인스턴스는 이상값으로 명백할 수 있습니다.

다중 클래스 분류기는 초점 데이터 주위에 경계를 맞추고 외부에 있는 예를 이상값으로 간주하여 단일 클래스 위치에 맞게 조정할 수 있습니다. 경계는 서포트 벡터 머신을 포함한 현재 멀티클래스 분류기의 내부 동작을 수정함으로써 생성될 수 있습니다.

이러한 접근 방식은 얼마나 많은 대상 정보가 이상값으로 정의될 것인지를 결정하는 매개변수에 크게 의존합니다. 너무 보수적으로 선택하면 포커스 클래스의 데이터가 잘못 삭제됩니다. 너무 자유롭게 선택하면 모델이 너무 많은 합법적인 레코드를 과적합하고 거부합니다. 훈련 시 적절한 매개변수 값을 선택해야 하기 때문에 일반적으로 테스트 중에 거부율을 수정할 수 없습니다.