이상값 감지 방법은 무엇입니까?

<시간/>

이상치 검출의 다양한 방법은 다음과 같습니다 -

지도 방법 − 지도 방법은 데이터 정상 및 비정상을 모델링합니다. 도메인 전문가는 기본 데이터 샘플을 테스트하고 레이블을 지정합니다. 이상치 탐지는 분류 문제로 모델링할 수 있습니다. 서비스는 이상치를 식별할 수 있는 분류기를 이해하는 것입니다.

샘플은 교육 및 테스트에 사용할 수 있습니다. 다양한 응용 프로그램에서 전문가는 일반 개체에만 레이블을 지정할 수 있으며 일반 개체의 모델을 연결하지 않는 여러 개체는 이상값으로 문서화됩니다. 이상치를 모델링하는 방법과 이상치 모델을 정상적으로 연결하지 않는 객체를 고려하는 방법이 있습니다.

감독되지 않는 방법 − 다양한 적용 방법에서 "정상" 또는 "이상치"로 표시된 개체는 적용되지 않습니다. 따라서 비지도 학습 접근 방식을 사용해야 합니다. 감독되지 않은 이상값 탐지 방법은 일반 개체가 상당히 "클러스터"되어 있다는 암시적인 가정을 만듭니다.

감독되지 않은 이상값 감지 방법은 일반 객체가 이상값보다 훨씬 더 일반적으로 패턴을 따른다고 예측합니다. 일반 개체는 큰 유사성을 공유하는 하나의 팀으로 떨어질 필요가 없습니다. 대신, 각 그룹에 여러 기능이 있는 여러 그룹을 형성할 수 있습니다.

이 가정은 언젠가는 사실일 수 없습니다. 일반 개체는 일부 강한 패턴을 보내지 않습니다. 오히려 균일하게 분포되어 있습니다. 집합적인 이상값은 작은 영역에서 큰 유사성을 공유합니다.

감독되지 않은 방법은 이러한 이상값을 효율적으로 식별할 수 없습니다. 일부 응용 프로그램에서는 일반 개체가 별도로 배포되고 여러 개체가 강한 패턴을 따르지 않습니다. 예를 들어, 일부 침입 탐지 및 컴퓨터 바이러스 탐지 문제에서 정상적인 활동은 구별되고 일부는 고품질 클러스터로 떨어지지 않습니다.

일부 클러스터링 방법은 감독되지 않은 이상값 탐지 방법을 용이하게 하도록 조정할 수 있습니다. 주요 아이디어는 먼저 클러스터를 발견하는 것이므로 일부 클러스터에 속하지 않는 데이터 개체는 이상값으로 식별됩니다. 그러나 이러한 방법은 두 가지 문제에서 악화됩니다. 첫째, 어떤 클러스터에 속하지 않는 데이터 객체는 이상치라기 보다는 노이즈일 수 있다. 둘째, 클러스터를 먼저 발견한 다음 이상치를 발견하는 데 비용이 많이 듭니다.

반 감독 방법 − 여러 응용 프로그램에서 레이블이 지정된 인스턴스를 얻는 것이 가능하지만 레이블이 지정된 인스턴스의 수는 적습니다. 정상 및 이상값 개체의 작은 그룹에만 레이블이 지정되지만 일부 데이터에는 레이블이 지정되지 않은 경우가 발생할 수 있습니다. 이러한 방법을 다루기 위해 준지도 이상값 탐지 방법이 만들어졌습니다.

Semi-supervised outlier detection 방법은 semisupervised learning approach의 적용으로 볼 수 있다. 예를 들어 레이블이 지정된 일반 개체에 액세스할 수 있는 경우 근처에 있는 레이블이 지정되지 않은 개체와 함께 사용하여 일반 개체에 대한 모델을 훈련할 수 있습니다. 정상 개체의 모델은 이상값을 식별하는 데 사용됩니다. 정상 개체의 모델에 적합하지 않은 개체는 이상값으로 정의됩니다.