이상치란 무엇입니까?

<시간/>

이상치는 마치 여러 메커니즘에 의해 생성된 것처럼 나머지 개체와 본질적으로 다른 데이터 개체입니다. 표시를 쉽게 하기 위해 이상치가 아닌 데이터 개체를 "정상" 또는 예상 정보로 정의할 수 있습니다. 일반적으로 이상값을 "비정상적인" 데이터로 정의할 수 있습니다.

이상치는 주어진 클래스나 클러스터에서 결합할 수 없는 데이터 구성 요소입니다. 이들은 다른 데이터 개체의 일반적인 동작에서 몇 가지 동작을 갖는 데이터 개체입니다. 이러한 종류의 데이터 분석은 지식을 캐내는 데 중요할 수 있습니다.

이상치는 시끄러운 정보와 다릅니다. 노이즈는 계산된 변수의 무작위 버그 또는 분산입니다. 일반적으로 노이즈는 이상값 감지와 같은 데이터 분석에서 매력적이지 않습니다.

예를 들어, 신용 카드 사기 탐지에서 사용자 구매 행동은 임의 변수로 모델링될 수 있습니다. 사용자는 하루 더 많은 양의 점심을 사거나 평소보다 커피를 한 잔 더 받는 것을 포함하여 "임의의 오류" 또는 "차이"와 같이 볼 수 있는 "소음 거래"를 할 수 있습니다.

그러한 거래는 이상치로 간주되어서는 안 됩니다. 따라서 신용 카드 회사는 일부 거래를 확인하는 데 큰 비용이 발생할 수 있습니다. 회사는 또한 몇 가지 잘못된 경보로 사용자를 귀찮게하여 사용자를 잃을 수 있습니다. 여러 데이터 분석 및 데이터 마이닝 서비스로서 이상치 탐지 전에 노이즈를 제거해야 합니다.

일부 실제 데이터베이스에는 이상값이나 누락, 익명 또는 잘못된 데이터가 포함되어 있습니다. 일부 클러스터링 알고리즘은 이러한 데이터에 집중되어 품질이 좋지 않은 클러스터를 시작할 수 있습니다.

이상치는 나머지 데이터와 동일한 구조로 생성되지 않는 것으로 의심되기 때문에 매력적입니다. 따라서 이상값 감지에서는 식별된 이상값이 여러 메커니즘에 의해 생성되는 이유를 정당화하는 것이 필수적입니다.

이는 나머지 정보에 대해 다양한 가정을 생성하고 감지된 이상치가 이러한 가정을 본질적으로 위반한다는 것을 표시함으로써 달성됩니다. 이상치 탐지는 데이터 세트를 포함할 때 참신성 탐지와도 관련이 있습니다. 예를 들어, 새로운 콘텐츠가 다가오고 있는 소셜 미디어 웹사이트를 관찰함으로써, 참신 감지는 새로운 주제와 트렌드를 적시에 식별할 수 있습니다.

새로운 주제는 원래 이상치로 나타날 수 있습니다. 이상치 탐지 및 신규 탐지는 모델링 및 탐지 접근 방식에서 몇 가지 유사점을 공유합니다. 그러나 둘 사이의 중요한 차이점은 신규성 감지에서 새로운 주제가 확인되면 일반적으로 일반 행동 모델에 통합되어 후속 사례가 더 이상 이상치로 간주되지 않는다는 것입니다.