이상 탐지의 목적은 여러 개체와 다른 개체를 발견하는 것입니다. 종종 비정상적인 개체는 데이터의 산점도에서 여러 데이터 포인트에서 멀리 떨어져 있기 때문에 이상값이라고 합니다. 비정상 개체는 기본적으로 예상 또는 일반 속성 값에서 벗어나는 속성 값을 갖기 때문에 이상 탐지를 편차 탐지라고 하거나, 예외 마이닝으로서 예외는 여러 의미에서 예외적이기 때문에
지구, 인간 사회 또는 데이터 그룹의 영역에서 대부분의 이벤트와 개체는 대표적으로 공통 영역 또는 일반 영역입니다. 그러나 다르거나 비범한 대상의 실현 가능성에 대한 예리한 지식을 가질 수 있습니다. 여기에는 유난히 건조하거나 우기인 계절, 인기 있는 운동 선수 또는 다른 모든 것보다 훨씬 작거나 높은 속성 값이 포함됩니다.
다음과 같은 몇 가지 이상 원인이 있습니다. -
다양한 클래스의 데이터 − 개체는 여러 유형 또는 클래스이기 때문에 변칙과 같은 여러 개체와 다를 수 있습니다. 예를 들어, 신용 카드 사기를 저지르는 사람은 신용 카드가 정확히 필요한 사람보다 여러 부류의 신용 카드 사용자에 속합니다.
사기, 침입, 질병 발생 및 비정상적인 테스트 결과와 같이 표시된 일부 예는 다른 클래스의 요소를 정의하는 이상 사례입니다. 이러한 이상 현상은 상당한 관심을 불러일으키며 데이터 마이닝 영역에서 이상 징후 식별의 대상입니다.
자연적 변화 − 일부 데이터 세트는 정규(가우시안) 분포를 포함한 통계적 분포로 모델링할 수 있습니다. 여기서 데이터 개체의 확률은 분포의 중앙에서 개체의 거리가 증가함에 따라 점점 감소합니다.
다른 용어로, 일부 객체는 중심(평균 객체) 근처에 있으며 객체가 이 평균 객체와 본질적으로 다를 가능성은 적습니다. 예를 들어, 예외적으로 키가 큰 사람은 개체의 독립된 부류에 속한다는 방법에서 변칙적이지 않고 일부 개체가 소비하는 특성(키)에 대한 완전한 값을 갖는 방법에서만 변칙적입니다. 심각하거나 가능성이 희박한 변형을 정의하는 이상 현상이 있습니다.
데이터 측정 및 수집 오류 − 데이터 세트 또는 측정 프로세스의 오류는 이상 현상의 또 다른 원인입니다. 예를 들어, 컴퓨팅 장치의 인적 오류 문제 또는 노이즈 존재로 인해 측정이 잘못 기록될 수 있습니다.
목표는 흥미로운 데이터를 지원하지 않고 데이터의 기능과 후속 데이터 분석만 감소시키기 때문에 이러한 이상 현상을 제거하는 것입니다. 실제로 이러한 유형의 이상을 삭제하는 것이 데이터 전처리, 특히 데이터 정리의 대상입니다.