이상 탐지 문제는 무엇입니까?

<시간/>

다음과 같은 다양한 이상 감지 문제가 있습니다. -

이상을 정의하는 데 사용되는 속성의 수 − 개체가 변칙적인지 여부에 대한 질문은 개별 속성에 따라 달라지며 해당 속성에 대한 개체의 값이 변칙적인지 여부에 대한 질문입니다. 개체는 여러 속성을 가질 수 있기 때문에 여러 속성에 대해서는 변칙적인 값을 가질 수 있지만 여러 속성에 대해서는 일반적인 값을 가질 수 있습니다.

또한 개체의 속성 값이 독립적으로 변칙적이지 않더라도 개체는 변칙적일 수 있습니다. 예를 들어 키가 2피트(어린이)이거나 체중이 300파운드인 사람이 있는 것은 일반적이지만 키가 2피트이고 체중이 300파운드인 사람은 비정상입니다.

이상에 대한 설명은 여러 속성 값을 사용하여 개체가 이상인지 여부를 결정하는 방법을 정의해야 합니다. 이는 데이터의 차원이 클 때 필수적인 문제입니다.

글로벌 관점 대 로컬 관점 − 물체는 모든 물체에 대해 비정상적으로 보일 수 있지만 로컬 이웃에 있는 물체에 대해서는 그렇지 않습니다. 예를 들어, 키가 6피트 5인치인 사람은 일반 인구에 대해 매우 키가 크지만 프로 농구 선수에 대해서는 그렇지 않습니다.

포인트가 비정상 상태인 정도 − 객체가 비정상이라는 평가는 일부 방법에 의해 이진 방식으로 문서화됩니다. 객체가 비정상이거나 그렇지 않습니다. 일반적으로 이것은 일부 물체가 다른 물체보다 더 심한 변칙성을 갖는다는 기본적인 현실을 반영하지 않습니다. 따라서 물체가 변칙적인 정도를 여러 번 평가하는 것은 매력적입니다. 이 평가를 이상점 또는 이상점 점수라고 합니다.

한 번에 하나의 이상 항목을 식별하는 것과 한 번에 많은 이상 항목 식별 − 일부 방법에서는 예외가 한 번에 하나씩 제거됩니다. 즉, 가장 비정상적인 예가 인식되고 제거된 다음 절차가 반복됩니다. 여러 기술의 경우 일련의 예외가 함께 인식됩니다.

한 번에 하나의 이상을 인식하려는 기술은 종종 마스킹(masking)이라는 문제의 대상이 됩니다. 여기에서 여러 이상이 있으면 모두의 존재가 마스킹됩니다. 다시 말해서, 여러 이상값을 한 번에 식별하는 기술은 일반 개체가 이상값으로 정의되는 Swamping을 경험할 수 있습니다. 모델 기반 방법에서는 이상 현상이 데이터 모델을 변경하기 때문에 이러한 효과가 나타날 수 있습니다.

효율성 − 여러 변칙 탐지 체계의 계산 비용에는 중요한 차이가 있습니다. 분류 기반 체계는 분류 모델을 만드는 데 필수적인 리소스가 필요할 수 있지만 일반적으로 사용 비용이 저렴합니다. 마찬가지로 통계 방법은 통계 모델을 생성하고 일정한 시간에 요소를 분류할 수 있습니다.