데이터 마이닝에는 다양한 유형의 이상치가 있습니다. -
전역 이상값 − 주어진 데이터 세트에서 데이터 객체는 나머지 정보 세트에서 본질적으로 벗어나는 경우 전역 이상값입니다. 전역 이상값은 포인트 이상이라고 하며 가장 쉬운 유형의 이상값입니다. 대부분의 이상값 탐지 방법은 전역 이상값을 발견하는 것을 목표로 합니다.
전역 이상값을 식별할 수 있으며 중요한 문제는 해당 응용 프로그램과 관련된 적절한 편차 측정값을 찾는 것입니다. 몇 가지 측정이 제안되고 이에 따라 이상치 탐지 접근 방식이 여러 범주로 분할됩니다.
전역 이상값 감지는 여러 응용 프로그램에서 필수적입니다. 예를 들어 컴퓨터 네트워크의 침입 탐지를 고려하십시오. 예를 들어 컴퓨터의 통신 동작이 일반적인 설계와 다른 경우(예:많은 수의 패키지가 짧은 시간에 광고되는 경우) 이 동작은 전역 이상값으로 처리될 수 있으며 해당 컴퓨터는 해킹 피해가 의심됩니다.
문맥 이상값 − 컨텍스트 이상값을 조건부 이상값이라고 합니다. 이러한 유형의 이상치는 주어진 데이터 세트의 특정 조건 때문에 데이터 개체가 여러 데이터 포인트에서 벗어날 경우 나타납니다.
컨텍스트 속성과 행동 속성을 포함하여 데이터 객체의 속성에는 두 가지 유형이 있습니다. 컨텍스트 이상값 분석을 통해 사용자는 여러 컨텍스트 및 조건에서 이상값을 결정할 수 있으며, 이는 여러 애플리케이션에서 유용할 수 있습니다.
Behavioral 속성에서 객체의 특성을 나타낼 수 있으며 객체가 이해하는 컨텍스트에서 객체가 이상값인지 여부를 계산하는 데 사용됩니다. 온도 인스턴스에서 행동 속성은 온도, 습기 및 압력이 될 수 있습니다.
컨텍스트 이상값은 밀도 기반 이상값 분석 방법에 도입된 개념인 로컬 이상값을 일반화한 것입니다. 데이터 세트의 개체는 밀도가 기본적으로 개체가 나타나는 로컬 영역에서 벗어나는 경우 로컬 이상값입니다.
전역 이상값 감지는 컨텍스트 속성 그룹이 null인 컨텍스트 이상값 감지의 특별한 방법으로 간주될 수 있습니다. 즉, 전역 이상값 감지에는 전체 데이터 세트가 컨텍스트로 필요합니다. 상황별 이상값 분석은 여러 응용 프로그램에서 바람직할 수 있는 여러 상황에서 이상값을 결정할 수 있다는 점에서 사용자에게 유연성을 지원합니다.
집합적인 이상치 − 주어진 데이터 세트에서 데이터 포인트 세트가 나머지 정보 세트에서 벗어나는 경우를 집합적 이상치라고 합니다. 따라서 데이터 개체의 특정 집합은 이상값이 될 수 없지만 데이터 개체를 전체적으로 고려할 수 있을 때 이상값으로 작용할 수 있습니다.
여러 이상값의 유형을 인식할 수 있으므로 여러 데이터 개체에서 표시되는 이상값의 동작 간의 관계에 대한 배경 데이터를 살펴봐야 합니다.