Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

이상값 감지의 문제는 무엇입니까?

<시간/>

이상치는 마치 다른 구조에서 생성된 것처럼 나머지 개체와 본질적으로 다른 데이터 개체입니다. 표시를 쉽게 하기 위해 이상치가 아닌 데이터 개체를 "정상" 또는 예상 정보로 정의할 수 있습니다. 마찬가지로 이상값을 "비정상" 데이터로 정의할 수 있습니다.

이상치는 주어진 클래스나 클러스터에서 결합할 수 없는 데이터 구성 요소입니다. 이들은 다른 데이터 개체의 일반적인 동작에서 여러 동작을 갖는 데이터 개체입니다. 이러한 종류의 데이터 분석은 지식을 캐내는 데 중요할 수 있습니다.

이상치 검출의 다양한 과제는 다음과 같습니다 -

일반 개체 및 이상값을 효과적으로 모델링 - 이상치 탐지 요소는 주로 정상(비이상치) 개체 및 이상치의 모델링을 기반으로 합니다. 이것은 응용 프로그램에서 사용 가능한 몇 가지 정상적인 동작을 열거하는 것이 복잡하기 때문입니다.

데이터의 정상과 비정상(이상치)의 경계가 명확하지 않습니다. 대신 광범위한 회색 응용 프로그램이 있을 수 있습니다. 결과적으로 다양한 이상치 감지 기술이 입력 정보의 각 개체에 "정상" 또는 "이상치"라는 레이블을 설정하는 반면 다른 접근 방식은 개체의 "이상치"를 계산하는 점수를 각 개체에 할당합니다.

애플리케이션별 이상값 감지 − 유사도/거리 측정을 선택하고 데이터 객체를 정의하기 위한 관계 모델은 이상치 탐지에 필수적입니다. 불행히도 이러한 선택은 소프트웨어에 따라 다릅니다. 여러 응용 프로그램에 여러 요구 사항이 있을 수 있습니다.

이상값 감지 시 노이즈 처리 − 이상치는 노이즈와 다릅니다. 실제 정보의 질이 나쁜 영향을 미치는 것으로 알려져 있다. 노이즈 제공은 여러 응용 프로그램에서 수집된 데이터에 불가피하게 존재합니다. 노이즈는 속성 값의 편차로 표시되거나 누락된 값으로 매끄럽게 표시될 수 있습니다.

낮은 데이터 품질과 노이즈의 존재는 이상값 감지에 큰 어려움을 안겨줍니다. 그들은 정보를 속여서 정상 개체와 이상치 간의 구분을 흐리게 할 수 있습니다. 또한 노이즈 및 누락된 정보는 이상값을 "숨길" 수 있고 이상값 감지의 효율성을 감소시킬 수 있습니다. 이상값은 노이즈 포인트로 "위장"되어 발생할 수 있으며 이상값 감지 접근 방식은 노이즈 포인트를 이상값으로 잘못 인식할 수 있습니다.

이해성 − 일부 응용 방법에서 사용자는 이상값을 감지할 뿐만 아니라 감지된 개체가 이상값인 이유도 알아야 할 수 있습니다. 그것은 이해 요구 사항을 결합할 수 있으며, 이상치 탐지 기술은 탐지의 몇 가지 이유를 지원해야 합니다.

예를 들어, 통계적 접근 방식을 사용하여 개체가 대부분의 레코드를 생성한 동일한 구조에 의해 생성되었을 가능성에 따라 개체가 이상치가 될 수 있는 정도를 확인할 수 있습니다. 가능성이 작을수록 개체가 동일한 구조로 생성될 가능성이 낮고 개체가 이상값에 더 적합합니다.