Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

고차원 데이터에서 이상값 감지의 문제는 무엇입니까?

<시간/>

고차원 데이터에서 이상값 감지의 다양한 문제는 다음과 같습니다 -

이상치 해석 − 이상값을 식별할 수 있을 뿐만 아니라 이상값에 대한 해석도 지원해야 합니다. 여러 특성(또는 차원)이 고차원 데이터 세트에 포함되어 있기 때문에 이상값이 이상값인 이유에 대한 일부 해석을 지원하지 않고 이상값을 식별하는 것은 그다지 도움이 되지 않습니다.

이상치에 대한 해석은 이상치를 나타내는 명확한 부분 공간이나 대상의 "이상치"에 대한 평가에서 나타날 수 있습니다. 이러한 해석은 사용자가 이상값의 가능한 의미와 중요성을 배우는 데 도움이 될 수 있습니다.

데이터 희소성 - 방법은 고차원 영역에서 희소성을 관리할 수 있어야 합니다. 차원이 향상됨에 따라 객체 간의 거리는 노이즈에 의해 크게 좌우됩니다. 따라서 고차원 영역의 데이터는 희소합니다.

데이터 부분공간 − 예를 들어, 이상값을 나타내는 부분 공간에 적응하고 정보의 국부적 행동을 얻는 것과 같이 이상값을 적절하게 모델링해야 합니다. 차원이 증가함에 따라 두 객체 사이의 거리가 단조롭게 증가하기 때문에 이상치를 식별하기 위해 일부 부분 공간에 대해 고정 거리 임계값을 사용할 수 있습니다.

차원에 대한 확장성 − 차원이 증가함에 따라 다중 부분 공간이 기하급수적으로 향상됩니다. 일부 가능한 부분 공간을 포함하는 검색 공간의 철저한 조합 분석은 확장 가능한 방법이 아닙니다.

고차원 데이터에 대한 이상치 탐지 방법은 다음과 같이 세 가지 주요 방법으로 나눌 수 있습니다. -

기존의 이상값 감지 확장 − 고차원 데이터에서 이상값 감지를 위한 한 가지 방법은 기존의 이상값 감지 방법을 개선합니다. 기존의 근접 기반 이상값 모델이 필요합니다. 고차원 공간에서 근접 측정의 열화를 극복할 수 있으며, 대체 측정이 필요하거나 부분 공간을 구성하고 이상값을 감지합니다.

HilOut 알고리즘은 이 메서드의 인스턴스입니다. HilOut은 거리 기반 이상값을 발견하지만 이상값 감지에서는 절대 거리보다 거리 순위가 필요합니다. 특히, 각 객체 o에 대해 HilOut은 n1로 표시되는 o의 k-최근접 이웃을 찾습니다. (o),...,nnk (o), 여기서 k는 소프트웨어 종속 매개변수입니다.

객체 o의 무게는 다음과 같이 표현됩니다.

$$\mathrm{w(o) =\displaystyle\sum\limits_{i=1}^k dist(o,nn_{i}(o))}$$

부분공간에서 이상값 찾기 − 고차원 데이터에서 이상값을 감지하는 다른 방법은 여러 부분 공간에서 이상값을 찾는 것입니다. 특정 이점은 개체가 훨씬 낮은 차원의 하위 공간에서 이상값으로 발견되는 경우 하위 공간이 개체가 이상값인 이유와 범위를 실행하기 위한 중요한 데이터를 지원한다는 것입니다. 이는 차원이 압도적으로 많기 때문에 고차원 데이터가 있는 응용 프로그램에서 매우 중요합니다.

고차원 이상값 모델링 − 고차원 데이터의 이상값 감지 방법에 대한 대체 방법은 고차원 이상값에 대한 새 모델을 정확하게 생성하기 위해 시도합니다.