Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

DENCLUE란 무엇입니까?

<시간/>

클러스터링은 지식 발견을 위한 중요한 데이터 마이닝 접근 방식입니다. 클러스터링은 여러 데이터 개체를 클러스터와 같은 동일한 그룹으로 분류하는 탐색적 데이터 분석 방법입니다.

DENCLUE는 밀도 기반 클러스터링을 나타냅니다. 밀도 분포 함수 그룹에 의존하는 클러스터링 접근 방식입니다. DENCLUE 알고리즘은 커널 밀도 추정에 따라 클러스터 모델을 사용합니다. 클러스터는 예측 밀도 함수의 로컬 최대값으로 표시됩니다.

DENCLUE는 균일 분포의 레코드에서 작동하지 않습니다. 고차원 공간에서 데이터는 차원의 저주 때문에 항상 균일하게 분포된 것처럼 보입니다. 따라서 DENCLUDE는 일반적으로 고차원 레코드에서 잘 작동하지 않습니다.

이 방법은 다음과 같은 아이디어를 기반으로 합니다. -

  • 각 데이터 요소의 영향은 영향 함수라고 하는 수학 함수를 사용하여 공식적으로 모델링할 수 있습니다. 이 함수는 이웃 내 데이터 요소의 영향을 설명합니다.

  • 데이터 영역의 완전한 밀도는 일부 데이터 포인트에 사용된 영향 함수의 합으로 분석적으로 모델링할 수 있습니다.

  • 클러스터는 밀도 어트랙터를 인식하여 수치적으로 결정할 수 있습니다. 여기서 밀도 어트랙터는 전체 밀도 함수의 로컬 최대값입니다.

x와 y를 f d 의 객체 또는 점이라고 합시다. , d차원 입력 공간. x에 대한 데이터 개체 y의 영향 함수는 $\mathrm{f_B^y\colon f^{d}\rightarrow R_0^+}$ 함수이며 기본 영향 함수 fB로 정의됩니다. :

$$\mathrm {f_B^y(X)=f_{B}(X,Y)}$$

이것은 y가 x에 미치는 영향을 반영합니다. 원칙적으로 영향함수는 이웃에 있는 두 물체 사이의 거리에 의해 결정될 수 있는 임의의 함수일 수 있다. 거리 함수 d(x, y)는 유클리드 거리 함수를 포함하여 반사 및 대칭이어야 합니다.

일반적으로 구형파 영향 함수를 계산하는 데 사용됩니다.

$$\mathrm{f_{square}(X,Y)=\begin{Bmatrix}0 \:\:\:\:\:\:\:\:\:\:\:\mathrm{if\:d (x, y)> \sigma}\\1\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\mathrm{그렇지 않으면 }\end{Bmatrix}}$$

또는 가우스 영향 함수,

$$\mathrm{f_{가우스}(x, y)=e-\frac{d(x, y)^2}{2{\sigma}^2}}$$

DENCLUE의 장점

DENCLUE에는 다음과 같은 몇 가지 장점이 있습니다. -

  • 이는 견고한 수치 기반을 가지고 있으며 분할, 계층 및 밀도 기반 방법과 같은 여러 클러스터링 접근 방식을 일반화합니다.

  • 많은 양의 노이즈가 있는 데이터 세트에 대해 우수한 클러스터링 속성을 가지고 있습니다.

  • 그것은 고차원 정보 세트에서 임의의 모양의 클러스터에 대한 간략한 숫자 설명을 가능하게 합니다.

  • 그리드 셀을 사용하지만 실제로 데이터 포인트를 포함하는 그리드 셀에 대한 정보만 유지합니다. 트리 기반 액세스 구조에서 이러한 셀을 관리하므로 DBSCAN과 같은 일부 영향력 있는 알고리즘보다 훨씬 빠릅니다.

  • 이러한 방법을 사용하려면 밀도 매개변수 σ 및 노이즈 임계값 ξ를 신중하게 선택해야 합니다. 이러한 매개변수를 선택하면 클러스터링 결과의 품질에 상당한 영향을 미칠 수 있기 때문입니다.