웨이블릿 변환이 클러스터링에 유용한 이유는 무엇입니까?

<시간/>

WaveCluster는 먼저 데이터 공간에 다차원 그리드 아키텍처를 적용하여 레코드를 요약하는 다중 해상도 클러스터링 알고리즘입니다. 웨이블릿 변환을 사용하여 원래 기능 공간을 변경하고 변환된 공간에서 밀집 영역을 찾을 수 있습니다.

이 방법에서 각 그리드 셀은 셀에 매핑되는 포인트 그룹의 데이터를 요약합니다. 이 요약 데이터는 일반적으로 다중 해상도 웨이블릿 변환 및 후속 클러스터 분석에 사용하기 위해 주 메모리에 맞습니다.

웨이블릿 변환은 신호를 여러 주파수 부대역으로 분해하는 신호 처리 방식입니다. 웨이블릿 모델은 1차원 웨이블릿 변환을 d번 사용하여 d차원 신호에 사용할 수 있습니다. wavelettransform을 적용할 때 데이터는 여러 수준의 해상도에서 객체 간의 상대 거리를 유지하도록 변경됩니다. 이렇게 하면 데이터의 자연 클러스터를 더 쉽게 감지할 수 있습니다. 클러스터는 newdomain에서 밀집된 영역을 검색하여 인식할 수 있습니다.

웨이블릿 변환의 장점은 다음과 같습니다 -

비지도 클러스터링을 제공합니다. 클러스터 경계 외부의 약한 데이터는 억제하면서 점이 클러스터링되는 영역을 강조하는 모자 모양 필터가 필요합니다.

비지도 클러스터링 제공 − 클러스터 경계 외부의 약한 데이터는 억제하면서 점이 클러스터되는 영역을 강조하는 모자 모양 필터가 필요합니다.

따라서 초기 피쳐 공간의 조밀한 영역은 인접한 점에 대한 끌개 역할을 하고 더 멀리 있는 점에 대한 억제자 역할을 합니다. 이것은 데이터의 클러스터가 자동으로 눈에 띄고 주변 영역을 "맑게" 한다는 것을 정의합니다. 따라서 또 다른 이점은 웨이블릿 변환이 자동으로 이상값을 제거할 수 있다는 것입니다.
웨이블릿 변환의 다중 해상도 기능은 여러 수준의 정확도로 클러스터 감지를 지원할 수 있습니다.
웨이블릿 기반 클러스터링은 O(n)의 계산 복잡성으로 매우 빠르며, 여기서 n은 데이터베이스의 개체 수입니다. 알고리즘 구현은 병렬로 생성될 수 있습니다.
WaveCluster는 그리드 기반 및 밀도 기반 알고리즘입니다. − 좋은 클러스터링 알고리즘의 여러 요구 사항을 준수합니다. − 대용량 데이터 세트를 효율적으로 관리하고, 임의의 모양을 가진 클러스터를 찾고, 이상값을 성공적으로 관리하고, 입력 순서에 둔감하고, 개수를 포함한 입력 매개변수의 정의가 필요하지 않습니다. 클러스터 또는 이웃 반경.

예비 연구에서 WaveCluster는 효율성과 클러스터링 품질 측면에서 BIRCH, CLARANS 및 DBSCAN을 능가하는 것으로 나타났습니다. 이 연구는 또한 최대 20개 차원의 데이터를 관리할 수 있는 WaveCluster를 발견했습니다.