Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

계층적 클러스터링의 요소는 무엇입니까?

<시간/>

계층적 클러스터링 접근 방식은 데이터 개체를 클러스터 트리로 병합하여 작동합니다. 계층적 클러스터링 알고리즘은 하향식 또는 상향식입니다. 정확한 계층적 클러스터링 기술의 특징은 병합 또는 분할 결정이 완료되어 조정을 수행하지 못하기 때문에 퇴화됩니다.

다음과 같은 계층적 클러스터링의 다양한 요소가 있습니다 -

글로벌 목적 기능의 부족

응집적 계층적 클러스터링 방법은 여러 요소를 사용하여 각 단계에서 어떤 클러스터를 병합해야 하는지(또는 분할 접근 방식을 위해 분할해야 하는지를 로컬로 결정합니다.

이 방법은 복잡한 조합 최적화 문제를 해결하기 위한 어려움을 방지하는 클러스터링 알고리즘을 생성합니다.

다양한 클러스터 크기를 처리하는 기능

결합되는 클러스터 그룹의 연관 크기를 고려하는 방법에 대한 응집 계층적 클러스터링의 요소입니다. 중심, 와드 및 그룹 평균과 같은 합계가 포함된 근접 구성표를 클러스터링하는 데만 사용합니다.

모든 클러스터를 동등하게 고려하는 가중치와 각 클러스터의 포인트 수를 고려하여 생성하는 가중치가 없는 두 가지 방법이 있습니다. 가중 또는 비가중이라는 용어는 클러스터가 아니라 데이터 포인트를 정의합니다. 즉, 크기가 다른 클러스터를 고려하면 다른 클러스터의 포인트에 여러 가중치를 동일하게 제공하는 반면 클러스터 크기를 생성하면 다른 클러스터의 포인트에 유사한 가중치를 제공합니다.

합병 결정은 최종적입니다.

응집 계층적 클러스터링 알고리즘은 모든 포인트의 쌍별 유사성에 대한 데이터가 필요할 수 있기 때문에 두 클러스터를 결합하는 데 대한 좋은 로컬 결정 생성에 영향을 줍니다. 두 클러스터를 병합하기로 결정했기 때문에 다음에 취소할 수 없습니다. 이 방법은 로컬 최적화 요소가 글로벌 최적화 기준이 되는 것을 방지합니다.

예를 들어, K-means의 "제곱 오차 최소화" 기준이 Ward의 방법에서 병합할 클러스터를 결정하는 데 사용되지만 각 수준의 클러스터는 전체 SSE에 대한 국소 최소값을 정의하지 않습니다. 실제로 한 클러스터의 포인트가 최근 클러스터의 중심보다 다른 클러스터의 중심에 더 가까울 수 있다는 점에서 클러스터는 동적이지 않습니다.

병합의 한계를 극복하려는 일부 방법은 최종적입니다. 한 가지 방법은 전세계 목적 함수를 향상시키기 위해 트리의 가지를 수정하여 계층적 클러스터링을 제공하려고 합니다. 또 다른 방법은 Kmeans를 포함하는 분할 클러스터링 기술을 사용하여 몇 개의 작은 클러스터를 생성한 다음 이러한 작은 클러스터를 시작점으로 사용하여 계층적 클러스터링을 구현해야 합니다.