집합 클러스터링 알고리즘이란 무엇입니까?

<시간/>

응집 클러스터링은 클러스터에 하위 클러스터가 있고 차례로 하위 클러스터 등이 있는 상향식 클러스터링 방법입니다. 각 개체를 클러스터에 배치하는 것으로 시작한 다음 모든 개체가 완성될 때까지 이러한 원자 클러스터를 더 높은 클러스터로 혼합할 수 있습니다. 개별 클러스터에서 또는 명확한 종료 조건이 필요할 때까지. 이 유형에 사용되는 일부 계층적 클러스터링 방법. 클러스터 간 유사성에 대한 설명에서만 구별됩니다.

예를 들어 AGNES(Agglomerative Nesting)라는 방법은 단일 링크 기술이 필요하며 다음과 같이 작동합니다. 직사각형에 배치된 개체 그룹이 있다고 가정합니다. 처음에는 모든 개체가 자체 클러스터에 위치합니다. 따라서 클러스터는 클러스터에서 가장 가까운 객체 간의 최소 유클리드 거리로 클러스터를 결합하는 것과 같은 몇 가지 원칙에 따라 단계적으로 병합됩니다.

클러스터링에 대한 K-평균 방법은 일정한 수의 클러스터로 시작하여 모든 데이터를 정확히 해당 다중 클러스터에 할당합니다. 접근 방식의 또 다른 클래스는 응집에 의해 작동합니다. 이러한 접근 방식은 모든 데이터 포인트가 자체 클러스터를 형성하는 것으로 시작하여 모든 포인트가 하나의 큰 클러스터로 수집될 때까지 점차 더 높은 클러스터로 결합합니다.

첫 번째 프로세스는 유사성 행렬을 생성하는 것입니다. 유사성 매트릭스는 클러스터 간의 몇 가지 쌍별 거리 또는 유사도의 테이블입니다. 원래 유사성 행렬에는 단일 레코드 쌍 간의 쌍별 거리가 포함됩니다.

유클리드 거리(Euclidean distance), 벡터 간의 각도, 연결되지 않은 범주형 필드에 대한 연결 비율과 같은 레코드 간의 유사성에 대한 몇 가지 측정값이 있습니다.

N개의 데이터 포인트에 대한 N개의 원래 클러스터를 사용하면 거리 테이블을 만들기 위해 N2개의 측정 계산이 필요한 것처럼 보일 수 있습니다. 유사도 측정값이 실제 거리 측정항목인 경우 일부 실제 거리 측정항목은 Distance(X, Y) =Distance(Y, X) 방식을 따르기 때문에 절반만 필요합니다.

수학에서 동일한 행렬은 하삼각형입니다. 다음 프로세스는 동일한 행렬에서 가장 작은 값을 찾는 것입니다. 이것은 서로 가장 동일한 두 클러스터를 인식합니다. 이 두 클러스터를 새로운 클러스터로 결합하고 상위 클러스터를 설명하는 두 행을 병합된 클러스터와 나머지 클러스터 사이의 거리를 정의하는 새 행으로 복원하여 유사성 매트릭스를 새로 고칠 수 있습니다.

이제 동일한 행렬에 N – 1개의 클러스터와 N – 1개의 행이 있습니다. 병합 단계를 N – 1번 반복할 수 있으므로 일부 데이터는 동일한 큰 클러스터에 속합니다. 각 반복은 결합된 클러스터와 클러스터 간의 거리를 인식합니다. 이 정보는 사용할 클러스터링 방법을 결정할 수 있습니다.