Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

K-평균 클러스터링이란 무엇입니까?


K-평균 클러스터링은 가장 일반적인 분할 알고리즘입니다. K-평균은 데이터 세트의 각 데이터를 새로 형성된 클러스터 중 하나만 재할당합니다. 레코드 또는 데이터 포인트는 거리 또는 유사성 측정을 사용하여 가장 가까운 클러스터에 할당됩니다.

k-means 알고리즘은 입력 매개변수 k를 생성하고 n개의 개체 그룹을 k개의 클러스터로 나누어 결과적으로 클러스터 내 유사성은 크지만 클러스터 간 유추는 낮습니다. 클러스터 유사도는 클러스터의 중심 또는 무게 중심으로 볼 수 있는 클러스터에 있는 개체의 평균값을 기준으로 계산됩니다.

K-평균 클러스터링에는 다음 단계가 사용됩니다. -

  • K 초기 클러스터 중심 c1를 선택할 수 있습니다. , c2 , c3 … . . ck .

  • 중심이 x에 가장 가까운 S 클러스터의 각 인스턴스 x를 할당할 수 있습니다.

  • 각 클러스터에 대해 해당 클러스터에 포함된 요소를 기반으로 중심을 다시 계산합니다.

  • 수렴이 완료될 때까지 (b)로 이동합니다.

  • 개체(데이터 포인트)를 K 클러스터로 분리할 수 있습니다.

  • 중심(중심) =클러스터에 있는 모든 데이터 포인트의 평균을 클러스터링하는 데 사용됩니다.

  • 중심이 가장 가까운 클러스터에 각 점을 할당할 수 있습니다(거리 함수 사용).

수단에 대한 원래 값은 임의로 승인됩니다. 이들은 무작위로 할당되거나 처음 k 입력 항목 자체의 값을 사용할 수 있습니다. 수렴 요소는 제곱 오차를 기반으로 할 수 있지만 그렇지 않아야 합니다. 예를 들어, 알고리즘은 다른 클러스터에 할당됩니다. 다른 종료 기술은 고정된 반복 횟수로 고정되어 있습니다. 수렴 없이도 쇼핑을 보장하기 위해 최대 반복 횟수를 포함할 수 있습니다.

알고리즘

입력 -

D = {t1 t2 … tn} // Set of elements
k // Number of desired clusters

출력 -

K // Set of clusters

K-평균 알고리즘 -

   assign initial values for means m1 m2 … . . mk
   repeat
   assign each item ti to the cluster which has the closest mean
calculate the new mean for each cluster
until convergence criteria are met

3개의 개체를 3개의 원래 클러스터 중심으로 임의로 선택하는 데 사용되며, 여기서 클러스터 중심은 "+"로 표시됩니다. 각 개체는 편리한 클러스터 중심에 따라 클러스터에 배포됩니다.

다음으로 클러스터 센터가 업데이트됩니다. 각 클러스터의 평균 값은 클러스터의 일반적인 개체를 기반으로 다시 계산됩니다. 새로운 클러스터 중심을 활용하여 인접한 클러스터 중심에 따라 개체가 클러스터에 재분배됩니다. 이러한 재분배 구조는 점선 곡선으로 둘러싸인 새로운 실루엣입니다.

파티셔닝을 개선하기 위해 객체를 클러스터에 반복적으로 재생성하는 절차를 반복 재배치로 정의합니다. 나타나는 클러스터에서 개체의 재배포가 없으므로 프로세스가 제거됩니다. 결과 클러스터는 클러스터링 단계에서 복원됩니다.