이등분 K-평균 알고리즘은 K개의 클러스터를 획득하고, 일부 포인트 세트를 두 개의 클러스터로 분할하고, 분할할 클러스터 중 하나를 선택하는 등의 간단한 개념에 의존하는 기본 K-평균 알고리즘의 간단한 개발입니다. , K 클러스터가 생성될 때까지
k-평균 알고리즘은 입력 매개변수 k를 생성하고 n개의 개체 집합을 k개의 클러스터로 나누어 결과적으로 클러스터 내 유사성은 높지만 클러스터 간 유추는 낮습니다. 클러스터 유사성은 클러스터의 중심 또는 무게 중심으로 볼 수 있는 클러스터에 있는 개체의 평균값에 대해 평가됩니다.
수단에 대한 원래 값은 임의로 승인됩니다. 이것들은 무작위로 승인될 수 있거나 아마도 처음 k 입력 항목 자체의 값이 필요할 수 있습니다. 수렴 성분은 제곱 오차를 기반으로 할 수 있지만 반드시 그럴 필요는 없습니다. 예를 들어, 알고리즘은 여러 클러스터에 할당됩니다. 다른 종료 방법은 고정된 반복 횟수로 잠겨 있습니다. 수렴 없이도 쇼핑을 제공하기 위해 최대 반복 횟수가 포함될 수 있습니다.
K-Means를 이등분하는 알고리즘은 다음과 같습니다. -
-
모든 포인트와 같은 클러스터를 포함하도록 클러스터 목록을 초기화합니다.
-
반복
-
클러스터 목록에서 클러스터를 제거합니다.
-
{선택한 클러스터의 여러 "시도" 이분법을 구현합니다.}
-
for i :1 ~ 시행 횟수
-
기본 K-평균을 사용하여 선택 클러스터를 양분합니다.
-
종료
-
총 SSE가 가장 작은 이등분에서 두 클러스터를 선택합니다.
-
이 두 클러스터를 클러스터 문서에 삽입하십시오.
-
클러스터 문서에 K 클러스터가 포함될 때까지
분할할 클러스터를 선택하는 방법에는 여러 가지가 있습니다. 각 단계에서 가장 높은 클러스터를 선택하거나 SSE가 가장 큰 클러스터를 선택하거나 크기와 SSE를 모두 기반으로 한 요소를 사용할 수 있습니다. 다중 선택은 다른 클러스터를 생성합니다.
기본 K-평균 알고리즘에 대한 원래 중심으로 중심을 사용하여 출력 클러스터를 명확하게 할 수 있습니다. 이는 K-means 알고리즘이 SSE에 관한 지역 최소값을 정의하는 클러스터링을 찾기 위해 보안되지만 K-means를 이등분할 때 K-means 알고리즘을 "로컬", 즉 단일 클러스터를 이등분하기 위해 사용하기 때문에 필수적입니다. 따라서 클러스터의 최종 집합은 전체 SSE에 대한 로컬 최소값인 클러스터링을 정의하지 않습니다.
마지막으로 K-평균 이등분 군집으로 생성된 일련의 군집을 기록함으로써 계층적 군집을 만들기 위해 K-평균을 이등분해야 할 수도 있습니다.