Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

이등분 K-평균이란 무엇입니까?

<시간/>

이등분 K-평균 알고리즘은 K개의 클러스터를 획득하고, 일부 포인트 세트를 두 개의 클러스터로 분할하고, 분할할 클러스터 중 하나를 선택하는 등의 간단한 개념에 의존하는 기본 K-평균 알고리즘의 간단한 개발입니다. , K 클러스터가 생성될 때까지

k-평균 알고리즘은 입력 매개변수 k를 생성하고 n개의 개체 집합을 k개의 클러스터로 나누어 결과적으로 클러스터 내 유사성은 높지만 클러스터 간 유추는 낮습니다. 클러스터 유사성은 클러스터의 중심 또는 무게 중심으로 볼 수 있는 클러스터에 있는 개체의 평균값에 대해 평가됩니다.

수단에 대한 원래 값은 임의로 승인됩니다. 이것들은 무작위로 승인될 수 있거나 아마도 처음 k 입력 항목 자체의 값이 필요할 수 있습니다. 수렴 성분은 제곱 오차를 기반으로 할 수 있지만 반드시 그럴 필요는 없습니다. 예를 들어, 알고리즘은 여러 클러스터에 할당됩니다. 다른 종료 방법은 고정된 반복 횟수로 잠겨 있습니다. 수렴 없이도 쇼핑을 제공하기 위해 최대 반복 횟수가 포함될 수 있습니다.

K-Means를 이등분하는 알고리즘은 다음과 같습니다. -

  • 모든 포인트와 같은 클러스터를 포함하도록 클러스터 목록을 초기화합니다.

  • 반복

  • 클러스터 목록에서 클러스터를 제거합니다.

  • {선택한 클러스터의 여러 "시도" 이분법을 구현합니다.}

  • for i :1 ~ 시행 횟수

  • 기본 K-평균을 사용하여 선택 클러스터를 양분합니다.

  • 종료

  • 총 SSE가 가장 작은 이등분에서 두 클러스터를 선택합니다.

  • 이 두 클러스터를 클러스터 문서에 삽입하십시오.

  • 클러스터 문서에 K 클러스터가 포함될 때까지

분할할 클러스터를 선택하는 방법에는 여러 가지가 있습니다. 각 단계에서 가장 높은 클러스터를 선택하거나 SSE가 가장 큰 클러스터를 선택하거나 크기와 SSE를 모두 기반으로 한 요소를 사용할 수 있습니다. 다중 선택은 다른 클러스터를 생성합니다.

기본 K-평균 알고리즘에 대한 원래 중심으로 중심을 사용하여 출력 클러스터를 명확하게 할 수 있습니다. 이는 K-means 알고리즘이 SSE에 관한 지역 최소값을 정의하는 클러스터링을 찾기 위해 보안되지만 K-means를 이등분할 때 K-means 알고리즘을 "로컬", 즉 단일 클러스터를 이등분하기 위해 사용하기 때문에 필수적입니다. 따라서 클러스터의 최종 집합은 전체 SSE에 대한 로컬 최소값인 클러스터링을 정의하지 않습니다.

마지막으로 K-평균 이등분 군집으로 생성된 일련의 군집을 기록함으로써 계층적 군집을 만들기 위해 K-평균을 이등분해야 할 수도 있습니다.