Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 마이닝에서 K-Means 알고리즘의 추가 문제는 무엇입니까?

<시간/>

K-Means Algorithm에는 다음과 같은 다양한 문제가 있습니다. -

빈 클러스터 처리 − 이전에 제공된 기본 K-means 알고리즘의 첫 번째 문제는 할당 단계에서 클러스터에 할당된 포인트가 없는 경우 null 클러스터를 얻을 수 있다는 것입니다. 이 경우 제곱 오차가 필요 이상으로 커지므로 대체 중심을 선택하는 방법이 필요합니다.

한 가지 방법은 최근 중심에서 가장 멀리 떨어진 점을 선택하는 것입니다. 이것이 현재 일부 총 제곱 오차에 기여하는 점을 제거하는 경우. 또 다른 방법은 SSE가 가장 큰 클러스터에서 대체 중심을 선택하는 것입니다. 이것은 일반적으로 클러스터를 분할하고 클러스터링의 완전한 SSE를 감소시킵니다. null 클러스터가 여러 개인 경우 이 프로세스를 여러 번 반복할 수 있습니다.

이상치 − 제곱 오차 방법을 사용하면 발견된 클러스터에 이상값이 과도하게 나타날 수 있습니다. 특히, 이상값이 있는 경우 결과 클러스터 중심(프로토타입)은 가능한 한 대표할 수 없으므로 SSE도 더 높아집니다.

이상치를 미리 찾아 제거하는 것이 좋습니다. 이상값을 제거해서는 안 되는 특정 클러스터링 응용 프로그램이 있음을 이해하는 것이 중요합니다. 데이터 압축을 위해 클러스터링을 사용하는 경우 각 포인트를 클러스터링해야 하며 재무 분석을 포함하여 경우에 따라 예상 밖의 이상치(예:비정상적으로 수익성 있는 사용자)가 흥미로운 포인트가 될 수 있습니다.

후처리로 SSE 줄이기 − SSE를 줄이는 방법은 더 많은 클러스터를 찾는 것, 즉 더 큰 K가 필요한 경우입니다. 이러한 경우 SSE를 개선할 가능성이 높지만 클러스터의 수를 늘릴 필요는 없습니다. 이는 Kmeans가 일반적으로 로컬 최소값으로 수렴하기 때문에 가능합니다.

다양한 방법이 결과 클러스터를 "수정"하여 SSE가 더 낮은 클러스터링을 만드는 데 사용됩니다. 이 방법은 개별 클러스터를 대상으로 하는 것입니다. 왜냐하면 완전한 SSE는 쉽게 모든 클러스터가 기여한 SSE의 합계이기 때문입니다. 클러스터 분할 또는 병합을 포함하여 클러스터에 여러 작업을 구현하여 전체 SSE를 변경할 수 있습니다.

한 가지 방법은 대체 클러스터 분할 및 병합 절차를 사용하는 것입니다. 분할 절차에서는 클러스터가 분할되고 병합 절차에서는 클러스터가 결합됩니다. 이 방법에서는 로컬 SSE 최소값을 인출하고 점유된 클러스터 수로 클러스터링 솔루션을 생성할 수 있습니다. 다음은 다음과 같은 분할 및 병합 단계에서 사용되는 몇 가지 방법입니다. -