Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 마이닝의 클러스터링 유형은 무엇입니까?

<시간/>

다음과 같은 다양한 유형의 클러스터링이 있습니다 -

계층적 vs 부분적 − 여러 유형의 클러스터링 사이의 인식은 클러스터 세트가 중첩 또는 중첩되지 않았는지, 또는 대중적인 용어로 계층적 또는 분할적인지 여부입니다. 분할 클러스터링은 데이터 개체 그룹을 겹치지 않는 하위 집합(클러스터)으로 배포하는 것입니다. 여기에는 모든 데이터 개체가 실제로 하나의 하위 집합에 포함됩니다.

클러스터에 하위 클러스터가 있을 수 있으므로 트리로 할당되는 중첩 클러스터 그룹인 계층적 클러스터링이 필요합니다. 트리의 모든 노드(클러스터)(리프 노드 제외)는 자식(하위 클러스터)의 합집합이며 트리의 루트는 모든 개체를 포함하는 클러스터입니다.

독점 vs 중복 vs Fizzy − 클러스터링은 개별 클러스터에 대해 각 개체를 생성하므로 모두 배타적입니다. 포인트가 하나 이상의 클러스터에 위치할 수 있는 여러 위치가 있으며 이러한 상황은 비배타적 클러스터링으로 해결됩니다.

이 방법에서는 개체가 하나 이상의 그룹(클래스)에 속할 수 있다는 사실에 따라 중복 또는 비배타적 클러스터링이 발생할 수 있습니다. 예를 들어, 대학에 재학 중인 사람은 해당 대학의 등록 후보자이자 직원이 될 수 있습니다.

탄산 클러스터링에서 각 개체는 0(범주적으로 적용되지 않음)과 1(범주적으로 적용됨) 사이의 멤버십 가중치로 각 클러스터에 적용됩니다. 즉, 클러스터는 탄산 음료 세트로 간주됩니다.

완전한 대 부분 − 완전한 클러스터링은 각 개체를 클러스터에 생성하지만 부분 클러스터링은 그렇지 않습니다. 부분 클러스터링의 이유는 데이터 세트의 일부 개체가 일반 그룹에 속할 수 없기 때문입니다. 여러 번 데이터 세트의 개체는 노이즈, 이상값 또는 "흥미로운 배경"을 정의할 수 있습니다. 예를 들어, 일부 신문 기사는 지구 온난화를 포함하여 공통된 디자인을 공유할 수 있지만 다른 기사는 더 보편적이거나 고유합니다.

따라서 지난 달 이야기에서 중요한 주제를 발견할 수 있으며, 공통 주제로 거의 연결되지 않는 문서 클러스터만 검색해야 합니다. 어떤 경우에는 개체의 전체 클러스터링이 획득됩니다. 예를 들어, 탐색을 위해 파일을 구성하기 위해 클러스터링이 필요한 응용 프로그램은 모든 파일을 탐색할 수 있도록 보장해야 합니다.