Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

클러스터링 방법은 무엇입니까?

<시간/>

다음과 같은 다양한 클러스터링 방법이 있습니다. -

파티셔닝 방법 - n개의 객체 또는 데이터 튜플의 데이터베이스가 주어지면, 분할 방법은 정보의 k 분할을 조합하며, 여기서 각 분할은 클러스터를 정의하고 k

  • 각 그룹에는 최소한 하나의 개체가 포함되어야 합니다.

  • 각 개체는 정확히 하나의 그룹에 적용되어야 합니다.

구성할 파티션의 수인 k가 주어지면 파티션 방법은 초기 파티션을 만듭니다. 그런 다음 개체를 한 그룹에서 다른 그룹으로 변환하여 분할을 개선하려고 시도하는 반복 재배치 방법을 사용합니다.

좋은 파티셔닝의 일반적인 기준은 동일한 클러스터에 있는 객체가 서로 "가깝거나" 연관되어 있는 반면, 다른 클러스터에 있는 객체는 "멀리 떨어져 있거나" 매우 다르다는 것입니다. 파티션의 품질을 결정하는 다른 기준에는 여러 유형이 있습니다.

계층적 방법 - 계층적 방법은 주어진 데이터 객체 세트의 계층적 분해를 생성합니다. 계층 적 방법은 계층 적 분해가 생성되는 방식에 따라 응집 또는 분할로 분류 될 수 있습니다. 응집적 접근 방식은 "상향식" 접근 방식이라고도 합니다.

독립적인 그룹을 형성하는 각 개체로 시작할 수 있습니다. 모든 그룹이 하나로 결합되거나(계층 구조의 최상위 수준) 종료 조건이 유지될 때까지 서로 가까이 있는 개체 또는 그룹을 연속적으로 결합합니다. 분할 접근 방식은 "하향식" 접근 방식이라고도 합니다. 동일한 클러스터의 모든 개체로 시작할 수 있습니다. 각 연속 반복에서 클러스터는 결국 각 개체가 하나의 클러스터에 있거나 종료 조건이 유지될 때까지 더 작은 클러스터로 나뉩니다.

밀도 기반 방법 − 일부 파티셔닝 방법은 객체 간의 거리를 기반으로 객체를 클러스터링합니다. 이러한 방법은 구형 클러스터만 발견할 수 있으며 임의의 모양의 클러스터를 찾는 데 어려움이 있습니다. 밀도 개념을 기반으로 다른 클러스터링 방법이 만들어졌습니다.

DBSCAN은 밀도 임계값에 따라 클러스터를 증가시키는 일반적인 밀도 기반 방법입니다. OPTICS는 자동 및 대화형 클러스터 분석을 위해 증강 클러스터링 순서를 평가하는 밀도 기반 방법입니다.

그리드 기반 방법 − 그리드 기반 방법은 개체 공간을 그리드 아키텍처를 형성하는 유한한 수의 셀로 양자화합니다. 일부 클러스터링 작업은 그리드 아키텍처(즉, 양자화된 공간)에서 구현됩니다.

이 접근 방식의 이점은 일반적으로 데이터 개체 수와 무관하고 양자화된 공간의 각 차원에 있는 셀 수에만 의존하는 빠른 처리 시간입니다. STING은 그리드 기반 방법의 인스턴스입니다. CLIQUE 및 Wave-Cluster는 그리드 기반 및 밀도 기반의 두 가지 클러스터링 알고리즘입니다.

모델 기반 방법 − 모델 기반 방법은 각 클러스터에 대한 모델을 가정하고 주어진 모델에 가장 적합한 레코드를 찾습니다. 모델 기반 알고리즘은 데이터 포인트의 공간 분포를 반영하는 밀도 함수를 만들어 클러스터를 찾을 수 있습니다. 또한 표준 통계를 기반으로 클러스터 수를 자동으로 결정하고 "노이즈" 또는 이상값을 고려하여 강력한 클러스터링 방법을 생성하는 방법으로 이어집니다.