데이터 마이닝의 클러스터 유형은 무엇입니까?

<시간/>

클러스터 분석은 이러한 레코드에 대해 수행된 다양한 측정에 따라 동일한 레코드의 그룹 또는 클러스터를 형성하는 데 사용됩니다. 분석 목적에 도움이 되는 방식으로 클러스터를 정의할 수 있습니다. 이 데이터는 천문학, 고고학, 의학, 화학, 교육, 심리학, 언어학, 사회학 등 여러 분야에서 사용되었습니다.

다음과 같은 다양한 유형의 클러스터가 있습니다 -

잘 구분됨 - 군집은 모든 요소가 군집에 없는 일부 개체보다 군집의 다른 모든 요소에 더 가까운 개체 그룹입니다. 때때로 임계값은 클러스터의 모든 개체가 서로 적절하게 가깝거나 유사해야 한다고 정의할 수 있습니다. 이 클러스터 설명은 데이터에 서로 완전히 떨어져 있는 자연 클러스터가 포함된 경우에만 필요합니다.

프로토타입 기반 − 클러스터는 각 개체가 일부 여러 클러스터의 프로토타입보다 클러스터를 나타내는 프로토타입에 더 가까운 개체 그룹입니다. 연속 속성이 있는 데이터의 경우 클러스터의 원형은 클러스터에 있는 다양한 포인트의 평균(평균)과 같은 중심입니다. 레코드에 범주 속성이 있는 경우를 포함하여 중심이 중요하지 않은 경우 프로토타입은 클러스터의 일반 포인트와 같은 medoid입니다.

그래프 기반 - 노드가 객체이고 링크가 객체 간의 연결을 정의하는 그래프로 데이터가 일반적인 경우 클러스터는 연결된 요소로 표시될 수 있습니다. 즉, 서로 연결되어 있지만 그룹에서 멀리 있는 개체와 연결되지 않은 개체 집합입니다.

그래프 기반 클러스터의 중요한 인스턴스는 인접 기반 클러스터로, 두 객체가 서로 지정된 거리 내에 있는 경우에만 연결됩니다. 이는 인접 기반 클러스터의 각 개체가 여러 클러스터의 특정 지점보다 클러스터의 여러 개체에 더 가깝다는 것을 나타냅니다.

밀도 기반 방법 − 일부 파티셔닝 기술은 객체 간의 거리에 따라 객체를 클러스터링합니다. 이러한 접근 방식은 구형 클러스터만 발견할 수 있으며 임의의 모양 클러스터를 발견하는 데 어려움이 있습니다. 밀도의 개념에 따라 여러 클러스터링 방법이 생성되었습니다.

DBSCAN은 밀도 임계값에 따라 클러스터를 증가시키는 빈번한 밀도 기반 방법입니다. OPTICS는 자동 및 상호 클러스터 분석을 위해 확장된 클러스터링 순서를 계산하는 밀도 기반 방법입니다.

그리드 기반 방법 − 그리드 기반 방법은 개체 영역을 그리드 구조를 형성하는 유한한 다중 셀로 양자화합니다. 그리드 구조(즉, 양자화된 공간)에 여러 클러스터링 서비스가 구현됩니다.

이 접근 방식의 장점은 여러 데이터 개체와 자주 독립적이고 양자화된 공간의 각 차원에 있는 여러 셀에만 기반을 둔 빠른 처리 시간입니다.