물리적 또는 추상적인 개체 집합을 동일한 개체의 클래스로 결합하는 프로세스를 클러스터링이라고 합니다. 클러스터는 동일한 클러스터 내에서 서로 동일하고 다른 클러스터의 개체와 다른 데이터 개체 집합입니다. 데이터 개체의 클러스터는 여러 응용 프로그램에서 집합적으로 하나의 그룹으로 간주될 수 있습니다. 클러스터 분석은 필수적인 인간 활동입니다.
클러스터 분석은 이러한 레코드에 대해 수행된 다양한 측정에 따라 동일한 레코드의 그룹 또는 클러스터를 형성하는 데 사용됩니다. 핵심 설계는 분석 목적에 유용할 수 있는 방식으로 클러스터를 정의하는 것입니다. 이 데이터는 천문학, 고고학, 의학, 화학, 교육, 심리학, 언어학, 사회학 등 여러 분야에서 사용되었습니다.
다음과 같은 클러스터의 다양한 요소가 있습니다 -
데이터 배포 − 일부 클러스터링 기술은 데이터에 대한 특정 유형의 분포를 고려합니다. 또한 각 클러스터가 분포와 상관 관계가 있는 분포 조합에서 발생하는 데이터로 모델링할 수 있다고 생각할 수 있습니다.
모양 − 일부 클러스터는 직사각형 또는 구형과 같이 체계적으로 형성되지만 일반적으로 클러스터는 임의의 모양일 수 있습니다. DBSCAN 및 단일 링크를 포함한 기술은 임의의 모양의 클러스터를 관리할 수 있지만 프로토타입 기반 체계와 전체 링크 및 그룹 평균을 포함한 일부 계층 기술은 관리할 수 없습니다.
다양한 크기 − K-means를 포함한 여러 클러스터링 방법은 클러스터의 크기가 여러 개일 때 잘 작동하지 않습니다.
다양한 밀도 − 밀도가 광범위하게 변하는 클러스터는 DBSCAN 및 K-평균을 포함한 방법에 대한 문제를 생성할 수 있습니다.
잘못 분리된 클러스터 − 클러스터가 접하거나 겹칠 때 여러 클러스터링 접근 방식은 독립적으로 유지되어야 하는 클러스터를 결합합니다. 별개의 클러스터를 발견하는 기술조차도 한 클러스터 또는 다른 클러스터에 대한 점을 임의로 생성합니다.
클러스터 간의 관계 − 대부분의 클러스터링 기술에서는 상대적 위치를 포함하여 클러스터 간의 연관성에 대한 명시적인 고려가 없습니다. 자기 조직화 맵은 클러스터링 단계에서 클러스터 간의 관계를 직접 처리하는 클러스터링 방법입니다. 또한, 하나의 클러스터에 대한 포인트 할당은 인근 클러스터의 정의에 영향을 미칩니다.
하위 공간 클러스터 − 클러스터는 차원(속성)의 하위 집합에만 존재할 수 있으며, 한 차원 집합을 사용하여 결정된 클러스터는 다른 집합을 사용하여 결정된 클러스터와 다를 수 있습니다.
이 문제는 2차원만큼 적게 증가할 수 있지만 차원의 몇 가지 가능한 하위 집합이 전체 차원 수에서 기하급수적이기 때문에 차원이 향상되면 더 심각해집니다. 여러 차원이 상대적으로 낮지 않는 한 차원의 가능한 모든 하위 집합에서 클러스터를 단순히 보는 데 적용할 수 없기 때문입니다.