Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

큐어란?

<시간/>

CURE는 대표자를 사용하는 클러스터링을 나타냅니다. 비구형 아키텍처 및 불균일한 크기를 가진 높은 데이터 세트, 이상값 및 클러스터를 관리할 수 있는 접근 방식을 만들기 위해 여러 기술을 사용하는 클러스터링 알고리즘입니다. CURE는 클러스터에서 여러 대표 포인트를 사용하여 클러스터를 정의합니다.

이 점은 클러스터의 기하학과 아키텍처를 취합니다. 첫 번째 대표점은 군집의 중앙에서 가장 멀리 떨어진 점으로 선택되고 나머지 점은 이전에 선택된 모든 점에서 가장 멀어지도록 선택됩니다. 이 방법에서는 대표점이 연관적으로 잘 분포되어 있습니다. 선택한 다중 포인트는 매개변수이지만 10 이상의 값이 잘 작동하는 것으로 나타났습니다.

대표점을 선정하였기 때문에, 중심으로 갈수록 1만큼 감소합니다.𝛼. 이 지원은 일반적으로 중심에서 더 멀리 떨어져 있으므로 더 축소되는 이상값의 효과를 완화합니다. 예를 들어 중심에서 10단위 떨어진 대표점은 3단위(𝛼 =0.7의 경우)만큼 변할 수 있는 반면, 1단위 떨어진 대표점은 0.3단위만큼 변할 수 있습니다.

CURE는 계층적 클러스터링 프로세스의 특정 특성을 활용하여 클러스터링 단계의 두 다중 지점에서 이상값을 제거합니다. 첫째, 클러스터가 천천히 증가하는 경우 이는 대부분의 이상값을 포함한다는 것을 의미할 수 있습니다. 정의에 따라 이상값은 다른 것과 거리가 멀고 다른 점과 자주 결합되지 않기 때문입니다.

CURE에서 이 첫 번째 이상값 제거 절차는 일반적으로 클러스터 수가 초기 포인트 수의 1/3일 때 나타납니다. 이상치 제거의 두 번째 절차는 다중 클러스터가 원하는 다중 클러스터인 K의 순서일 때 나타납니다. 이 시점에서 작은 클러스터가 제거됩니다.

CURE의 최악의 경우 복잡도는 $\mathrm{O(m^2logm)}$이므로 높은 데이터 세트에 정확하게 사용할 수 없습니다. CURE는 두 가지 방법을 사용하여 클러스터링 절차의 속도를 높입니다. 첫 번째 방법은 무작위 샘플을 취하고 샘플링된 데이터 포인트에 계층적 클러스터링을 구현합니다. 그 다음에는 가장 가까운 대표 포인트가 있는 클러스터를 선택하여 클러스터 중 하나로 데이터 세트의 각 나머지 포인트를 생성하는 마지막 패스가 이어집니다.

어떤 경우에는 클러스터링에 필요한 샘플이 많고 두 번째 더 많은 기술이 필요합니다. 이 상황에서 CURE는 샘플 데이터를 분할하고 모든 파티션의 포인트를 클러스터링합니다. 이 사전 클러스터링 절차는 중간 클러스터의 클러스터링과 데이터 세트의 각 포인트를 클러스터 중 하나로 생성하는 마지막 단계로 이어집니다.