클러스터링 알고리즘의 특징은 무엇입니까?

<시간/>

클러스터링 알고리즘에는 다음과 같은 다양한 특성이 있습니다. -

주문 의존성 − 여러 알고리즘의 경우 생성된 클러스터의 기능과 수는 데이터가 처리되는 순서에 따라 극적으로 달라질 수 있습니다. 이러한 알고리즘을 방지하는 것이 바람직해 보일 수 있지만 때로는 순서 종속성이 연관적으로 미미하거나 알고리즘에 몇 가지 바람직한 기능이 있을 수 있습니다.

비결정론 − K-평균을 포함한 클러스터링 알고리즘은 순서에 의존하지 않지만 무작위 선택이 필요한 초기화 단계를 기반으로 하기 때문에 각 실행에 대해 여러 결과를 만듭니다. 클러스터의 기능은 실행마다 다를 수 있으므로 여러 실행이 필수적일 수 있습니다.

확장성 − 데이터 세트에 수천 개의 객체가 포함되는 것은 드문 일이 아니며 이러한 데이터 세트에 사용되는 클러스터링 알고리즘은 선형 또는 선형에 가까운 시간 및 공간 복잡성을 가져야 합니다.

$\mathrm{O(m^2)}$의 복잡성을 갖는 알고리즘조차도 높은 정보 집합을 위한 것이 아닙니다. 더욱이 데이터 세트에 대한 클러스터링 기술은 모든 데이터가 주 메모리에 적합하거나 데이터 요소가 무작위로 생성될 수 있다는 것을 고려할 수 없습니다. 이러한 알고리즘은 높은 정보 집합에 대해 실행 불가능합니다.

매개변수 선택 − 일부 클러스터링 알고리즘에는 사용자가 그룹화해야 하는 하나 이상의 매개변수가 있습니다. 적절한 값을 선택하는 것은 복잡할 수 있으므로 일반적으로 "매개변수가 적을수록 우수합니다"라는 태도를 취합니다. 매개변수를 조금만 변경해도 클러스터링 결과가 달라지면 매개변수 값을 선택하는 것이 훨씬 더 복잡해집니다.

마지막으로, 매개변수 값을 결정하는 프로세스(사용자 입력을 포함할 수 있음)가 지원되지 않는 한 알고리즘 사용자는 관련 매개변수 값을 찾기 위해 시행착오를 사용하게 됩니다.

클러스터링 문제를 다른 도메인으로 변환 − 일부 클러스터링 기술에서 취하는 한 가지 방법은 클러스터링 문제를 다중 도메인의 문제에 매핑하는 것입니다. 그래프 기반 클러스터링은 클러스터 검색 서비스를 근접성 그래프를 연결된 요소로 분할하는 작업에 매핑합니다.

클러스터링을 최적화 문제로 취급 − 클러스터링은 최적화 문제로 간주됩니다. 사용자 정의 목적 함수로 계산된 결과 클러스터 세트의 관대함을 최대화하는 방법으로 포인트를 클러스터로 나눕니다.

예를 들어, K-평균 군집화 알고리즘은 가장 가까운 군집 중심에서 각 점의 거리 제곱의 합계를 최소화하는 군집 집합을 찾으려고 합니다. 가능한 클러스터 집합을 몇 가지 열거하고 목적 함수의 값이 더 우수한 클러스터를 선택하여 이러한 문제를 해결할 수 있지만 이 철저한 방법은 계산적으로 비합리적입니다.