Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

클러스터링의 응용 프로그램은 무엇입니까?

<시간/>

다음과 같은 클러스터링의 다양한 응용 프로그램이 있습니다 -

  • 확장성 − 일부 클러스터링 알고리즘은 200개 미만의 데이터 개체를 포함하는 작은 데이터 세트에서 잘 작동합니다. 그러나 거대한 데이터베이스에는 수백만 개의 개체가 포함될 수 있습니다. 주어진 거대한 데이터 세트의 샘플에 대한 클러스터링은 편향된 결과를 초래할 수 있습니다. 확장성이 뛰어난 클러스터링 알고리즘이 필요합니다.

  • 다양한 유형의 속성을 처리하는 능력 − 일부 알고리즘은 간격 기반(숫자) 레코드를 클러스터링하도록 설계되었습니다. 그러나 응용 프로그램은 이진, 범주(명목) 및 순서 데이터 또는 이러한 데이터 유형의 조합을 포함하여 여러 유형의 데이터를 클러스터링해야 할 수 있습니다.

  • 임의의 모양을 가진 클러스터 검색 − 일부 클러스터링 알고리즘은 유클리드 또는 맨해튼 거리 측정에 따라 클러스터를 결정합니다. 이러한 거리 측정을 기반으로 하는 알고리즘은 크기와 밀도가 동일한 구형 클러스터를 발견하는 경향이 있습니다. 그러나 클러스터는 어떤 모양이든 될 수 있습니다. 임의의 모양의 클러스터를 식별할 수 있는 알고리즘을 개발하는 것이 필수적입니다.

  • 입력 매개변수를 결정하기 위한 도메인 지식에 대한 최소 요구사항 − 일부 클러스터링 알고리즘은 사용자가 클러스터 분석에서 특정 매개변수(원하는 클러스터 수 포함)를 입력해야 했습니다. 클러스터링 결과는 입력 매개변수에 매우 민감합니다. 특히 고차원 개체를 포함하는 데이터 세트의 경우 매개변수를 결정하기 어렵습니다. 이는 사용자에게 부담을 줄 뿐만 아니라 클러스터링 품질을 제어하기 어렵게 만듭니다.

  • 노이즈 데이터 처리 능력 − 일부 실제 데이터베이스에는 이상값이나 누락, 알 수 없거나 잘못된 기록이 있습니다. 일부 클러스터링 알고리즘은 이러한 데이터에 민감하여 클러스터 품질이 떨어질 수 있습니다.

  • 입력 레코드의 순서에 둔감함 − 일부 클러스터링 알고리즘은 입력 데이터의 순서(예:유사한 데이터 세트)에 응답하며 이러한 알고리즘에 대한 다중 순서가 제시될 때 극적으로 다른 클러스터를 생성할 수 있습니다. 입력 순서에 반응하지 않는 알고리즘을 개발하는 것이 필수적입니다.

  • 고차원 − 데이터베이스 또는 데이터 웨어하우스는 여러 차원 또는 속성을 포함할 수 있습니다. 일부 클러스터링 알고리즘은 2~3차원만 포함하는 저차원 데이터를 관리하는 데 가장 적합합니다. 사람의 눈은 최대 3차원의 클러스터링 품질을 결정하는 데 가장 적합합니다. 특히 고차원 공간의 데이터가 매우 부적절하고 매우 잘못 표현될 수 있다는 점을 고려하면 고차원 공간에서 데이터 개체를 클러스터링하는 것이 논쟁의 여지가 있습니다.

  • 제약조건 기반 클러스터링 − 실제 응용 프로그램은 여러 유형의 제약 조건에서 클러스터링을 수행해야 할 수 있습니다. 당신의 임무는 도시에서 주어진 수의 새로운 자동 현금 인출기(ATM)를 위한 지역을 선택하는 것이라고 생각하십시오.