데이터 마이닝에서 클러스터링의 요구 사항은 무엇입니까?

<시간/>

다음과 같은 데이터 마이닝 클러스터링의 요구 사항이 있습니다 -

확장성 − 일부 클러스터링 알고리즘은 수백 개 미만의 데이터 개체를 포함하는 작은 데이터 세트에서 잘 작동합니다. 거대한 데이터베이스에는 수백만 개의 개체가 포함될 수 있습니다. 주어진 거대한 데이터 세트의 샘플에 대한 클러스터링은 부분적인 결과를 초래할 수 있습니다. 확장성이 뛰어난 클러스터링 알고리즘이 필요합니다.

다양한 유형의 속성을 처리하는 능력 − 일부 알고리즘은 간격 기반(숫자) 정보를 클러스터링하도록 설계되었습니다. 그러나 응용 프로그램은 이진, 범주(명목) 및 순서 데이터 또는 이러한 데이터 유형의 조합을 포함하여 여러 유형의 데이터를 클러스터링해야 할 수 있습니다.

임의의 모양을 가진 클러스터 검색 − 일부 클러스터링 알고리즘은 유클리드 또는 맨해튼 거리 측정에 따라 클러스터를 결정합니다. 이러한 거리 측정에 의존하는 알고리즘은 동일한 크기와 밀도를 가진 구형 클러스터를 발견하는 경향이 있습니다. 그러나 클러스터는 어떤 모양이든 될 수 있습니다. 임의의 모양의 클러스터를 인식할 수 있는 알고리즘을 개발하는 것이 필수적입니다.

입력 매개변수를 결정하기 위한 도메인 지식에 대한 최소 요구사항 − 일부 클러스터링 알고리즘은 사용자가 클러스터 분석에서 특정 매개변수(원하는 클러스터 수 포함)를 입력해야 했습니다. 클러스터링 결과는 입력 매개변수에 절대적으로 민감할 수 있습니다. 특히 고차원 개체를 포함하는 데이터 세트의 경우 매개변수를 결정하기가 어렵습니다. 이는 작업 사용자뿐만 아니라 제어하기 어려운 클러스터링 품질을 생성합니다.

노이즈 데이터 처리 능력 − 대부분의 실제 데이터베이스에는 이상값이나 누락, 알 수 없거나 잘못된 정보가 포함되어 있습니다. 일부 클러스터링 알고리즘은 이러한 데이터에 민감하며 품질이 떨어지는 클러스터로 이어질 수 있습니다.

증분 클러스터링 및 입력 레코드 순서에 둔감함 − 일부 클러스터링 알고리즘은 현재 클러스터링 구조에 새로 삽입된 정보(즉, 데이터베이스 업데이트)를 포함할 수 없으며 대신 처음부터 새로운 클러스터링을 결정해야 합니다.

일부 클러스터링 알고리즘은 입력 레코드의 순서에 민감합니다. 알고리즘을 포함한 데이터 개체 집합이 주어지면 입력 개체의 표시 순서에 따라 크게 다른 클러스터링을 반환할 수 있습니다. 입력 순서에 둔감한 증분 클러스터링 알고리즘과 알고리즘을 개발하는 것이 필수적입니다.

고차원 − 데이터베이스 또는 데이터 웨어하우스는 여러 차원 또는 속성을 포함할 수 있습니다. 일부 클러스터링 알고리즘은 2~3차원만 포함하는 저차원 데이터를 잘 관리합니다. 사람의 눈은 최대 3차원의 클러스터링 품질을 결정하는 데 가장 적합합니다. 복잡한 고차원 공간에서 데이터 개체의 클러스터를 찾는 데 사용되며, 특히 그러한 데이터가 부적절하고 심하게 왜곡될 수 있다는 점을 처리합니다.