분류와 클러스터링의 차이점은 무엇입니까?

<시간/>

분류

분류는 보다 효율적인 예측 및 분석을 지원하기 위해 데이터 집합에 수준을 승인하는 데이터 마이닝 접근 방식입니다. 분류는 높은 데이터 세트를 효과적으로 분석하기 위해 미리 결정된 여러 방법 중 하나입니다.

"분류"는 일반적으로 이진 분류로 알려진 정확히 두 개의 대상 클래스가 있을 때 사용됩니다. 특히 패턴 인식 문제에서 두 개 이상의 클래스를 예측할 수 있는 경우 이를 다항 분류로 정의합니다. 그러나 다항 분류는 최종 응답 데이터에도 사용되며, 여러 범주 중 어느 범주에 가장 확률이 높은 인스턴스가 있는지 예측해야 합니다.

분류는 데이터 마이닝에서 가장 중요한 요소입니다. 속성에 따라 미리 정의된 클래스 레이블을 인스턴스에 할당하는 프로세스를 정의합니다. 분류와 군집화 사이에 유사점이 있고, 유사하지만 다르다. 분류와 클러스터링의 주요 차이점은 분류에는 미리 정의된 그룹의 구성원 자격에 따라 항목의 평준화가 포함된다는 것입니다.

클러스터링

물리적 또는 추상적인 개체 집합을 동일한 개체의 클래스로 결합하는 프로세스를 클러스터링이라고 합니다. 클러스터는 동일한 클러스터 내에서 서로 동일하고 다른 클러스터의 개체와 다른 데이터 개체 집합입니다. 데이터 개체의 클러스터는 여러 응용 프로그램에서 집합적으로 하나의 그룹으로 간주될 수 있습니다. 클러스터 분석은 필수적인 인간 활동입니다.

클러스터 분석은 이러한 레코드에 대해 수행된 다양한 측정에 따라 동일한 레코드의 그룹 또는 클러스터를 형성하는 데 사용됩니다. 핵심 설계는 분석 목적에 유용할 수 있는 방식으로 클러스터를 정의하는 것입니다. 이 데이터는 천문학, 고고학, 의학, 화학, 교육, 심리학, 언어학, 사회학 등 여러 분야에서 사용되었습니다.

마케팅에서 클러스터 분석의 유명한 용도 중 하나는 시장 세분화입니다. 사용자는 인구 통계 및 거래 내역 데이터를 기반으로 세분화되고 마케팅 기술은 각 세그먼트에 맞게 조정됩니다.

클러스터 분석은 많은 양의 데이터에 사용할 수 있습니다. 예를 들어, 인터넷 검색 엔진은 클러스터링 방법을 사용하여 사용자가 제출하는 쿼리를 클러스터링합니다. 그런 다음 검색 알고리즘을 개발하는 데 사용할 수 있습니다.

일반적으로 클러스터링에 사용되는 기본 데이터는 다양한 변수에 대한 측정 테이블이며, 여기서 각 열은 변수를 정의하고 행은 레코드를 정의합니다. 목표는 동일한 레코드가 동일한 그룹에 있도록 데이터 그룹을 형성하는 것입니다. 클러스터의 수는 미리 지정하거나 데이터에서 결정할 수 있습니다.