클러스터 분석이란 무엇입니까?

<시간/>

클러스터 분석은 필수적인 인간 활동입니다. 클러스터 분석은 이러한 레코드에 대해 수행된 다양한 측정에 따라 동일한 레코드의 그룹 또는 클러스터를 형성하는 데 사용됩니다. 핵심 설계는 분석 목적에 유용할 수 있는 방식으로 클러스터를 정의하는 것입니다. 이 데이터는 천문학, 고고학, 의학, 화학, 교육, 심리학, 언어학, 사회학 등 여러 분야에서 사용되었습니다.

클러스터 분석은 몇 년 동안 널리 연구되어 온 통계의 한 분야입니다. 이 기술을 사용하는 이점은 개념 계층과 같은 배경 지식을 활용하지 않고도 데이터에서 흥미로운 구조 또는 클러스터를 직접 발견할 수 있다는 것입니다.

PAM 또는 CLARA와 같은 통계에 사용되는 클러스터링 알고리즘은 계산 복잡성 관점에서 비효율적인 것으로 보고됩니다. 효율성 문제에 따라 클러스터 분석을 위해 CLARANS(무작위 검색 기반 클러스터링 대형 애플리케이션)라는 새로운 알고리즘이 개발되었습니다.

마케팅에서 클러스터 분석의 유명한 용도 중 하나는 시장 세분화입니다. 사용자는 인구 통계 및 거래 내역 데이터를 기반으로 세분화되고 마케팅 기술은 각 세그먼트에 맞게 조정됩니다.

다른 용어는 경쟁적 유사성 측정에 따라 동일한 제품의 팀을 식별하는 시장 구조 분석을 위한 것입니다. 마케팅 및 정치 예측에서 미국 우편번호를 사용하는 이웃 클러스터링은 라이프스타일별로 이웃을 그룹화하는 데 강력하게 사용되었습니다.

금융에서 클러스터 분석은 균형 잡힌 포트폴리오를 만드는 데 사용할 수 있습니다. - 주식과 같은 여러 투자 기회에 대한 데이터가 제공됩니다. 산업 및 시가총액을 포함한 일간, 주간, 월간 등의 수익률, 변동성, 베타 등 재무 성과 변수에 따라 클러스터를 발견할 수 있습니다.

금융에서 클러스터 분석의 또 다른 작업은 시장 분석입니다. 주어진 산업에 대해 성장률, 수익성, 산업 규모, 제품 범위 및 여러 국제 시장에서의 존재와 같은 측정값을 기반으로 동일한 회사의 팀을 찾는 데 관심이 있습니다. 그런 다음 이러한 팀을 분석하여 시장 구조를 파악하고 예를 들어 누가 경쟁업체인지 결정할 수 있습니다.

클러스터 분석은 많은 양의 데이터에 사용할 수 있습니다. 예를 들어 인터넷 검색 엔진은 클러스터링 방법을 사용하여 사용자가 제출하는 쿼리를 클러스터링합니다. 그런 다음 검색 알고리즘을 개발하는 데 사용할 수 있습니다.

일반적으로 클러스터링에 사용되는 기본 데이터는 다양한 변수에 대한 측정 테이블이며, 여기서 각 열은 변수를 정의하고 행은 레코드를 정의합니다. 목표는 동일한 레코드가 동일한 그룹에 있도록 데이터 그룹을 형성하는 것입니다. 클러스터의 수는 미리 지정하거나 데이터에서 결정할 수 있습니다.