Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

고차원 데이터에서 부분공간 클러스터를 찾는 방법은 무엇입니까?

<시간/>

부분 공간 검색 기술, 상관 기반 클러스터링 기술 및 바이클러스터링 기술을 포함하여 여러 가지 방법이 세 가지 주요 그룹으로 분류되었습니다.

부분공간 검색 기술 - 부분공간 검색 방법은 클러스터에 대해 여러 부분공간을 검색합니다. 따라서 클러스터는 부분 공간에서 서로 동일한 개체의 하위 집합입니다. 유사성은 거리 또는 밀도를 포함한 기존 측정값에 의해 획득됩니다.

예를 들어 CLIQUE 알고리즘은 부분 공간 클러스터링 기술입니다. 차원 증가 시리즈에서 해당 부분 공간의 부분 공간과 클러스터를 지정할 수 있으며 반단조성을 사용하여 클러스터가 계속될 수 없는 부분 공간을 정리합니다. 부분 공간 검색 기술이 직면한 더 큰 문제는 부분 공간 시퀀스를 효과적으로 검색하는 방법입니다.

다음과 같은 두 가지 유형의 방법이 있습니다 -

  • 상향식 방법은 저차원 부분 공간에서 시작하여 더 큰 차원에 클러스터가 있을 수 있는 경우에만 고차원 부분 공간을 검색합니다. 검색에 필요한 여러 고차원 부분 공간을 줄이기 위해 몇 가지 가지치기 접근 방식이 분석됩니다. CLIQUE는 상향식 접근 방식의 한 예입니다.

  • 하향식 방법은 전체 공간에서 시작하여 점점 더 작은 부분 공간을 재귀적으로 검색합니다. 하향식 방법은 클러스터의 부분 공간이 지역 이웃에 의해 결정될 수 있어야 하는 지역 가정의 영향이 있는 경우에만 효율적입니다.

상관 기반 클러스터링 방법 − 부분공간 탐색 방법은 거리나 밀도와 같은 기존의 메트릭을 사용하여 계산된 유사도를 가진 클러스터를 검색하는 반면 상관 기반 방법은 고급 상관 모델로 표현되는 클러스터를 찾을 수 있습니다.

PCA 기반 접근 방식은 먼저 PCA(Principal Components Analysis)를 사용하여 상관 관계가 없는 새로운 차원 집합을 변경하므로 새 공간 또는 해당 하위 공간에서 클러스터를 마이닝합니다. 또한 PCA, Hough 변환 또는 프랙탈 차원을 포함한 다른 공간 변환을 사용할 수 있습니다.

이중 클러스터링 방법 − 일부 애플리케이션에서는 객체와 속성을 동시에 클러스터링해야 합니다. 결과 클러스터를 바이클러스터라고 하며 다음과 같은 네 가지 요구 사항을 충족합니다. -

  • 클러스터에서 수행하는 개체의 작은 그룹일 뿐입니다.

  • 클러스터에는 소수의 속성만 포함됩니다.

  • 개체는 여러 클러스터에 참여할 수 있거나 클러스터에 참여하지 않습니다.

  • 속성은 여러 클러스터에 포함될 수도 있고 어떤 클러스터에도 포함되지 않을 수 있습니다.

이중 클러스터링 기술은 유전자 발현 데이터를 탐색하기 위한 요구 사항을 해결하기 위해 먼저 권장되었습니다. 유전자는 살아있는 구조에서 자손에게 형질을 전달하는 시스템입니다. 일반적으로 유전자는 DNA의 한 부분으로 구성됩니다.

유전자는 일부 단백질과 기능적 RNA 사슬을 정의하기 때문에 모든 생명체에 중요합니다. 데이터에 영향을 주어 살아있는 유기체의 세포를 만들고 지원하며 유전적 특성을 자손에게 전달합니다.

유전자형은 세포, 유기체 또는 개인의 유전적 구성입니다. 표현형은 유기체의 명백한 특징입니다. 유전자 발현은 유전자형이 표현형을 유발한다는 점에서 유전학에서 중요한 수준입니다.