Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

다중 관계형 클러스터링이란 무엇입니까?

<시간/>

다중 관계형 클러스터링은 다중 관계의 정보를 활용하여 데이터 개체를 유사성을 기반으로 클러스터 세트로 분할하는 프로세스입니다. 이 섹션에서는 물리적 조인을 피하기 위해 클러스터링 및 튜플 ID 전파에서 사용자 지침을 활용하는 방법을 탐구하는 다중 관계형 클러스터링 알고리즘인 CrossClus(사용자 지침이 있는 교차 관계형 클러스터링)를 소개할 수 있습니다.

다중 관계형 클러스터링의 한 가지 주요 과제는 서로 다른 관계에 너무 많은 속성이 있으며 일반적으로 특정 클러스터링 작업과 관련이 있는 속성의 작은 부분만 있다는 것입니다.

컴퓨터 과학 부서 데이터베이스를 고려하십시오. 학생을 클러스터링할 수 있으며 속성은 학생이 수강한 과정, 학생 간행물, 지도교수 및 학생 연구 그룹 등과 같은 정보의 다양한 측면을 다룹니다.

사용자는 일반적으로 정보의 특정 측면을 사용하여 학생을 클러스터링하는 데 관심이 있습니다(예:연구 영역별로 학생을 클러스터링). 사용자는 종종 애플리케이션의 요구 사항과 데이터 의미를 잘 이해하고 있습니다. 따라서 사용자의 관리는 간단한 쿼리 구조로, 고차원 다관계 클러스터링의 효율성과 품질을 향상시키는 데 사용할 수 있습니다.

CrossClus는 대상 관계와 사용자의 클러스터링 목표를 함께 지정하는 하나 이상의 관련 속성을 포함하는 사용자 쿼리를 수락합니다. CrossClus는 다중 관계 속성을 정의합니다. 다중 관계 속성 A'는 결합 경로 Rt에 의해 정의됩니다. ⋈ R1 … . ⋈ Rk 속성 Rk . Rk의 A , 그리고 아마도 집계 연산자(예:평균, 개수, 최대).

A'는 공식적으로 [A'로 표시됩니다. 조인 경로, A' .attr, A' .aggr], 여기서 A'. agr은 선택 사항입니다. 다중 관계 속성 A'는 Rk . A는 범주형 또는 숫자형입니다. A'가 범주형 기능이면 대상 튜플 t의 경우 t입니다. A'는 Rk의 튜플 간의 값 분포를 나타냅니다. t와 결합할 수 있습니다.

다중 관계 클러스터링 프로세스에서 CrossClus는 여러 관계에서 적절한 속성을 검색해야 합니다. CrossClus는 검색 프로세스에서 두 가지 주요 과제를 해결해야 합니다. 먼저 대상 관계 Rt , 일반적으로 다양한 조인 경로를 통해 각 비대상 관계인 R과 조인할 수 있으며 R의 각 속성은 다중 관계형 속성으로 사용될 수 있습니다.

이 거대한 검색 공간에서 어떤 종류의 철저한 검색을 수행하는 것은 불가능합니다. 둘째, 수많은 속성 중 일부는 사용자 쿼리와 관련이 있고(예:학생의 지도교수는 자신의 연구 분야와 관련이 있음) 다른 많은 속성은 관련이 없습니다. (예:학생의 급우의 개인 정보).