Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

연관 규칙 클러스터링 시스템과 관련된 단계는 무엇입니까?

<시간/>

다음과 같은 연관 규칙 클러스터링 시스템에는 다음 단계가 포함됩니다. -

비닝 − 양적 속성은 해당 도메인을 나타내는 광범위한 값을 가질 수 있습니다. 연령과 소득을 축으로 표시할 수 있다면 2차원 그리드가 얼마나 클 것인지 생각할 수 있습니다. 여기서 모든 가능한 연령 값은 한 축에 특정 위치에 생성되고 마찬가지로 모든 가능한 소득 값은 특정 값이 생성됩니다. 다른 축에 위치.

그리드를 관리 가능한 크기로 유지할 수 있으며 대신 정량적 속성 영역을 간격으로 분할할 수 있습니다. 이러한 간격은 마이닝 단계에서 결합될 수 있다는 점에서 강력합니다. 분할 단계는 구간이 "빈"으로 처리되는 구간화로 정의됩니다.

다음과 같은 세 가지 일반적인 비닝 전략 영역이 있습니다. -

동일 너비 비닝 − 각 bin의 간격 크기가 동일한 동일 너비 bining에서.

동일 빈도 비닝 − 각 빈에 할당된 튜플 수가 거의 같은 동일한 주파수 비닝에서.

클러스터링 기반 비닝 − 클러스터링 기반 비닝에서 정량적 속성에 대해 클러스터링을 수행하여 인접 포인트(다양한 거리 측정에 따라 판단)를 동일한 bin으로 그룹화합니다.

ARCS는 모든 양적 속성에 대한 빈 크기가 사용자에 의해 입력되는 등폭 비닝이 필요합니다. 양적 속성을 모두 포함하는 가능한 모든 빈 조합에 대한 2차원 배열이 생성됩니다.

모든 배열 셀은 규칙 오른쪽의 범주 속성에서 달성 가능한 각 클래스에 대한 해당 개수 분포에 영향을 줍니다. 이 데이터 구조를 만들면 필요한 작업 관련 데이터를 한 번만 스캔할 수 있습니다. 동일한 2차원 배열을 사용하여 categorical 속성의 일부 값에 대한 규칙을 생성할 수 있습니다. 동일한 두 가지 양적 속성에 따라 다릅니다.

빈번한 술어 세트 찾기 − 카테고리별 개수 분포를 포함하는 2차원 배열이 설정되어 있기 때문에 최소 신뢰도를 만족하는 빈번한 술어 세트(최소 지원을 만족하는 것)를 검색할 수 있습니다.

알고리즘은 격자를 확인하여 규칙의 직사각형 클러스터를 찾습니다. 이 방법에서는 규칙 클러스터 내에 나타나는 정량적 속성의 빈을 결합할 수 있으므로 정량적 속성의 동적 이산화가 나타납니다.

그리드 기반 방법은 원래 연관 규칙이 직사각형 영역으로 클러스터링될 수 있다고 설명했습니다. 클러스터링을 구현하기 전에 평활화 방법을 사용하여 레코드에서 노이즈와 이상값을 제거할 수 있습니다. 직사각형 클러스터는 정보를 지나치게 단순화할 수 있습니다.

비격자 기반 접근 방식은 규칙의 양쪽에 여러 수량 및 범주 속성이 발생할 수 있는 보다 일반적인 양적 연관 규칙을 발견하는 데 권장되었습니다.

이 접근 방식에서 정량적 속성은 동일한 빈도 비닝을 사용하여 동적으로 격리되고 파티션은 분할로 인해 손실된 데이터를 수량화하는 부분 완전성 측정에 따라 결합됩니다.