Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

관계형 데이터베이스 및 데이터 웨어하우스의 마이닝 다차원 연결 규칙은 무엇입니까?

<시간/>

연관 규칙 학습은 한 데이터 요소가 다른 데이터 요소에 종속되는지 테스트하고 그에 따라 매핑하여 보다 상업적일 수 있도록 하는 일종의 비지도 학습 기술입니다. 데이터 세트의 변수 사이에 몇 가지 흥미로운 관계 또는 연관성을 발견하려고 시도합니다. 데이터베이스에서 변수 간의 흥미로운 관계를 찾는 것은 여러 규칙에 따라 다릅니다.

연관 규칙 학습은 머신 러닝의 필수 개념이며 장바구니 분석, 웹 사용 마이닝, 연속 생산 등에 사용됩니다. 따라서 장바구니 분석은 여러 대형 소매업체에서 항목 간의 연관성을 찾는 데 사용하는 접근 방식입니다.

장바구니 분석에서는 고객이 장바구니에 담는 다양한 품목 간의 연관성을 찾아 고객의 구매 습관을 분석합니다.

이러한 연관성을 발견함으로써 소매업체는 고객이 일반적으로 구매하는 품목을 분석하여 마케팅 접근 방식을 만듭니다. 이 협회는 소매업체가 선반 영역에 대한 선택적 마케팅 및 계획을 수행하도록 지원하여 매출 증대로 이어질 수 있습니다.

다단계 연결의 인기 있는 응용 분야는 개념 계층의 개념으로 표시되는 자주 함께 구매되는 품목 세트를 검색하여 고객의 구매 습관을 연구하는 장바구니 분석입니다.

둘 이상의 차원 또는 술어가 있는 연관 규칙을 다차원 연관 규칙이라고 할 수 있습니다. 예를 들어,

나이(X, "20...29") ^직업(X,"학생") =>구매(X,"노트북")

이 규칙에는 세 가지 술어(연령, 직업 및 구매)가 포함되어 있으며 각각은 규칙에서 한 번만 발생하며 이러한 규칙을 차원간 연관 규칙이라고 합니다. 반복되는 술어가 있거나 일부 술어가 여러 번 포함된 규칙을 하이브리드 차원 연관 규칙이라고 합니다.

예를 들어,

나이(X, "20...29") ^구매(X,"노트북") =>구매(X,"프린터")

데이터베이스 속성은 범주형 또는 정량적이어야 합니다.

범주 속성은 가능한 값의 수가 유한하며 명목 속성이라고도 하는 값 사이에 순서가 없습니다.

양적 속성은 숫자이며 값 사이에 암시적 순서가 있습니다. 정량적 속성의 처리에 관한 세 가지 기본 접근 방식은 다음과 같습니다. -

  • 첫 번째 접근 방식에서 정량적 속성은 마이닝 전에 발생하는 사전 정의된 개념 계층을 사용하여 이산화됩니다. 범위 값이 있는 이산화된 숫자 속성은 범주 속성으로 간주될 수 있습니다.

  • 두 번째 접근 방식에서 정량적 속성은 빈으로 분류되며 데이터 분포를 기반으로 합니다. 이 쓰레기통은 채굴 과정에서 추가로 결합될 수 있습니다. 따라서 이산화 과정은 역동적이고 확립되어 있습니다.

  • 세 번째 접근 방식에서 정량적 속성은 이러한 간격 데이터의 의미론적 의미를 포착하기 위해 이산화됩니다. 이 강력한 이산화 단계는 데이터 포인트 간의 거리를 처리했습니다.