데이터 마이닝은 통계 및 수학적 기법을 포함한 패턴 인식 기술을 사용하여 저장소에 저장된 많은 양의 데이터를 전송하여 유용한 새로운 상관 관계, 패턴 및 추세를 찾는 프로세스입니다. 의심하지 않은 관계를 발견하고 데이터 소유자에게 논리적이고 도움이 되는 새로운 방법으로 기록을 요약하기 위한 사실 데이터 세트의 분석입니다.
다음과 같은 데이터 마이닝의 다양한 변형이 있습니다 -
정상, 비정상, 범위를 벗어남 또는 불가능한 사실에 플래그 지정 − 측정된 사실을 특수 플래그로 표시하면 완전히 도움이 될 수 있습니다. 일부 측정된 사실은 정확하지만 매우 이례적일 수 있습니다. 아마도 이러한 사실은 작은 표본이나 특정 상황에서 확립된 것일 수 있습니다.
데이터에 다른 사실이 있을 수 있지만 불가능하거나 설명할 수 없는 것으로 간주되어야 합니다. 이러한 각각의 상황에서 테이블에서 비정상적인 값을 삭제하는 것보다 데이터가 분석 안팎으로 제한될 수 있도록 상태 플래그로 데이터를 표시하는 것이 좋습니다.
이러한 경우를 처리하는 좋은 방법은 팩트 레코드에 대한 특수 데이터 상태 차원을 만드는 것입니다. 이 차원이 제약 조건으로 필요할 수 있으며 각 사실의 상태를 정의할 수 있습니다.
컨텍스트에서 임의의 값 또는 노이즈 값을 인식하고 마스킹합니다. − 앞의 변환의 특별한 경우는 레거시 시스템이 실제 사실이 아닌 난수를 제공한 경우를 인식하는 것입니다. 이는 레거시 시스템에서 전달하려는 값이 없지만 버퍼에 남아 있는 숫자가 데이터 웨어하우스로 전달되었을 때 발생할 수 있습니다. 이 경우가 확인되면 난수를 null 값으로 복원해야 합니다.
Null 값에 균일한 처리 적용 − 데이터 마이닝 도구는 "존재할 수 없음"과 "존재하지만 알 수 없음"의 구분에 민감합니다. 일부 데이터 마이닝 전문가는 나머지 팩트 테이블 레코드가 분석에 참여할 수 있도록 두 번째 경우에 가장 가능성이 높은 값 또는 중앙값을 지정합니다.
이 작업은 null 값을 추정값으로 덮어써 원본 데이터에서 수행하거나 다양한 분석 옵션으로 null 데이터를 처리하는 방법을 알고 있는 정교한 데이터 마이닝 도구로 처리할 수 있습니다.
상태가 변경된 사실 기록에 플래그 지정 − 유용한 데이터 변환은 해당 계정(또는 고객, 제품 또는 위치)의 상태가 방금 변경되었거나 곧 변경될 것임을 표시하기 위해 팩트 테이블 레코드에 특수 상태 표시기를 추가하는 것입니다. 상태 표시기는 스타 조인 디자인에서 상태 차원으로 구현됩니다.