데이터 일반화는 상대적으로 낮은 수준의 값(예:속성 연령에 대한 숫자 값)을 높은 수준의 개념(예:젊은, 중년 및 노인)으로 대체하여 데이터를 요약합니다. 데이터베이스에 저장된 많은 양의 데이터를 감안할 때, 추상화의 일반화된(낮은 것이 아니라) 방법에서 간결하고 간결한 용어로 개념을 정의할 수 있는 것이 좋습니다.
여러 추상화 수준에서 데이터 집합을 일반화할 수 있으므로 사용자가 데이터의 일반적인 동작을 쉽게 검사할 수 있습니다. 예를 들어 AllElectronics 데이터베이스가 주어지면 단일 고객 거래를 조사하는 것보다 영업 관리자는 지리적 지역, 그룹당 구매 빈도 및 사용자 소득에 따라 사용자 그룹별로 요약된 데이터를 포함하여 더 높은 수준으로 일반화된 데이터를 보는 것을 선호할 수 있습니다. 이것은 데이터 일반화의 한 형태인 개념 설명의 개념으로 이어집니다.
개념은 일반적으로 빈번한 구매자, 대학원생 등을 포함하는 데이터의 집합으로 정의됩니다. 데이터 마이닝 작업으로서 개념 설명은 데이터의 단순한 열거가 아닙니다. 대신, 개념 설명은 데이터의 특성화 및 비교에 대한 설명을 생성합니다. 개념이 객체의 클래스를 정의할 때 클래스 설명이라고도 합니다.
특성화는 주어진 데이터 세트의 간결하고 간결한 요약을 지원하는 반면 개념 또는 클래스 비교(차별이라고도 함)는 둘 이상의 데이터 세트를 비교하는 설명을 지원합니다. 다음과 같은 경우가 있습니다 -
복잡한 데이터 유형 및 집계 − 데이터 웨어하우스 및 OLAP 도구는 차원(또는 속성) 및 측정값(집계 서비스)을 포함하여 데이터 큐브 형태의 정보를 보는 다차원 데이터 모델에 의존합니다.
그러나 현재 여러 OLAP 시스템에서는 차원을 숫자가 아닌 레코드로 제한하고 측정값을 숫자 정보로 제한합니다. 데이터베이스는 개념 설명에 포함되어야 하는 숫자, 숫자가 아닌, 공간, 텍스트 또는 이미지와 같은 여러 데이터 유형의 속성을 포함할 수 있습니다.
사용자 제어 대 자동화 − 데이터 웨어하우스의 온라인 분석 처리는 사용자가 제어하는 단계입니다. 드릴다운, 롤업, 슬라이싱 및 다이싱을 포함한 OLAP 서비스의 차원 및 소프트웨어 선택은 일반적으로 사용자가 지시하고 관리합니다.
여러 OLAP 시스템의 제어는 사용자 친화적이지만 사용자는 각 차원의 중요성을 가장 잘 이해해야 합니다. 또한, 정보에 대한 만족스러운 설명을 찾을 수 있으며 사용자는 긴 일련의 OLAP 작업을 정의해야 할 수 있습니다.
사용자가 분석에 포함해야 하는 차원(또는 속성)과 흥미로운 레코드 요약을 생성하기 위해 주어진 데이터 세트를 일반화해야 하는 정도를 결정하도록 지원하는 보다 자동화된 단계를 갖는 것이 바람직합니다.