AOI는 Attribute-Oriented Induction의 약자입니다. 개념 설명에 대한 속성 지향 유도 접근 방식은 데이터 큐브 접근 방식이 도입되기 몇 년 전인 1989년에 처음 제안되었습니다. 데이터 큐브 접근 방식은 기본적으로 데이터 웨어하우스에서 미리 계산된 데이터의 구체화된 보기를 기반으로 합니다.
일반적으로 OLAP 또는 데이터 마이닝 쿼리가 처리를 위해 제출되기 전에 오프라인 집계를 구현합니다. 즉, 속성 지향 유도 접근 방식은 일반적으로 쿼리 지향, 일반화 기반 온라인 데이터 분석 방법입니다.
속성 지향 유도의 일반적인 개념은 먼저 데이터베이스 쿼리를 사용하여 작업 관련 데이터를 수집한 다음 해당 데이터 모음에서 각 속성의 고유한 값의 수를 조사하여 일반화하는 것입니다.
일반화는 속성 제거 또는 속성 일반화로 구현됩니다. 집계는 동일한 일반화된 튜플을 결합하고 특정 개수를 누적하여 구현됩니다. 이렇게 하면 일반화된 데이터 세트의 크기가 줄어듭니다. 결과적으로 일반화된 연관은 차트 또는 규칙을 포함하여 사용자에게 표시하기 위해 여러 형식으로 매핑될 수 있습니다.
다음과 같은 속성 지향 귀납 과정 -
-
첫째, 속성 지향 유도 이전에 데이터 포커싱이 구현되어야 합니다. 이 단계는 작업 관련 레코드(즉, 분석용 데이터)에 대한 설명에 해당합니다. 데이터 마이닝 쿼리에서 지원하는 데이터를 기반으로 데이터가 수집됩니다.
-
데이터 마이닝 쿼리는 일반적으로 데이터베이스의 일부에만 관련되기 때문에 관련 데이터 집합을 선택하면 마이닝이 더 효율적일 뿐만 아니라 전체 데이터베이스를 마이닝하는 것보다 더 중요한 결과가 변경됩니다.
-
관련 속성 집합(즉, DMQL에서 in relevance to 절로 표시된 대로 마이닝을 위한 속성)을 지정하는 것은 사용자에게 어려울 수 있습니다. 사용자는 중요한 몇 가지 속성만 선택할 수 있으며 표현에서 역할을 할 수 있는 다른 속성은 놓칠 수 있습니다.
-
예를 들어 차원 출생지가 도시, 지방 또는 주 및 국가 속성으로 정의된다고 가정합니다. 출생지 차원에 대한 일반화를 허용할 수 있으며 이 차원을 정의하는 다른 속성도 포함되어야 합니다.
-
다시 말해, 시스템이 자동으로 관련 속성으로 지방 또는 주 및 국가를 포함하도록 하면 유도 단계에서 도시를 이러한 더 큰 개념 수준으로 일반화할 수 있습니다.
-
다른 극단에서 사용자가 "*와 관련하여" 절로 가능한 모든 속성을 지정하여 너무 많은 속성을 도입했을 수 있다고 가정합니다. 이 경우 from 절에 의해 지정된 관계의 모든 속성이 분석에 포함됩니다.
-
일부 속성은 흥미로운 표현에 기여하지 않을 것입니다. 상관 기반 또는 엔트로피 기반 분석 방법을 사용하여 속성 관련성 분석을 수행하고 기술적 마이닝 프로세스에서 통계적으로 관련이 없거나 관련성이 약한 속성을 필터링할 수 있습니다.