Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 일반화 및 분석 일반화의 예는 무엇입니까?

<시간/>

데이터 일반화는 상대적으로 낮은 수준의 값(속성 연령에 대한 숫자 값 포함)을 높은 수준의 개념(청소년, 중년 및 노인 포함)으로 대체하여 데이터를 요약합니다. 따라서 상대적으로 낮은 개념 수준에서 높은 개념 수준으로 데이터베이스에 있는 방대한 작업 관련 정보 집합을 추상화하는 프로세스입니다.

다음은 대규모 데이터 세트의 효율적이고 유연한 일반화를 위한 두 가지 접근 방식입니다 -

OLAP 접근 방식 − 데이터 큐브 기술은 데이터 웨어하우스 기반, 사전 계산 지향, 구체화된 뷰 접근 방식으로 처리될 수 있습니다. OLAP 또는 데이터 마이닝 쿼리가 처리를 위해 이동되기 전에 오프라인 집계를 구현합니다.

속성 지향 유도 접근 방식 − 관계형 데이터베이스 쿼리 지향, 일반화 기반 온라인 데이터 분석 접근 방식입니다. 속성 지향 유도에서는 먼저 관계형 데이터베이스 쿼리를 사용하여 작업 관련 정보를 수집한 다음 관련 데이터 모음에서 각 속성의 여러 고유 값을 검사하여 일반화를 구현합니다.

일반화는 속성 제거로 구현됩니다. 동일한 일반화된 튜플을 결합하고 각각의 카운트를 누적하여 집계를 구현하여 일반화된 데이터 세트의 크기를 줄이고 사용자와 대화형 프레젠테이션을 수행합니다.

속성 지향 유도 접근의 기본 원칙 -

  • 데이터 집중 − 데이터는 차원과 같은 작업과 관련되어야 하며 결과는 원래 관계입니다.
  • 속성 제거 − A에 대한 특정 값의 집합이 엄청나지만 A에 대한 일반화 연산자가 없거나 A의 상위 수준 개념이 추가 속성으로 정의된 경우 관련 속성 집합을 선택하거나 속성 A를 제거할 수 있습니다.
  • 속성 일반화 − A에 대한 고유한 값 집합이 많고 ​​A에 대한 일반화 연산자 집합이 있는 경우 연산자를 선택하고 A를 일반화합니다.
  • 분석적 특성화 − 관련 없는 속성을 필터링하거나 관련 속성의 순위를 지정하기 위해 데이터를 전처리하는 통계적 접근 방식입니다. 속성 관련성 분석의 측정은 개념 설명 절차에서 승인되지 않을 수 있는 관련 없는 속성을 분석하는 데 사용할 수 있습니다. 이 전처리 단계를 클래스 특성화 또는 비교에 포함하는 것을 분석적 특성화로 정의합니다.

속성 관련성 분석의 이유

속성 관련성 분석에는 다음과 같은 몇 가지 이유가 있습니다 -

  • 포함해야 하는 차원을 결정할 수 있습니다.

  • 높은 수준의 일반화를 달성할 수 있습니다.

  • 패턴을 쉽게 이해하도록 지원하는 속성의 수를 줄일 수 있습니다.

속성 관련성 분석의 기본 개념은 주어진 클래스 또는 접근 방식에 대한 속성의 관련성을 계산할 수 있는 일부 측정값을 평가하는 것입니다. 이러한 측정에는 정보 획득, 모호성 및 상관 계수가 포함됩니다.