Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

데이터 통합이란 무엇입니까?

<시간/>

데이터 통합은 서로 다른 여러 소스의 데이터를 결합하는 단계입니다. 데이터 통합을 구현하는 동안 데이터 중복성, 불일치, 중복성 등에 대해 작동해야 합니다. 데이터 마이닝에서 데이터 통합은 통합된 관점을 유지하고 지원하기 위해 수많은 이기종 데이터 소스의 데이터를 일관된 데이터로 병합하는 데이터 전처리 기술입니다. 정보입니다.

다양한 소스의 데이터를 데이터 웨어하우징을 포함하여 일관된 데이터 저장소로 결합합니다. 이러한 소스에는 여러 데이터베이스, 데이터 큐브 또는 플랫 파일 등이 포함될 수 있습니다. 데이터 통합 ​​중에 고려해야 할 여러 문제가 있습니다.

  • 스키마 통합 및 개체 일치는 복잡할 수 있습니다. 예를 들어 엔티티 ID(한 데이터베이스의 emp_id 및 다른 데이터베이스의 emp_no)를 일치시키면 메타데이터를 사용하여 이러한 문제를 방지할 수 있습니다.

  • 중복성은 또 다른 문제입니다. 예를 들어, 연간 수익을 포함한 속성은 다른 속성이나 속성 집합에서 파생될 수 있는 경우 중복될 수 있습니다. 속성 또는 차원 이름 지정의 불일치는 나타나는 데이터 세트에 중복을 생성할 수도 있습니다.

  • 일부 중복은 상관 분석을 통해 발견할 수 있습니다. 두 개의 속성이 주어지면 이러한 분석은 사용 가능한 데이터를 기반으로 한 속성이 다른 속성을 얼마나 강력하게 의미하는지 계산할 수 있습니다. 수치 속성의 경우 상관 계수(발명자 Karl Pearson의 이름을 딴 Pearson의 제품 모멘트 계수라고도 함)를 계산하여 두 속성 A와 B 간의 상관 관계를 평가할 수 있습니다. 이것은

$$r_{A,B}=\frac{\sum_{i=1}^{n}(a_{i}-A^{'})(b_{i}-B^{'})}{N \sigma _{A}\sigma _{B}}=\frac{\sum_{i=1}^{n}(a_{i}b_{i})-NA^{'}B^{'}} {N\sigma _{A}\sigma _{B}}$$

여기서 N은 튜플의 수, ai 그리고 bi 튜플 i의 A와 B 각각의 값, A ' 및 B ' A와 B의 각각의 평균값, σA 및 σB A와 B의 각각의 표준편차와 Σ(ai b )은 AB 외적의 합입니다. 즉, 각 튜플에 대해 A 값에 해당 튜플의 B 값을 곱합니다.

상관관계는 인과관계를 의미하지 않습니다. 즉, A와 B가 상관관계가 있다고 해서 A가 B를 유발하거나 B가 A를 유발한다는 의미는 아닙니다. 예를 들어 인구통계학적 데이터베이스를 분석할 때 여러 병원과 여러 자동차 절도를 정의하는 속성을 찾을 수 있습니다. 지역은 상관관계가 있습니다. 이것은 하나가 다른 하나를 유발한다고 정의하지 않습니다. 둘 다 일반적으로 인구와 같은 세 번째 속성과 연결됩니다.

데이터 통합의 세 번째 중요한 문제는 데이터 값 충돌의 감지 및 해결입니다. 예를 들어 동일한 실제 엔터티에 대해 여러 소스의 속성 값이 다를 수 있습니다. 이는 표현, 배율 또는 인코딩의 차이 때문일 수 있습니다.