데이터 통합은 서로 다른 여러 소스의 데이터를 병합하는 절차입니다. 데이터 통합을 수행하는 동안 데이터 중복성, 비일관성, 중복성 등에 대해 작업해야 합니다. 데이터 마이닝에서 데이터 통합은 몇 가지 이기종 데이터 소스의 데이터를 일관된 데이터로 병합하여 통합된 유지 및 제공을 제공하는 기록 전처리 방법입니다. 데이터의 관점.
데이터 통합은 의료 산업에서 특히 중요합니다. 여러 환자 기록 및 진료소의 통합 데이터는 유용한 통찰력을 얻을 수 있는 유익한 정보의 단일 관점으로 여러 시스템의 정보를 통합함으로써 임상의가 의학적 장애 및 질병을 식별하는 데 도움이 됩니다.
효과적인 데이터 수집 및 통합은 또한 의료 보험 청구 처리 정확도를 개선하고 환자 이름과 연락처 정보가 일관되고 정확하게 기록되도록 합니다. 상호 운용성은 서로 다른 시스템 간의 정보 공유를 의미합니다.
필요한 것과 다른 형식의 데이터가 있는 경우 집계 방법을 속성에 적용하여 원하는 속성을 얻을 수 있습니다. 예를 들어, 상점에 2010년부터 2012년까지의 분기별 매출로 구성된 데이터가 있습니다. 데이터는 분기별 형식으로 제공되지만 연간 매출을 검색해야 합니다. 따라서 원하는 출력을 찾기 위해 데이터를 집계해야 합니다.
분기 | 판매 | 분기 | 판매 | 분기 | 판매 | 연도 | 판매 |
---|---|---|---|---|---|---|---|
2010년 | 2011년 | 2012년 | 연도 판매 | ||||
Q1 | 10000루피 | Q1 | 8000루피 | Q1 | 15000루피 | 2010년 | 1,30,000루피 |
2분기 | 50000루피 | 2분기 | 15000루피 | 2분기 | 20000루피 | 2011년 | 53000루피 |
3분기 | 40000루피 | 3분기 | 10000루피 | 3분기 | 40000루피 | 2012년 | 1,05,000루피 |
4분기 | 30000루피 | 4분기 | 20000루피 | 4분기 | 30000루피 |
2010년부터 2012년까지 분기당 판매는 단일 연간 판매 기록으로 집계됩니다.
각 속성에 대한 개념 계층이 존재할 수 있으므로 여러 추상화 수준에서 데이터를 분석할 수 있습니다. 예를 들어, 분기에 대한 계층 구조를 통해 분기를 주소를 기반으로 영역으로 그룹화할 수 있습니다. 데이터 큐브는 미리 계산되고 요약된 데이터에 대한 빠른 액세스를 지원하므로 온라인 분석 처리 및 데이터 마이닝에 도움이 됩니다.
가장 낮은 추상화 수준에서 생성된 입방체를 기본 입방체로 정의합니다. 기본 직육면체는 판매 또는 고객을 포함하여 단일 관심 엔터티에 해당해야 합니다. 즉, 가장 낮은 수준이 분석에 사용 가능하거나 도움이 되어야 합니다. 가장 높은 추상화 수준의 큐브가 정점 직육면체입니다.
여러 수준의 추상화를 위해 생성된 데이터 큐브는 직육면체로 정의되므로 데이터 큐브는 대신 직육면체의 격자를 정의할 수 있습니다. 추상화 수준이 높을수록 결과 데이터 크기가 더 줄어듭니다. 데이터 마이닝 요청에 응답할 때 주어진 작업과 관련된 가장 작은 사용 가능한 직육면체를 사용해야 합니다.