데이터 웨어하우징은 비즈니스에 의미 있는 비즈니스 통찰력을 제공하기 위해 다양한 소스에서 데이터를 수집하고 관리하는 데 주로 사용되는 기술입니다. 데이터 웨어하우스는 관리 결정을 지원하도록 특별히 설계되었습니다.
간단히 말해서 데이터 웨어하우스는 조직의 운영 데이터베이스와 독립적으로 유지 관리되는 데이터베이스를 정의합니다. 데이터 웨어하우스 시스템은 여러 애플리케이션 시스템의 통합을 가능하게 합니다. 분석을 위한 통합된 과거 정보의 견고한 플랫폼을 제공하여 데이터 처리를 제공합니다.
데이터 웨어하우스는 다차원 공간에서 데이터를 일반화하고 중앙 집중화합니다. 데이터 웨어하우스 구축에는 데이터 정리, 데이터 통합 및 데이터 변환이 포함되며 데이터 마이닝을 위한 중요한 전처리 단계로 볼 수 있습니다.
이는 효과적인 데이터 일반화 및 데이터 마이닝을 용이하게 하는 다양한 입도의 다차원 데이터의 대화식 분석을 위한 OLAP(온라인 분석 처리) 도구를 제공합니다. 연관, 분류, 예측 및 클러스터링을 포함한 여러 데이터 마이닝 기능이 OLAP 작업과 통합되어 다양한 추상화 수준에서 지식의 대화형 마이닝을 구축할 수 있습니다.
다음과 같은 세 가지 주요 유형의 데이터 웨어하우스가 있습니다. -
엔터프라이즈 데이터 웨어하우스(EDW) − 엔터프라이즈 데이터 웨어하우스는 중앙 집중식 웨어하우스입니다. 데이터를 구성하고 표현하는 데 사용됩니다. EDW의 도움으로 사용자는 주제에 따라 데이터를 분류할 수 있습니다.
운영 데이터 저장소 − Operational Data Store에서 데이터 웨어하우스는 실시간으로 새로 고쳐집니다. 따라서 기록 저장 등의 일상적인 활동에 보다 일반적으로 사용됩니다.
데이터 마트 − 데이터 마트는 데이터 웨어하우스의 하위 집합으로 정의할 수 있습니다. 영업, 재무 등을 위해 설계되었습니다.
데이터 웨어하우스의 특성
다음과 같은 데이터 웨어하우스의 다양한 특성이 있습니다 -
-
주제 중심 − 데이터 웨어하우스는 의사 결정자를 위한 정보의 모델링 및 분석을 목표로 합니다. 따라서 데이터 웨어하우스는 일반적으로 의사 결정 지원 프로세스에 도움이 되지 않는 정보를 제외하여 특정 주제 문제에 대한 간단하고 간결한 보기를 제공합니다.
-
통합 − 데이터 웨어하우스는 일반적으로 관계형 데이터베이스, 플랫 파일 및 온라인 트랜잭션 레코드와 같은 여러 이기종 소스를 통합하여 구성되므로 명명 규칙, 인코딩 메커니즘, 속성 측정의 일관성을 제공하기 위해 데이터 정리 및 데이터 통합 기술을 사용해야 합니다. 등
-
시변 − 데이터는 역사적 관점(예:지난 5-10년)에서 데이터를 제공하기 위해 저장됩니다. 데이터 웨어하우스의 각 핵심 메커니즘에는 암시적이든 명시적이든 시간 요소가 포함됩니다.
-
비휘발성 − 데이터 웨어하우스는 항상 운영 환경에서 찾은 소프트웨어 데이터에서 변환된 데이터의 물리적으로 독립적인 저장소입니다. 이러한 분리 때문에 데이터 웨어하우스는 트랜잭션 처리, 복구 및 동시성 제어 구조가 필요하지 않습니다. 일반적으로 데이터 액세스에서 데이터의 초기 로드와 데이터 액세스의 두 가지 작업만 필요합니다.