데이터 웨어하우징 프로세스에서 데이터 스테이징 영역은 데이터 스테이징 서버 소프트웨어와 추출, 변환 및 로드 활동 결과의 데이터 저장소 아카이브(리포지토리)에서 수집됩니다.
데이터 스테이징 소프트웨어 서버는 OLTP 데이터 소스에서 추출한 데이터를 임시로 저장하고 변경하며, 보관 리포지토리는 데이터 마트 및 데이터 웨어하우스에 로드하기 위해 정리되고 변환된 데이터와 속성을 저장합니다.
데이터 스테이징 프로세스는 정보를 스트림 또는 파일로 가져와서 변경하고 통합되고 정리된 데이터를 생성하고 데이터 웨어하우스, 데이터 마트 또는 운영 데이터 저장소에 로드하기 위해 스테이징합니다.
데이터 스테이징 도구에 액세스할 수 있으며 데이터는 데이터베이스에 있습니다. 데이터 흐름이 시작되어 원본 시스템 외부로 나타나고 변환 엔진을 통해 스테이징 데이터베이스로 변경됩니다.
두 번째 방법에서는 메인프레임 레거시 시스템으로 시작한 다음 검색된 레코드를 플랫 파일로 추출하고, 파일을 스테이징 서버로 변경하고, 콘텐츠를 변환하고, 변환된 정보를 스테이징 데이터베이스로 로드할 수 있습니다.
데이터 웨어하우스 스테이징 영역은 소스 시스템의 데이터가 재생되는 임시 영역입니다. 스테이징 영역은 일반적으로 타이밍상의 이유로 데이터 웨어하우징 아키텍처에 필요합니다. 간단히 말해서 데이터를 데이터 웨어하우스로 통합하기 전에 필요한 모든 정보를 사용할 수 있어야 합니다.
다양한 비즈니스 주기, 데이터 처리 주기, 하드웨어, 네트워크 리소스 제한 및 지리적 요소로 인해 모든 운영 데이터베이스에서 모든 정보를 동시에 정확하게 추출하는 것은 적용할 수 없습니다.
예 − 매일 매출 데이터를 추출하는 것이 합리적일 수 있지만, 일별 추출은 월말 조정 절차가 필요한 재무 정보에 적합하지 않습니다. 마찬가지로, 정오 동부 표준시에 싱가포르의 데이터베이스에서 "고객" 데이터를 추출하는 데 적합할 수 있지만 시카고 데이터베이스의 "고객" 데이터에는 적합하지 않습니다.
데이터 웨어하우스의 데이터는 영구적(예:장기간 유지)이거나 일시적(즉, 일시적으로만 유지)일 수 있습니다. 모든 기업에 데이터 웨어하우스 스테이징 영역이 필요한 것은 아닙니다. 많은 기업에서 ETL을 사용하여 운영 데이터베이스에서 데이터 웨어하우스로 직접 데이터를 복사하는 것이 적합합니다.
데이터 스테이징의 장점과 단점
장점
-
스테이징 프로세스는 변환 프로세스와 병렬로 제어됩니다.
-
스테이징 테이블은 쓰기만 하고, 쓰기는 하고, 다시 추출하기 때문에 디스크 I/O가 절반으로 줄어듭니다.
단점
-
변환 프로세스가 거부되면 스테이징 프로세스도 중지됩니다.