추출 방법은 소스 규칙과 대상 데이터 웨어하우스 환경의 비즈니스 요구 사항에 크게 의존합니다. 추출할 정보의 추정량과 ETL 절차의 단계(기록의 원래 로드 또는 보존)도 논리적 및 물리적 관점에서 추출 방법을 결정하도록 할 수 있습니다. 논리적 추출 방식과 물리적 추출 방식의 두 가지 추출 방식이 있습니다.
논리적 추출 방법
논리적 추출에는 다음과 같은 두 가지 유형이 있습니다. -
-
전체 추출 − 데이터는 소스 시스템에서 완전히 추출됩니다. 이 추출은 소스 시스템에서 직접 액세스할 수 있는 모든 데이터를 따르기 때문에 최종 성공적인 추출로 인해 데이터 소스에 대한 변경 사항을 추적할 필요가 없습니다.
소스 정보가 지원되며 소스 사이트에 추가 논리적 데이터(예:타임스탬프)가 필요하지 않습니다. 전체 추출의 예로는 고유한 테이블의 내보내기 문서나 전체 소스 테이블을 스캔하는 원격 SQL 문이 있습니다.
-
증분 추출 − 과거 클리어 이벤트로 인해 변형된 데이터가 추출됩니다. 이 이벤트는 추출의 마지막 시간이거나 회계 기간의 최종 예약일과 같은 더 복잡한 비즈니스 이벤트일 수 있습니다.
이 델타 변경을 인식할 수 있어야 하며 이 특정 시간 이벤트로 인해 변경된 모든 데이터를 인식할 가능성이 있어야 합니다. 이 데이터는 최종 변경된 타임스탬프를 반영하는 소프트웨어 열을 포함하는 소스 데이터 자체 또는 적절한 추가 구조가 상승하는 트랜잭션 외에 변경 사항의 표시를 유지하는 변경 테이블에 의해 지원될 수 있습니다. 일반적으로 후자의 기술을 활용하면 소스 시스템에 추출 논리를 삽입하는 것이 정의됩니다.
물리적 추출 방법
선택한 논리적 추출 방법과 소스 측의 용량 및 조건을 기반으로 하며, 추출된 정보는 물리적으로 두 가지 구조로 추출할 수 있습니다. 정보는 소스 시스템 또는 오프라인 메커니즘에서 온라인으로 추출할 수 있습니다. 이러한 오프라인 메커니즘은 이미 발생하거나 추출 루틴에 의해 생성될 수 있습니다.
다음과 같은 물리적 추출 방법이 있습니다 -
-
온라인 추출 − 데이터는 소스 시스템 자체에서 정확하게 추출됩니다. 추출 절차는 소스 시스템에 직접 연결하여 소스 테이블 자체를 연결하거나 미리 구성된 측면(예:스냅샷 로그 또는 시프트 테이블)에 정보를 저장하는 중간 시스템에 연결할 수 있습니다.
-
오프라인 추출 − 데이터는 소스 시스템에서 정확하게 추출되지 않지만 특히 초기 소스 시스템 외부에서 실행됩니다. 데이터가 현재 아키텍처(예:redo 로그, 아카이브 로그 또는 모바일 테이블스페이스)를 가지고 있거나 추출 루틴에 의해 생성되었습니다.