마지막으로 빅 데이터에 대해 이야기했을 때 다양한 빅 데이터 분석 기술에 대해 이야기했습니다. 그 전에 빅 데이터의 다양한 측면에 대해 이야기했습니다. 내 블로그 중 하나에서 "빅 데이터 참조 아키텍처 계층의 기능"에 대해 설명했습니다. . 앞서 말했듯이 같은 맥락에서 이 블로그에서는 "상위 10개 오픈 소스 데이터 추출 도구"에 대해 논의할 것입니다. .
빅 데이터의 데이터 추출 도구는 다양한 소스에서 데이터를 수집하고 이를 구조화된 형태로 변환하는 데 도움이 됩니다. 이러한 도구에 대해 더 일반적으로 사용되는 용어는 "ETL – 추출 변환 및 로드"입니다. . 이러한 도구의 기능은 아래에 설명된 3단계로 나눌 수 있습니다.
- 동종 또는 이기종 데이터 소스에서 데이터 추출
- 데이터를 쿼리 및 분석 목적에 적합한 형식이나 구조로 저장하기 위해 변환합니다.
- 최종 대상(데이터베이스, 특히 운영 데이터 저장소, 데이터 마트 또는 데이터 웨어하우스)에 로드합니다.
일반적으로 ETL 도구에서는 데이터 추출에 시간이 걸리므로 세 단계가 모두 병렬로 실행되므로 데이터를 가져오는 동안 다른 변환 프로세스가 실행되어 이미 수신된 데이터를 처리하고 로드할 데이터를 준비하고 일부 데이터를 대상에 로드할 준비가 되면 이전 단계가 완료될 때까지 기다리지 않고 데이터 로드가 시작됩니다.
다음은 상위 10개 오픈 소스 데이터 추출 또는 ETL 도구 목록입니다.
1. Talend 오픈 스튜디오:
Talend Openstudio는 시장에서 가장 강력한 데이터 통합 ETL 도구 중 하나입니다. Talend Open Studio는 데이터 관리 및 애플리케이션 통합 프로젝트를 개발, 테스트, 배포 및 관리하기 위한 다양한 오픈 소스 제품 세트입니다.
ETL 프로젝트의 경우 Talend Open Studio for Data Integration은 데이터 통합을 위한 여러 솔루션(오픈 소스 및 상용 에디션 모두)을 제공합니다. Talend는 직관적인 Eclipse 기반 인터페이스를 갖춘 그래픽 통합 개발 환경을 포함한 풍부한 기능 세트를 제공합니다. 끌어서 놓기 디자인 흐름과 데이터베이스, 메인프레임, 파일 시스템, 웹 서비스, 패키지 엔터프라이즈 응용 프로그램, 데이터 웨어하우스, OLAP 응용 프로그램, Software-as-a -서비스, 클라우드 기반 애플리케이션 등
2. 스크립텔라:
Scriptella는 Apache에서 시작한 오픈 소스 ETL 도구로, 추출, 변환 및 로드 프로세스와 함께 Java 스크립팅 실행에도 사용됩니다. 매우 간단하고 사용하기 쉬운 도구이며 기본적으로 사용하기 쉽기 때문에 인기가 있습니다. 기능에는 SQL, JavaScript, JEXL, Velocity로 작성된 스크립트 실행이 포함됩니다. 데이터베이스 마이그레이션, LDAP, JDBC, XML 및 기타 데이터 소스와의 상호 운용성. Cros 데이터베이스 ETL 작업, CSV, 텍스트 및 XML 및 기타 형식에서 가져오기/내보내기.
3. KETL:
KETL은 데이터 웨어하우징을 위한 최고의 오픈 소스 도구 중 하나입니다. XML 및 기타 언어와 함께 Java 지향 구조로 구성되어 있습니다. 엔진은 개방형, 다중 스레드, XML 기반 아키텍처를 기반으로 합니다. KETL의 주요 기능에는 보안 및 데이터 관리 도구 통합 지원, 여러 서버 및 CPU 및 모든 데이터 볼륨에 걸쳐 입증된 확장성이 포함되며 타사 일정, 종속성 및 알림 도구가 추가로 필요하지 않습니다.
4. Pentaho Data Integrator – Kettle:
Pentaho 자체에 따르면 데이터 통합 기능으로 ETL 도구를 제공하는 BI 제공업체입니다. 이러한 ETL 기능은 Kettle 프로젝트를 기반으로 합니다. Java 응용 프로그램 및 라이브러리입니다. Kettle은 XML 형식으로 작성된 절차의 해석기입니다. Kettle은 데이터 조작 프로세스를 미세 조정하기 위해 Java Script 엔진을 제공합니다. Kettle은 또한 복잡한 ETL 절차를 구축하는 데 필요한 모든 것을 갖춘 훌륭한 도구입니다. Kettle은 XML 형식으로 작성된 ETL 절차의 해석기입니다.
PDI(Kettle)는 Pentaho Business Intelligence Suite의 기본 도구입니다. 이 절차는 모든 Kettle 라이브러리와 Java 인터프리터가 설치되어 있는 경우 Pentaho 플랫폼 외부에서도 실행할 수 있습니다.
5. 재스퍼소프트 ETL:
Jaspersoft ETL은 배포하기 쉽고 많은 독점 및 오픈 소스 ETL 시스템을 능가합니다. 보고 및 분석을 위한 통합 데이터 웨어하우스 또는 데이터 마트를 생성하기 위해 트랜잭션 시스템에서 데이터를 추출하는 데 사용됩니다. 기능에는 정보 워크플로의 비기술적 보기에 액세스하고 그래픽 편집 도구인 Job Designer를 사용하여 ETL 프로세스를 표시 및 편집하며 변환 매퍼 및 기타 변환 구성 요소를 사용하여 복잡한 매핑 및 변환을 정의하는 비즈니스 모델러가 포함됩니다.
실시간 디버깅으로 처음부터 끝까지 ETL 통계를 추적하는 기능도 있으며, 플랫 파일, XML 파일, 데이터베이스, 웹을 포함한 여러 소스에서 동시에 출력 및 입력할 수 있습니다. 수백 개의 커넥터가 있는 서비스, POP 및 FTP 서버, 활동 모니터링 콘솔을 사용하여 작업 이벤트, 실행 시간 및 데이터 볼륨을 모니터링합니다.
6. 지오케틀:
GeoKettle은 일반 ETL 도구인 Kettle(Pentaho Data Integration)의 공간 지원 버전입니다. GeoKettle은 지리 공간 데이터 웨어하우스를 구축하고 업데이트하기 위해 다양한 공간 데이터 소스를 통합하는 데 전념하는 강력한 메타데이터 기반 공간 ETL 도구입니다.
데이터 소스에서 데이터 추출, 오류 수정을 위한 데이터 변환, 일부 데이터 정리, 데이터 구조 변경, 정의된 표준 준수, 변환된 데이터를 OLTP 또는 OLAP/SOLAP 모드, GIS 파일 또는 지리 공간 웹 서비스에서 대상 데이터베이스 관리 시스템(DBMS)으로 로드합니다.
7. 클로버 ETL:
이 프로젝트는 체코에 본사를 둔 회사인 OpenSys가 감독합니다. 상용 라이선스 버전에서 보증 및 지원을 제공하는 Java 기반의 이중 라이선스 오픈 소스입니다. 제품에는 시스템 통합업체 및 ISV가 쉽게 포함할 수 있는 작은 설치 공간이 있습니다. 매핑 및 변환을 포함한 기본 기능 라이브러리를 만드는 것을 목표로 합니다. 엔터프라이즈 서버 버전은 상용 제품입니다.
8. HPCC 시스템:
HPCC Systems는 Thor라는 Data Refinery 엔진이 있는 빅 데이터 분석을 위한 오픈 소스 플랫폼입니다. Thor는 빅 데이터를 정리, 연결, 변환 및 분석합니다. Thor는 비정형/정형 데이터 수집, 데이터 프로파일링, 데이터 위생 및 즉시 사용 가능한 데이터 연결과 같은 ETL(Extraction, Transformation and Loading) 기능을 지원합니다. Thor가 처리한 데이터는 Data Delivery 엔진인 Roxie를 이용하여 다수의 사용자가 동시에 실시간으로 접근할 수 있습니다. Roxie는 동시성이 높고 대기 시간이 짧은 실시간 쿼리 기능을 제공합니다.
9. 제독스:
Jedox는 오픈 소스 BI 솔루션 도구입니다. 이 특정 도구는 실적 보유 전략 계획, 조사, 범위 및 ETL 개념과 관련된 프로세스를 관리하기 위한 것입니다. Open Core는 메모리 내 OLAP 서버, ETL 서버 및 OLAP 클라이언트 라이브러리로 구성됩니다. Jedox OLAP 서버를 소스 및 대상 시스템으로 강력하게 지원하는 도구는 OLAP 조사의 복잡성을 극복할 수 있는 기능을 갖추고 있습니다. 이 특정 ETL 도구를 사용하면 모든 기존 모델을 OLAP 모델로 변환할 수 있습니다.
큐브 및 치수 작업이 이보다 쉬울 수 없습니다. JEDOX ETL을 사용하여 자주 필요한 시간 계층을 유연하게 생성하고 소스 시스템의 관계형 모델을 OLAP 모델로 효율적으로 변환합니다.
10. 아파타르 ETL:
Apatar ETL은 오픈 소스 패키지에서 타의 추종을 불허하는 일련의 기능을 제공합니다. 기능에는 Oracle, MS SQL, MySQL, Sybase DB2, MS Access, PostgreSQL, XML, InstantDB, Paradox, BorlandJDataStore, Csv, MS Excel, Qed, HSQL, SalesForce.Com 등에 대한 연결이 포함됩니다. 모든 통합을 관리하는 단일 인터페이스가 있습니다. 프로젝트, 유연한 배포 옵션, 양방향 통합, 플랫폼 독립적, Windows, Linux, Mac에서 실행 100% Java 기반, 코딩 없음, 시각적 작업 디자이너 및 매핑을 통해 개발자가 아닌 사람도 변환을 디자인하고 수행할 수 있습니다.
오픈 소스 도구에는 항상 고급 기능, 저장 시설, 고급 분석 기능 등의 측면에서 제한이 있습니다. 따라서 라이센스가 부여된 도구를 사용하는 것이 좋습니다. 내 다음 블로그에서는 라이선스 데이터 추출 도구에 대해 논의할 것입니다.