성공적인 데이터 엔지니어링 전략을 위한 AWS 활용

원본은 2019년 5월 Onica.com/blog에 게시됨

모두가 빅 데이터의 잠재력을 알고 있지만 일부 비즈니스의 경우 데이터와 분석이 여전히 레거시 세계에 존재합니다. 이것은 사내 서버 내에 저장되고 독점 소프트웨어로 분석되는 구조화된 데이터의 세계입니다.

보다 빅 데이터 친화적인 방법으로 이동하려는 조직에게 이 낡은 세상은 그 움직임을 어렵게 만듭니다. 그러나 지난 몇 년 동안 데이터 엔지니어링의 변화가 너무 심해 새로운 방법과 기술을 사용하지 않는 조직은 주요 비즈니스를 놓치고 있습니다. 혜택. 이를 염두에 두고 데이터 엔지니어링과 비즈니스 성공을 위해 데이터 엔지니어링을 사용하는 방법을 다시 살펴보는 것이 중요합니다.

데이터 엔지니어링이란 무엇입니까?

데이터 엔지니어링의 정의는 지난 몇 년 동안 크게 바뀌지 않았습니다. 그러나 기초와 도구가 크게 바뀌었습니다. 데이터 엔지니어링의 핵심은 데이터 기술에 대한 광범위한 지식, 적절한 데이터 거버넌스 및 보안, 데이터 처리에 대한 강력한 이해를 통해 데이터 과학 및 분석을 지원하는 기반입니다.

관계형 및 트랜잭션 데이터베이스와 같은 기존 기술은 여전히 빅 데이터 아키텍처에서 자리를 잡고 있지만, 현장에 새로 등장하면서 이 분야에서 혁신을 창출했습니다. 데이터 엔지니어링과 관련하여 AWS®는 판도를 바꿨습니다. 일부 주요 제품은 다음과 같습니다.

Amazon® DynamoDB® :Amazon DynamoDB는 문서, 그래프, 키-값, 메모리, 검색을 비롯한 다양한 데이터 모델을 사용할 수 있도록 하여 관계형 데이터베이스의 대안을 제공하는 NoSQL® 데이터베이스입니다. 이를 통해 최신 워크로드를 위한 확장 가능하고 유연하며 고성능의 고기능 데이터베이스를 생성합니다.

Apache® Hadoop® :Apache Hadoop은 클러스터링을 활용하여 대용량 데이터 세트를 처리하는 데 사용할 수 있는 오픈 소스 서비스입니다. Hadoop은 워크로드 요구 사항을 충족할 수 있는 전체 도구 에코시스템을 갖추고 있습니다. Hadoop 에코시스템에서 Hadoop 및 기타 관련 애플리케이션을 실행할 때 클러스터 관리를 간소화하는 Amazon Elastic MapReduce(EMR)를 사용하여 AWS에서 Hadoop을 실행할 수 있습니다.

아마존 EMR :AWS에서 Hadoop 에코시스템을 관리하기 위한 도구인 EMR을 사용하면 Amazon Elastic Compute Cloud®(Amazon EC2) 인스턴스에서 비용 효율적으로 데이터를 쉽게 처리할 수 있습니다. Amazon EMR은 또한 Apache Spark® 및 HBase®와 같은 다른 분산 프레임워크의 실행을 가능하게 하고 Amazon Simple Storage Service Amazon S3 및 Amazon DynamoDB와 같은 AWS 데이터 스토어의 상호 작용을 가능하게 합니다.

Amazon Redshift :빠르고 확장 가능한 데이터 웨어하우스인 Amazon Redshift를 사용하면 쿼리를 데이터 레이크로 간단하게 확장할 수 있습니다. Amazon Redshift는 기계 학습, 병렬 쿼리 실행 및 열 기반 스토리지를 사용하여 다른 데이터 웨어하우스보다 10배 빠른 성능을 제공합니다.

AWS 접착제 :AWS Glue는 고객이 분석을 위해 데이터를 쉽게 준비하고 로드할 수 있는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. 카탈로그가 생성되면 데이터를 즉시 검색하고 쿼리할 수 있으며 ETL에 사용할 수 있습니다.

아마존 아테나 :Amazon Athena는 표준 SQL®을 사용하여 Amazon S3의 데이터를 쉽게 분석할 수 있는 대화형 쿼리 서비스입니다. 또한 AWS Glue 데이터 카탈로그와 통합되어 다양한 서비스 전반에 걸쳐 통합 메타데이터 리포지토리를 생성하고, 데이터 소스를 크롤링하여 스키마를 검색하고, 카탈로그를 신규 및 수정된 테이블 및 파티션 정의로 채우고, 스키마 버전 관리를 유지할 수 있습니다.

다른 모든 것과 마찬가지로 AA는 형식과 모델에서 조직의 데이터 보안 요구 사항을 충족하는 작업에 적합한 구성 요소를 찾는 것이 중요합니다.

AWS를 사용한 데이터 엔지니어링:클라이언트 예

이에 대한 강력한 예는 월간 보고서 시스템을 통해 데이터를 푸시하고 있던 우리 고객의 사례입니다. 보고서는 고객에게 필요한 특정 정보를 제공했지만 수집한 풍부한 데이터에서 더 이상의 가치를 얻지 못했습니다. 참여의 일환으로 자동화된 파이프라인과 처리를 위한 내장형 데이터 검사를 통해 데이터 레이크를 구축할 수 있었습니다. 데이터는 보고 시스템으로 전송되기 전에 전달되었습니다.

이 구성 요소를 데이터 아키텍처에 추가함으로써 고객은 보고 시스템을 보존할 뿐만 아니라 원래 데이터 세트에 대한 더 큰 기능과 액세스를 추가하여 비용 관리 및 수익성에 관한 임시 질문에 답할 수 있게 되었습니다. 이는 많은 기업이 데이터를 사용하고 있음을 증명합니다. 및 분석을 일상 비즈니스에서 수행하고 올바른 도구, 특히 최신 도구 및 기술을 통합하면 데이터를 활용하여 더 큰 결과를 얻을 수 있습니다.

데이터 처리 구현

데이터 엔지니어링을 활용하려는 경우 올바른 데이터 아키텍처 구성 요소를 갖는 것만으로는 충분하지 않습니다. 또한 강력한 기반 데이터 처리가 있어야 합니다. 데이터 처리에는 데이터 수명 주기를 통한 데이터 이동뿐 아니라 품질 검사 및 불량 데이터 정리 기술을 통한 데이터 최적화도 포함됩니다.

아마도 데이터 처리의 가장 중요한 부분은 데이터 수집일 것입니다. 기본적으로 데이터 수집은 데이터의 시작 지점에서 스토리지 시스템으로의 데이터 이동일 뿐이지만 이를 수행하는 방법에는 여러 가지가 있습니다. 데이터 수집은 자동화될 때 가장 잘 작동합니다. 최적의 최신 상태를 위해 데이터의 유지 관리 업데이트를 적게 허용할 수 있기 때문입니다. 또한 스트리밍 데이터 파이프라인을 통해 연속적이고 실시간으로, 일괄 처리를 통해 비동기식으로, 또는 둘 다일 수도 있습니다. 사용할 수집 방법에 대한 결정은 수집되는 데이터 유형, 소스 및 대상에 따라 다릅니다. AWS는 Amazon Kinesis Firehose(실시간 스트리밍을 완벽하게 관리)와 같은 서비스를 포함하여 자체 데이터 수집 방법을 Amazon S3에 제공합니다. 및 AWS Snowball(온프레미스 스토리지 및 Hadoop 클러스터의 대량 마이그레이션 허용)을 Amazon S3 및 AWS Storage Gateway(온프레미스 데이터 처리 플랫폼을 Amazon S3 기반 데이터 레이크와 통합)로.

관계형 데이터베이스로 작업하는 경우 이 수집의 또 다른 부분은 ETL(추출, 변환 및 로드)입니다. ETL 처리는 중복을 제거하고 불량 데이터를 정리 및 플래그 지정하여 데이터를 정리합니다. 및 데이터베이스의 형식과 일치하도록 변환하는 단계를 포함합니다. 이는 Spark 또는 Flink와 같은 프레임워크를 사용하면서 Python, Java 또는 Scala와 같은 언어를 통해 수행할 수 있으며 데이터 품질을 개선하는 데 핵심입니다.

어떤 데이터베이스 유형을 사용하든 결과 데이터가 정확하고 신뢰할 수 있도록 하려면 강력한 데이터 품질 프로그램이 중요합니다. 이는 AWS IAM(Identity and Access Management)과 같은 도구를 통해 데이터 액세스에 대한 역할을 식별 및 설정하고, 표준화 및 조정을 위한 프로세스를 제정하고, 데이터 무결성을 유지하기 위한 품질 검사를 시행하는 것을 의미합니다. 데이터 품질이 새로운 개념은 아니지만 품질 데이터를 홍보하는 데 사용할 수 있는 리소스는 다음과 같습니다. 최신 데이터 도구를 통해 우리 팀은 고객을 위한 자동화된 데이터 품질 보고를 만들었습니다. 여기에는 보고 대시보드로 이동하는 다운스트림 시스템과 소스 시스템의 데이터를 정기적으로 비교하여 시스템에서 나가는 데이터 품질에 대한 전례 없는 통찰력을 제공하고 오류 또는 품질 손실을 사전에 식별하여 데이터의 불만 사항에 앞서 문제를 수정할 수 있습니다. 소비자.

현재와 미래의 성공을 위한 빅 데이터 활용

데이터 엔지니어링의 이러한 변화를 분석할 때 가장 명확한 것은 프로세스가 변경되었을 뿐만 아니라 계속 변경되고 있다는 것입니다. 따라서 이러한 변경 사항이 비즈니스 데이터 정책에 미치는 영향과 이러한 변경 사항을 사용하여 비즈니스 성공을 개선하는 방법을 고려하는 것이 중요합니다. 데이터 및 분석의 변경 사항은 아키텍처 및 도구에 영향을 미쳤을 뿐만 아니라 데이터 사용에 대한 새로운 시스템과 사고 방식을 만들었습니다. .

데이터 및 분석 작업은 프로젝트 완료 시 또는 비즈니스 작업의 후속 작업으로 발생했지만 이제는 자동으로 지속적으로 데이터 작업을 수행하는 것이 일반적입니다. 이는 Amazon S3와 같은 데이터 아키텍처를 개선하는 도구를 통해 가능합니다. Amazon DynamoDB 및 데이터 수집 파이프라인은 물론 기계 학습 및 자동화된 데이터 대시보드와 같이 데이터를 모니터링하고 소비하는 방식을 변경하는 방법론 및 프로세스를 통해. 기업은 이제 저장 공간이나 비용을 낭비하지 않고 데이터를 더 오래 보유할 수 있습니다. 데이터 정리를 쉽게 자동화하여 데이터가 잘 선별되고 쉽게 탐색되며 실시간으로 액세스할 수 있으므로 데이터 아키텍처에서 이러한 서비스를 구현하는 사람들에게 경쟁 우위를 제공합니다. .

피드백 탭을 사용하여 의견을 작성하거나 질문하십시오. 영업 채팅을 클릭할 수도 있습니다. 지금 채팅하고 대화를 시작하세요.