Computer >> 컴퓨터 >  >> 프로그램 작성 >> 데이터 베이스

PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

이전 블로그 게시물Unified Data Platform - SQL 2019를 기반으로 마침내 구축하게 된 것을 기쁘게 생각합니다.

이 시리즈에서는 PolyBase®를 통해 데이터 가상화를 달성하는 방법을 자세히 설명합니다. 이 게시물에서는 소개 및 데모 전제 조건을 다루고 2부는 데모 자체에 대해 설명합니다.

요약

기억을 되살리려면 이전 게시물이 다음 항목을 다뤘음을 상기하십시오.

  1. DB 엔진에서 통합 데이터 플랫폼으로 SQL Server®의 진화
  2. SQL 2019는 다음을 사용하여 통합 데이터 플랫폼을 제공합니다.
    • OLTP용 SQL DB 엔진
    • Polybase를 통한 데이터 가상화
    • Columnar 스토어를 통한 데이터 마트
    • HDFS를 통한 Data Lake
    • 빅데이터, ML, Apache Spark를 통한 스트리밍
  3. ADS(Azure® Data Studio)를 사용한 관리 및 모니터링

소개

데이터가 어디에나 있기 때문에 추가 처리를 위해 데이터를 다른 위치로 이동하거나 복사해야 하는 문제에 지속적으로 직면하고 있습니다. 작은 데이터 세트로 이것은 충분히 쉽지만 계속 증가하는 데이터 크기에 문제가 될 수 있습니다. 또한 조직에서 데이터 마이닝을 점진적으로 확대함에 따라 데이터 리더는 데이터를 한 곳에 보관하는 것을 옹호하지 않습니다. 마찬가지로, 정형 및 비정형 데이터와 빅 데이터의 서로 다른 데이터 저장소에서 데이터를 가져오거나 사용하는 것은 지루할 수 있습니다.

데이터 가상화 이 문제의 해결책입니다.

데이터 가상화란 무엇입니까?

데이터 가상화는 데이터가 소스에서 형식이 지정되거나 물리적으로 위치하는 것과 같이 데이터에 대한 기술적 세부 사항을 요구하지 않고 애플리케이션이 데이터를 검색하고 조작할 수 있도록 하는 데이터 관리에 대한 접근 방식입니다. 전체 데이터에 대한 단일 고객 보기를 제공할 수 있습니다.

시장에는 다음과 같은 많은 데이터 가상화 도구가 있습니다.

  • Microsoft® Polybase®
  • Actifio® 가상 데이터 파이프(VDP)
  • Informatica® Powercenter
  • 데이터용 IBM® Cloud Pak
  • RedHat® JBoss 데이터 가상화

이 시리즈에서는 Microsoft가 SQL 2016에서 도입하고 이후의 각 SQL 버전에서 개선된 PolyBase에 중점을 둡니다.

Polybase를 사용하면 SQL Server에서 Azure® Blob, Hadoop®, Oracle®, MongoDB® 등과 같은 외부 데이터 원본에서 Transact-SQL 쿼리를 실행할 수 있습니다. 외부 데이터를 처리하는 데 사용되는 동일한 Transact-SQL은 관계형 데이터베이스에서도 실행할 수 있습니다. 이 기능은 외부 소스의 데이터를 데이터베이스의 관계형 데이터와 통합하는 데 도움이 됩니다. 다음 이미지는 SQL Polybase의 간단한 그림을 보여줍니다.

PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

그림 1


이제 Polybase의 기본 사항을 알았으므로 SQL PolyBase를 사용하여 Azure Blob 외부 소스에서 데이터를 가져오는 데모를 공유하고자 합니다. 이 게시물은 데모의 전제 조건을 다룹니다.

데모 전제 조건

데모를 실행하기 전에 다음 전제 조건 작업을 수행해야 합니다.

  1. PolyBase 기능을 사용하여 SQL 2016 이상을 설치합니다.
  2. SQL Server에서 PolyBase를 활성화합니다.
  3. Azure Storage 계정을 만듭니다.
  4. Azure Blob 컨테이너를 만듭니다.
  5. BLOB 컨테이너에 데이터 파일을 배치합니다.
1. SQL Polybase 설치

시스템에 단 하나의 SQL 인스턴스로 Polybase를 설치할 수 있습니다.

현재 로컬 컴퓨터에서 하나의 기본 SQL 2019 인스턴스가 실행되고 있습니다. 그러나 설치하는 동안 Polybase를 선택하지 않았습니다. 다음 이미지는 SQL Server 구성 관리자를 보여줍니다.

PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

그림 2


Polybase를 설치하려면 SQL 설정을 다시 실행하고 기능 선택 창에서 다음 요소를 선택해야 했습니다.

  • 외부 데이터용 PolyBase 쿼리 서비스
  • HDFS 데이터 소스용 Java 커넥터

계속해서 SQL 설치 프로그램을 실행하고 다음 단계를 수행하여 PolyBasefeature를 설치하십시오. 다음을 계속 클릭합니다. 마지막 화면에 도달할 때까지. 그런 다음 설치 완료를 클릭합니다. 탭에서 진한 빨간색으로 강조 표시된 탭을 선택합니다.

  1. 설치를 클릭합니다. 사이드바에서 새 SQL Server 독립 실행형 설치 또는 기존 설치에 기능 추가를 선택합니다. .
PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

그림 3


<올 시작="2">
  • 설치 유형에 도달한 후 창에서 기존 인스턴스에 기능 추가를 선택합니다. , 드롭다운 메뉴에서 필요한 인스턴스를 선택합니다.
  • PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 4


    <올 시작="3">
  • 기능 선택에 도달한 후 창에서 PolyBase 기능을 선택합니다.
  • PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 5


    <올 시작="4">
  • Polybase 구성 창에서 이 SQL Server를 독립형 Polybase 지원 인스턴스로 사용을 선택합니다. .
  • PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 6


    1. 나머지 사이드바 옵션의 경우 기본값을 선택하고 설치를 클릭합니다. . Insyallation이 완료되면 다음 창이 표시됩니다.
    PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 7


    이 시점에서 SQL 구성 관리자에서 두 가지 기능이 더 설치되어 있음을 볼 수 있습니다. 그러나 Polybase가 SSMS에 설치되지 않았습니다라는 오류 메시지가 계속 표시될 수 있습니다. Polybase를 활성화하는 동안. 이 문제를 해결하려면 Polybase를 설치한 후 서버를 다시 시작하세요.

    PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 8


    2. SQL Polybase 활성화

    PolyBase를 활성화하려면 다음 단계를 실행하십시오.

    1. SSMS에서 SQL Server에 연결하고 다음 쿼리를 실행하여 Polybase가 성공적으로 설치되었는지 확인합니다.

       SELECT SERVERPROPERTY ('IsPolyBaseInstalled') AS IsSuccessfullyInstalled;
      

      다음 이미지는 성공적인 설치에 대한 출력을 보여줍니다.

    PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 9

    <올 시작="2">
  • 다음 쿼리를 실행하여 Polybase를 활성화하십시오.

     EXEC sp_configure 'polybase enabled', 1;
     Go
    
  • 다음 쿼리를 실행하십시오.

     Reconfigure
    

    이 쿼리는 중요합니다. 이 단계가 없으면 이 시리즈의 3부에서 다룬 단계에서 외부 파일 형식을 만드는 동안 오류가 나타날 수 있습니다.

  • PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 10


    3. Azure Storage 계정 만들기

    Azure Storage 계정을 만들려면 다음 단계를 수행하세요.

    1. 자격 증명을 사용하여 Azure Portal에 로그인합니다.

    2. Azure Storage 계정 서비스를 검색하고 다음 단계를 수행하여 스토리지 계정을 만듭니다. 다음을 계속 클릭합니다. 마지막 화면에 도달할 때까지. 그런 다음 검토 및 만들기 옵션. 진한 빨간색으로 강조 표시된 탭을 선택하십시오.

    3. Azure Portal 검색 창에서 , Azure Storage 계정을 선택합니다. + 추가를 클릭합니다. 새 저장소 계정을 만듭니다.

    PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 11


    <올 시작="4">
  • 기본 탭에서 필요한 세부정보를 입력하고 다음:네트워킹을 클릭합니다. .
  • PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 12


    1. 네트워킹에 대한 기본 설정 유지 , 데이터 보호 , 고급 , 및 태그 화면.

    2. 그런 다음 검토+만들기를 클릭합니다. 확인이 성공하면 탭 만들기를 클릭합니다. 다음 이미지와 같이 스토리지 계정을 생성합니다.

    PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 13

    <올 시작="7">
  • 배포에 성공하면 리소스로 이동을 클릭합니다. , createdstorage 계정으로 이동합니다.
  • PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 14


    4. Azure 컨테이너 만들기

    Azure 컨테이너를 만들려면 생성된 Azure 저장소 계정으로 이동하여 컨테이너를 클릭합니다. 왼쪽 창에서 +컨테이너를 클릭합니다. .

    PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 15


    5. 컨테이너에 데이터 파일 배치

    이 단계에서 텍스트 데이터 파일을 생성하여 컨테이너에 업로드합니다.

    1. 다음 파일과 유사한 텍스트 파일 생성:
    PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 16


    참고 :CSV, Excel® 또는 기타 외부 데이터 소스를 사용할 수도 있습니다. 그러나 외부 데이터 원본에 따라 몇 가지 추가 단계를 수행해야 합니다. 예를 들어 CSV 또는 Excel 데이터 원본의 경우 SQL Server에 적절한 드라이버를 설치하고 ODBC DSN(데이터 원본 이름)에 연결 속성을 추가해야 합니다. Microsoft ODBCData Source Administrator를 사용하여 ODBC DSN을 만들고 구성할 수 있습니다.

    <올 시작="2">
  • 만든 컨테이너, 폴리 기반 emocontainer로 이동합니다. , 업로드를 클릭합니다. , 오른쪽에 있는 폴더 아이콘을 클릭하고 업로드할 파일을 선택합니다.
  • PolyBase를 통한 통합 데이터 플랫폼 및 데이터 가상화:1부

    그림 17


    다음 단계

    PolyBase 데모의 전제 조건을 성공적으로 완료했습니다.2부에서는 데모를 제공합니다.

    피드백 탭을 사용하여 의견을 작성하거나 질문하십시오. 저희와 대화를 시작할 수도 있습니다.