Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

AWS Glue에 있는 모든 작업을 통해 페이지를 매기기 위해 Boto3를 사용하는 방법

<시간/>

이 기사에서는 AWS Glue에 있는 모든 작업을 페이지로 나누는 방법을 살펴보겠습니다.

문제 설명: boto3 사용 계정에서 생성된 AWS Glue 데이터 카탈로그의 작업을 통해 페이지를 매기기 위한 Python 라이브러리

이 문제를 해결하기 위한 접근 방식/알고리즘

  • 1단계: boto3 가져오기 및 보토코어 예외를 처리하는 예외.

  • 2단계: 최대_항목 , page_sizestarting_token 이 함수의 선택적 매개변수입니다.

    • 최대_항목 반환할 총 레코드 수를 나타냅니다. 사용 가능한 레코드의 수> max_items인 경우 그런 다음 NextToken 페이지 매김 재개에 대한 응답으로 제공됩니다.

    • 페이지 크기 각 페이지의 크기를 나타냅니다.

    • starting_token 페이지 매김을 돕고 NextToken을 사용합니다. 이전 응답에서.

  • 3단계: boto3 lib를 사용하여 AWS 세션 생성 . region_name을(를) 확인하십시오. 기본 프로필에 언급되어 있습니다. 언급되지 않은 경우 region_name을 명시적으로 전달합니다. 세션을 만드는 동안.

  • 4단계: 글루용 AWS 클라이언트를 생성합니다.

  • 5단계: 페이지네이터 만들기 get_jobs를 사용하는 모든 크롤러의 세부정보가 포함된 개체

  • 5단계: 페이지 매김 기능을 호출하고 max_items 전달 , page_sizestarting_token PaginationConfig로 매개변수

  • 6단계: max_size를 기준으로 레코드 수를 반환합니다. 및 page_size .

  • 7단계: 페이지를 매기는 동안 문제가 발생한 경우 일반 예외를 처리합니다.

예시 코드

다음 코드를 사용하여 사용자 계정에서 생성된 모든 작업을 통해 페이지 매김 -

import boto3
from botocore.exceptions import ClientError

def paginate_through_jobs(max_items=None:int,page_size=None:int, starting_token=None:string):
   session = boto3.session.Session()
   glue_client = session.client('glue')
   try:
   paginator = glue_client.get_paginator('get_jobs')
      response = paginator.paginate(PaginationConfig={
         'MaxItems':max_items,
         'PageSize':page_size,
         'StartingToken':starting_token}
       )
   return response
   except ClientError as e:
      raise Exception("boto3 client error in paginate_through_jobs: " + e.__str__())
   except Exception as e:
      raise Exception("Unexpected error in paginate_through_jobs: " + e.__str__())
a = paginate_through_jobs(2,5)
print(*a)

출력

{'Jobs': [{'Name': 'PythonShellTest1', 'Role': 'arn:aws:iam::7***********:role/dev-edl-glue-role', 'CreatedOn': datetime.datetime(2021, 1, 6, 19, 59, 19, 387000, tzinfo=tzlocal()), 'LastModifiedOn': datetime.datetime(2021, 2, 9, 21, 47, 31, 614000, tzinfo=tzlocal()), 'ExecutionProperty': {'MaxConcurrentRuns': 1}, 'Command':
{'Name': 'pythonshell', 'ScriptLocation': s3://pythonShellTest/test1/*', 'PythonVersion': '3'}, 'DefaultArguments': {'--job-bookmark-option': 'job-bookmark-disable', '--job-language': 'python'}, 'MaxRetries': 0, 'AllocatedCapacity': 0, 'Timeout': 2880, 'MaxCapacity': 0.0625, 'GlueVersion': '1.0'}, {'Name': 'pythonSHELL_14012021', 'Role': 'arn:aws:iam::7*************:role/dev-edl-glue-role', 'CreatedOn': datetime.datetime(2021, 1, 14, 20, 22, 40, 965000, tzinfo=tzlocal()), 'LastModifiedOn': datetime.datetime(2021, 1, 14, 20, 22, 40, 965000, tzinfo=tzlocal()), 'ExecutionProperty': {'MaxConcurrentRuns': 1}, 'Command': {'Name': 'pythonshell', 'DefaultArguments': {'--job-bookmark-option': 'job-bookmark-disable'}, 'MaxRetries': 0, 'AllocatedCapacity': 0, 'Timeout': 2880, 'MaxCapacity': 0.0625, 'GlueVersion': '1.0'}],
'NextToken': 'eyJleHBpcmF0aW9uIjp7InNlY29uZHMiOjE2MTc0NTUzOTYsIm5hbm9zIjo1MjUwMDAwMDB9LCJsYXN0RXZhbHVhdGVkS2V5Ijp7ImpvYk5hbWUiOnsicyI6IlRpY2tkYXRhLXBlcmZvcm1hbmNldGVzdC1qZXR0ZWxhIn0sImFjY291bnRJZCI6eyJzIjoiNzgyMjU4NDg1ODQxIn0sImpvYklkIjp7InMiOiJqXzkyZGQ5ZDNhMWRkOGY2NTJkYzA4MzNmMTM0ZTRiNDRhNmE0YzEzNWY0ZTYwZTkwNmYyOTBhY2NiZDZiMWIxZTcifX19',
'ResponseMetadata': {'RequestId': '3be6708e-*************-389', 'HTTPStatusCode': 200, 'HTTPHeaders': {'date': 'Fri, 02 Apr 2021 13:09:56 GMT', 'content-type': 'application/x-amz-json-1.1', 'content-length': '3182', 'connection': 'keep-alive', 'x-amzn-requestid': '3be6708e-*************-8389'}, 'RetryAttempts': 0}}