Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

Python의 PDF에서 하이퍼링크 추출

<시간/>

Python에는 다양한 유형의 작업을 처리하기 위한 대규모 라이브러리 세트가 있습니다. PDF에서 데이터와 메타 정보를 추출하기 위해 PyPdf2 패키지를 사용합니다. 사용하기 쉽고 PDF에서 데이터 추출, 문서에서 키워드 검색, 하이퍼링크, URL 및 기타 정보 찾기와 같은 메타 정보 추출과 같은 다양한 작업 또는 툴킷이 있습니다. PyPDF2 패키지를 사용하여 pdf 문서에서 하이퍼링크를 추출합니다.

다음 단계에 따라 PDF에서 하이퍼링크를 추출합니다.

  • pip install PyPDF2를 입력하여 로컬 컴퓨터에 PyPDF2를 설치합니다. 명령 셸에서.

  • PyPDF2를 가져옵니다.

  • 바이너리 모드에서 파일 열기 파일의 URL 패턴을 인식합니다.

  • 링크를 추출하는 함수 정의 특정 페이지에 대해.

  • 모든 페이지를 반복하고 extractText()를 사용하여 텍스트를 추출합니다. 기능.

  • PDF에서 하이퍼링크를 추출하기 위해 일반적으로 Python에서 패턴 일치 개념을 사용합니다. 이제 다시 가져오기 정규식을 사용하여 패턴을 찾습니다.

  • findall(regex, string)을 사용하여 https:// 또는 https://와 일치하는 패턴 찾기 .

  • URL이 발견되면 URL을 반환하고 화면에 인쇄하십시오.

예시

# Import necessary packages
import PyPDF2
import re
# Open The File in the Command
file = open("newfile.pdf", 'rb')
readPDF = PyPDF2.PdfFileReader(file)
def find_url(string):
   #Find all the String that matches with the pattern
   regex = r"(https?://\S+)"
   url = re.findall(regex,string)
   for url in url:
      return url
# Iterating over all the pages of File
for page_no in range(readPDF.numPages):
   page=readPDF.getPage(page_no)
   #Extract the text from the page
   text = page.extractText()
   # Print all URL
   print(find_url(text))
# CLost the file
file.close()

출력

위의 코드를 실행하면 주어진 PDF 문서 파일에서 사용 가능한 모든 하이퍼링크가 인쇄됩니다.

Python의 PDF에서 하이퍼링크 추출