Python에는 다양한 유형의 작업을 처리하기 위한 대규모 라이브러리 세트가 있습니다. PDF에서 데이터와 메타 정보를 추출하기 위해 PyPdf2 패키지를 사용합니다. 사용하기 쉽고 PDF에서 데이터 추출, 문서에서 키워드 검색, 하이퍼링크, URL 및 기타 정보 찾기와 같은 메타 정보 추출과 같은 다양한 작업 또는 툴킷이 있습니다. PyPDF2 패키지를 사용하여 pdf 문서에서 하이퍼링크를 추출합니다.
다음 단계에 따라 PDF에서 하이퍼링크를 추출합니다.
-
pip install PyPDF2를 입력하여 로컬 컴퓨터에 PyPDF2를 설치합니다. 명령 셸에서.
-
PyPDF2를 가져옵니다.
-
바이너리 모드에서 파일 열기 파일의 URL 패턴을 인식합니다.
-
링크를 추출하는 함수 정의 특정 페이지에 대해.
-
모든 페이지를 반복하고 extractText()를 사용하여 텍스트를 추출합니다. 기능.
-
PDF에서 하이퍼링크를 추출하기 위해 일반적으로 Python에서 패턴 일치 개념을 사용합니다. 이제 다시 가져오기 정규식을 사용하여 패턴을 찾습니다.
-
findall(regex, string)을 사용하여 https:// 또는 https://와 일치하는 패턴 찾기 .
-
URL이 발견되면 URL을 반환하고 화면에 인쇄하십시오.
예시
# Import necessary packages import PyPDF2 import re # Open The File in the Command file = open("newfile.pdf", 'rb') readPDF = PyPDF2.PdfFileReader(file) def find_url(string): #Find all the String that matches with the pattern regex = r"(https?://\S+)" url = re.findall(regex,string) for url in url: return url # Iterating over all the pages of File for page_no in range(readPDF.numPages): page=readPDF.getPage(page_no) #Extract the text from the page text = page.extractText() # Print all URL print(find_url(text)) # CLost the file file.close()
출력
위의 코드를 실행하면 주어진 PDF 문서 파일에서 사용 가능한 모든 하이퍼링크가 인쇄됩니다.