Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

Python을 사용하여 PDF 파일을 Excel 파일로 변환하는 방법은 무엇입니까?

<시간/>

Python에는 다양한 유형의 작업을 처리하기 위한 대규모 라이브러리 세트가 있습니다. 이 기사를 통해 pdf 파일을 Excel 파일로 변환하는 방법을 살펴보겠습니다. python에서 pdf를 CSV로 변환하는 데 사용할 수 있는 다양한 패키지가 있지만 우리는 Tabula-py 모듈을 사용할 것입니다. tabula-py의 주요 부분은 pdf 문서를 읽고 python DataFrame을 JSON 객체로 변환하는 Java로 작성되었습니다.

tabula-py를 사용하려면 시스템에 Java가 사전 설치되어 있어야 합니다. 이제 pdf 파일을 csv로 변환하기 위해 다음 단계를 따릅니다.

  • 먼저 pip install tabula-py를 입력하여 필요한 패키지를 설치합니다. 명령 셸에서.

  • 이제 read_pdf("file location", pages=number)를 사용하여 파일을 읽습니다. 기능. 그러면 DataFrame이 반환됩니다.

  • tabula.convert_into('pdf-filename', 'name_this_file.csv',output_format="csv", pages="all")를 사용하여 DataFrame을 Excel 파일로 변환합니다. . 일반적으로 pdf 파일을 Excel 파일로 내보냅니다.

예시

이 예에서는 IPL 경기 일정 문서를 사용했습니다. 엑셀 파일로 변환합니다.

# Import the required Module
import tabula
# Read a PDF File
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# convert PDF into CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df)

출력

위 코드를 실행하면 pdf 파일이 엑셀(csv) 파일로 변환됩니다.

Python을 사용하여 PDF 파일을 Excel 파일로 변환하는 방법은 무엇입니까?