Python을 사용하여 PDF를 CSV로 변환

<시간/>

Python은 방대한 패키지 라이브러리로 잘 알려져 있습니다. 라이브러리의 도움으로 PDF를 CSV 파일로 변환하는 방법을 살펴보겠습니다. CSV 파일은 행과 열 집합과 함께 프레임이 지정된 데이터 모음일 뿐입니다. Python 라이브러리에는 PDF를 CSV로 변환하는 데 사용할 수 있는 다양한 패키지가 있지만 Tabula-py 모듈을 사용합니다. . tabula-py의 주요 부분은 먼저 PDF 문서를 읽고 Python DataFrame을 JSON 객체로 변환하는 Java로 작성되었습니다.

tabula-py를 사용하려면 시스템에 Java가 사전 설치되어 있어야 합니다. PDF 파일을 CSV로 변환하려면 다음 단계를 따르십시오 -

먼저 pip install tabula-py를 입력하여 필요한 패키지를 설치합니다. 명령 셸에서.
이제 read_pdf("file location", pages=number)를 사용하여 파일을 읽습니다. 기능. 그러면 DataFrame이 반환됩니다.
tabula.convert_into('pdf-filename', 'name_this_file.csv',output_format="csv", pages="all")를 사용하여 DataFrame을 Excel 파일로 변환합니다. . 일반적으로 pdf 파일을 엑셀 파일로 내보냅니다.

예시

이 예에서는 IPL 경기 일정 문서를 사용했습니다. Excel 파일로 변환합니다.

# Import the required Module
import tabula
# Read a PDF File
df = tabula.read_pdf("IPLmatch.pdf", pages='all')[0]
# convert PDF into CSV
tabula.convert_into("IPLmatch.pdf", "iplmatch.csv", output_format="csv", pages='all')
print(df)

출력

위 코드를 실행하면 PDF 파일이 엑셀(CSV) 파일로 변환됩니다.

Python을 사용하여 PDF를 CSV로 변환