Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

Python에서 웹 페이지의 데이터를 구문 분석하는 데 BeautifulSoup 패키지를 어떻게 사용할 수 있습니까?


BeautifulSoup은 웹 페이지에서 데이터를 구문 분석하는 데 사용되는 타사 Python 라이브러리입니다. 다양한 리소스에서 데이터를 추출, 사용 및 조작하는 프로세스인 웹 스크래핑에 도움이 됩니다.

웹 스크래핑은 또한 연구 목적으로 데이터를 추출하고, 시장 동향을 이해/비교하고, SEO 모니터링을 수행하는 데 사용할 수 있습니다.

아래 줄을 실행하여 Windows에 BeautifulSoup을 설치할 수 있습니다. −

pip install beautifulsoup4

예시를 보자 -

예시

import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib
url = 'https://en.wikipedia.org/wiki/Algorithm'
html = urlopen(url).read()
print("Reading the webpage...")
soup = BeautifulSoup(html, features="html.parser")
print("Parsing the webpage...")
for script in soup(["script", "style"]):
   script.extract() # rip it out
print("Extracting text from the webpage...")
text = soup.get_text()
print("Data cleaning...")
lines = (line.strip() for line in text.splitlines())
chunks = (phrase.strip() for line in lines for phrase in line.split(" "))
text = '\n'.join(chunk for chunk in chunks if chunk)
text = str(text)
print(text)

출력

Reading the webpage...
Parsing the webpage...
Extracting text from the webpage...
Data cleaning...
Recursive C implementation of Euclid's algorithm from the above flowchart
Recursion
A recursive algorithm is one that invokes (makes reference to) itself repeatedly until a certain condition (also known as termination condition) matches, which is a method common to functional programming….
…..
Developers
Statistics
Cookie statement

설명

  • 필수 패키지를 가져오고 별칭을 지정합니다.

  • 웹사이트가 정의됩니다.

  • url이 열리고 'script' 태그 및 기타 관련 없는 HTML 태그가 제거됩니다.

  • 'get_text' 함수는 웹페이지 데이터에서 텍스트를 추출하는 데 사용됩니다.

  • 여분의 공백과 잘못된 단어는 제거됩니다.

  • 텍스트가 콘솔에 인쇄됩니다.