BeautifulSoup은 웹 페이지에서 데이터를 구문 분석하는 데 사용되는 타사 Python 라이브러리입니다. 다양한 리소스에서 데이터를 추출, 사용 및 조작하는 프로세스인 웹 스크래핑에 도움이 됩니다.
웹 스크래핑은 또한 연구 목적으로 데이터를 추출하고, 시장 동향을 이해/비교하고, SEO 모니터링을 수행하는 데 사용할 수 있습니다.
아래 줄을 실행하여 Windows에 BeautifulSoup을 설치할 수 있습니다. −
pip install beautifulsoup4
다음은 예입니다 -
예시
from bs4 import BeautifulSoup import requests url = "https://en.wikipedia.org/wiki/Algorithm" req = requests.get(url) soup = BeautifulSoup(req.text, "html.parser") print("The href links are :") for link in soup.find_all('a'): print(link.get('href'))
출력
The href links are : … https://stats.wikimedia.org/#/en.wikipedia.org https://foundation.wikimedia.org/wiki/Cookie_statement https://wikimediafoundation.org/ https://www.mediawiki.org/
설명
-
필수 패키지를 가져오고 별칭을 지정합니다.
-
웹사이트가 정의됩니다.
-
URL이 열리고 데이터가 읽힙니다.
-
'BeautifulSoup' 기능은 웹 페이지에서 텍스트를 추출하는 데 사용됩니다.
-
'find_all' 함수는 웹페이지 데이터에서 텍스트를 추출하는 데 사용됩니다.
-
href 링크는 콘솔에 인쇄됩니다.