Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

BeautifulSoup을 사용하여 웹 페이지의 제목을 어떻게 추출할 수 있습니까?


BeautifulSoup은 웹 페이지에서 데이터를 구문 분석하는 데 사용되는 타사 Python 라이브러리입니다. 자연어 처리 애플리케이션의 개발자를 돕고, 데이터를 분석하고, 데이터에서 의미 있는 통찰력을 추출하는 데 도움이 됩니다.

자연어 처리(NLP)는 텍스트 데이터와 이를 기계 학습 문제에 대한 입력으로 제공하기 위해 사전 처리하는 방법을 다루는 기계 학습의 일부입니다.

웹 스크래핑은 또한 연구 목적으로 데이터를 추출하고, 시장 동향을 이해/비교하고, SEO 모니터링을 수행하는 데 사용할 수 있습니다.

아래 줄을 실행하여 Windows에 BeautifulSoup을 설치할 수 있습니다. −

pip install beautifulsoup4

다음은 예입니다 -

예시

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The titles are :")
print(soup.title)

출력

The titles are :
<title>Algorithm − Wikipedia

설명

  • 필수 패키지를 가져오고 별칭을 지정합니다.

  • 웹사이트가 정의됩니다.

  • URL이 열리고 데이터가 읽힙니다.

  • 'BeautifulSoup' 기능은 웹 페이지에서 텍스트를 추출하는 데 사용됩니다.

  • 제목은 'title' 속성을 사용하여 추출됩니다.

  • 제목은 콘솔에 인쇄됩니다.