Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

BeautifulSoup 패키지를 사용하여 Python에서 웹 사이트의 도메인 이름을 추출하는 방법은 무엇입니까?


BeautifulSoup은 웹 페이지에서 데이터를 구문 분석하는 데 사용되는 타사 Python 라이브러리입니다. 다양한 리소스에서 데이터를 추출, 사용 및 조작하는 프로세스인 웹 스크래핑에 도움이 됩니다. 또한 자연어 처리 응용 프로그램의 개발자를 돕고 데이터를 분석하고 데이터에서 의미 있는 통찰력을 추출합니다.

자연어 처리(NLP)는 텍스트 데이터와 이를 기계 학습 문제에 대한 입력으로 제공하기 위해 사전 처리하는 방법을 다루는 기계 학습의 일부입니다.

웹 스크래핑은 또한 연구 목적으로 데이터를 추출하고, 시장 동향을 이해/비교하고, SEO 모니터링을 수행하는 데 사용할 수 있습니다.

아래 줄을 실행하여 Windows에 BeautifulSoup을 설치할 수 있습니다. −

예시

pip install beautifulsoup4
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib

url = 'https://en.wikipedia.org/wiki/Algorithm'
parsed_uri = urllib.request.urlparse(url)
domainName = '{uri.scheme}://{uri.netloc}/'.format(uri=parsed_uri)
print("The domain name is : ")
print(domainName)

출력

The domain name is :
https://en.wikipedia.org/

설명

  • 필수 패키지를 가져오고 별칭을 지정합니다.

  • 웹사이트가 정의됩니다.

  • 도메인 이름은 'netloc' 및 'scheme' 기능을 사용하여 결정됩니다.

  • 'urlparse' 함수를 호출하여 도메인 이름을 가져옵니다.

  • 도메인 이름은 콘솔에 인쇄되어 있습니다.