Computer >> 컴퓨터 >  >> 프로그램 작성 >> Python

Python에서 BeautifulSoup을 사용하여 빈 태그를 제거하는 방법은 무엇입니까?


BeautifulSoup은 HTML 및 XML 파일에서 데이터를 가져오는 파이썬 라이브러리입니다. BeautifulSoup을 사용하여 HTML 또는 XML 문서에 있는 빈 태그를 제거하고 추가로 주어진 데이터를 사람으로 변환할 수 있습니다. 읽을 수 있는 파일입니다.

먼저 pip install beautifulsoup4 명령을 사용하여 로컬 환경에 BeautifulSoup 라이브러리를 설치합니다.

예시

#Import the BeautifulSoup library

from bs4 import BeautifulSoup

#Get the html document
html_object = """
<p>Python is an interpreted, high-level and general-purpose
programming language. Python's design
philosophy emphasizes code readability with its notable use of
significant indentation.</p>
"""

#Let us create the soup for the given html document
soup = BeautifulSoup(html_object, "lxml")

#Iterate over each line of the document and extract the data
for x in soup.find_all():
   if len(x.get_text(strip=True)) == 0:
      x.extract()

print(soup)

출력

위의 코드를 실행하면 출력이 생성되고 빈 태그를 제거하여 주어진 HTML 문서를 사람이 읽을 수 있는 코드로 변환합니다.

<html><body><p>Python is an interpreted, high−level and general−purpose programming
language. Python's design
philosophy emphasizes code readability with its notable use of significant indentation.</p>
</body></html>