Python lxml을 사용하여 웹 스크래핑 구현

<시간/>

이 기사에서는 Python에서 사용할 수 있는 lxml 모듈을 사용하여 웹 스크래핑 기술에 대해 알아봅니다.

웹 스크래핑이란 무엇입니까?

웹 스크래핑은 크롤러/스캐너를 통해 웹사이트에서 데이터를 얻거나 얻는 데 사용됩니다. 웹 스크래핑은 API 기능을 제공하지 않는 웹 페이지에서 데이터를 추출하는 데 유용합니다. Python에서는 Beautiful Soup, Scrappy 및 lxml과 같은 다양한 모듈을 사용하여 웹 스크랩핑을 수행할 수 있습니다.

여기에서는 lxml 모듈을 사용한 웹 스크래핑에 대해 설명합니다.

이를 위해 먼저 lxml을 설치해야 합니다. .

터미널 또는 명령 프롬프트를 입력하십시오 -

>>> pip install lxml

여기서 xpath는 데이터에 액세스하는 데 사용됩니다.

이 기사에서는 다양한 게임에 대한 정보가 포함된 Steam이라는 웹사이트에서 데이터를 추출합니다.

https://store.steampowered.com/genre/Free%20to%20Play/

페이지에서 인기 있는 새 릴리스 섹션에서 정보를 추출하려고 합니다.

여기에서 이름, 가격, 연결된 태그 및 대상 플랫폼을 추출합니다.

Python lxml을 사용하여 웹 스크래핑 구현

페이지에서 chrome의 요소 검사 기능을 사용하여 새 릴리스 탭의 html 코드를 참조하십시오. 여기서 우리는 어떤 태그가 필요한 정보를 저장하고 있는지 알게 될 것입니다.

여기 이 웹사이트에서; 모든 목록 요소는 div 태그 id=tab_content에 캡슐화되며 이는

에 추가로 캡슐화됩니다.

a div tag id=tab_select_newreleases

이제 구현을 살펴보겠습니다.