Computer >> 컴퓨터 >  >> 네트워킹 >> 인터넷

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

웹 페이지에서 복사하여 붙여넣고 수동으로 스프레드시트에 넣는 경우 데이터 스크래핑(또는 웹 스크래핑)이 무엇인지 모르거나 그것이 무엇인지는 알지만 실제로는 관심이 없습니다. 클릭 몇 시간을 절약하기 위해 코딩하는 방법을 배웁니다.

어느 쪽이든 도움이 될 수 있는 코드 없는 데이터 스크래핑 도구가 많이 있으며 Data Miner의 Chrome 확장 프로그램은 보다 직관적인 옵션 중 하나입니다. 운이 좋다면 하려고 하는 작업이 이미 도구의 레시피 북에 포함되어 있으므로 직접 만드는 것과 관련된 포인트 앤 클릭 단계를 거칠 필요도 없습니다.

데이터 마이너는 어떻게 작동합니까?

Data Miner는 로드한 페이지의 텍스트를 살펴봄으로써 웹 페이지에서 데이터를 가져오고 멋진 형식의 Excel/CSV 파일로 변환하는 데 도움이 됩니다. 즉, 몇 가지 패턴을 인식할 수 있을 만큼 HTML에 익숙해져야 하지만 너무 광범위하지 않아야 합니다. 고급 HTML 및/또는 JavaScript 기술은 일부 작업에 확실히 도움이 되지만 대부분의 작업에는 필요하지 않습니다. 또한 최소한의 기본적인 스프레드시트 기술이 있어야 출력물이 깔끔하고 체계적으로 정리될 수 있습니다.

1. 데이터 마이너 설정

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

Chrome 또는 다른 Chromium 브라우저를 사용하여 확장 프로그램을 설치합니다. 확장 프로그램의 곡괭이 아이콘이 도구 모음에 표시되며 이를 클릭하면 계정을 설정할 수 있는 페이지로 이동합니다. 무료 버전은 한 달에 500개의 스크랩을 제공합니다. 매일 하는 것이 아니라면 충분할 것입니다.

2. 데이터 로드

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

먼저 데이터를 추출할 페이지로 이동합니다. 여러 페이지의 데이터가 있거나 그 중 일부가 버튼 뒤에 숨겨져 있어도 괜찮습니다. 이를 처리할 방법이 있습니다. 지금은 대표 샘플만 있으면 프로그램에서 무엇을 찾아야 하는지 알 수 있습니다.

3. 레시피 확인

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

그런 다음 Data Miner를 열고 기존 레시피의 "공개" 탭을 확인합니다. 인기 있는 사이트에 있는 경우 다른 사람이 이미 찾고 있는 데이터를 가져오는 프로세스를 만들었을 수 있으므로 상당한 시간을 절약할 수 있습니다. 예를 들어 Google, Amazon 및 Twitter와 같은 사이트에는 링크, 가격, 텍스트 및 기타 데이터를 즉시 다운로드하는 데 도움이 되는 많은 레시피가 있습니다. Data Miner가 생성하는 스프레드시트의 미리보기를 보기 위해 "실행" 버튼을 클릭하여 레시피를 테스트할 수 있습니다. "편집" 버튼을 눌러 필요에 맞게 기존 레시피를 수정할 수도 있습니다.

4. 페이지 유형

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

알겠습니다. 미리 만들어진 레시피가 적합하지 않습니다. 괜찮습니다. 직접 만들 수 있습니다. 시작하려면 "새 레시피" 버튼을 클릭하기만 하면 됩니다.

첫 번째 선택은 "목록 페이지" 또는 "세부 정보 페이지"입니다.

한 페이지에서 여러 행의 데이터를 가져오려면 "목록 페이지"를 선택하십시오. 예를 들어, 모든 검색 결과의 링크와 페이지 제목을 다운로드하거나 피드에 있는 게시물의 날짜와 콘텐츠를 가져올 수 있습니다. 이것은 아마도 가장 일반적인 유형이며 여기에서 데모로 사용할 것입니다. (상세 페이지의 단계는 기본적으로 동일합니다.)

가격, 설명, 링크, 평점을 가져와 한 행에 모두 넣어야 하는 제품 페이지와 같이 한 페이지에 한 항목에 대한 다양한 정보가 있는 경우 '세부정보 페이지'를 선택하세요. .

5단계:행 만들기

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

"찾기" 버튼을 누르고 노란색 선택 상자가 최종 스프레드시트에 단일 항목을 입력하는 데 필요한 모든 데이터를 덮을 때까지 마우스를 이동합니다. 예를 들어 검색 결과를 다운로드하는 경우 제목, URL 및 설명을 포함할 수 있을 만큼 충분히 큰 영역을 강조 표시해야 합니다. 각 영역은 다음 단계에서 별도의 열에 넣을 수 있습니다. 선택하려면 Shift를 누르십시오. 열쇠. 실수로 클릭하더라도 걱정하지 마세요. Data Miner는 페이지를 벗어나더라도 모든 레시피 진행 상황을 저장합니다.

그런 다음 "요소의 클래스" 또는 "HTML 요소 유형" 섹션에 있는 상자 중 하나 이상을 선택하고 싶을 것입니다. 이상적으로는 선택한 것과 동일한 카테고리에 있는 페이지의 모든 요소를 ​​포함하는 선택 복제가 표시됩니다.

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

선택기가 필요한 모든 것을 다루지 못한다면 요소 중 하나만 선택하고 "상위 선택"을 눌러보십시오. 이렇게 하면 상자가 더 커지고 필요한 모든 것을 캡처할 수 있습니다. 그렇지 않은 경우 HTML을 조금 파고 필요한 요소의 클래스와 유형을 식별해야 할 수도 있습니다. 확실하지 않은 경우 상자가 두 개 이상의 목록 항목을 포함하지 않고 최대한 커질 때까지 "상위 선택"을 누르십시오. 이렇게 하면 열을 선택할 때 더 많은 유연성을 얻을 수 있습니다.

Data Miner는 하단에 "요소의 HTML 보기" 옵션을 제공하고 사용자 지정 선택기를 입력할 수도 있습니다. "product" 클래스가 있는 페이지의 모든 링크를 가져오려면 a.product를 입력하면 됩니다. . 여기에서 몇 가지 기본적인 HTML/CSS 지식이 실제로 유용할 것입니다.

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

기본 행 메뉴로 돌아가면 레시피가 스프레드시트에 생성할 항목 수와 함께 "행 수"가 표시되어야 합니다. 모든 것을 포착하지 못한다면 행 선택을 다시 확인해야 합니다.

6. 데이터를 열로 분할

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

행에 대해 모든 데이터를 선택했으면 데이터를 다른 열 범주로 세분화하여 보기 좋게 만들 차례입니다. 여기에서 선택하는 모든 항목은 행에 대해 선택한 상자의 하위 섹션이어야 합니다.

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

열을 만들려면 열 이름을 입력하고 찾기 버튼을 사용하여 추출하려는 항목을 선택하십시오. 행에 대해 수행한 것과 동일합니다. 가장 일반적인 데이터는 아마도 텍스트, URL 또는 이미지 URL일 것입니다. 텍스트 링크 위로 마우스를 가져가서 URL을 가져오는 것은 약간 까다로울 수 있습니다. 요소 유형이 <a>인 수준에 도달할 때까지 "상위 선택"을 눌러야 할 수도 있습니다. , 링크용 HTML 태그입니다.

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

열에 올바른 종류의 데이터가 있는지 확인하려면 각 열 이름 오른쪽에 있는 눈 모양 아이콘을 누르세요. 선택한 열의 수를 나타내는 숫자 옆에 있습니다. 그러면 해당 열에 대한 모든 행 항목의 미리보기가 표시됩니다. 문제가 있는 경우 뒤로 돌아가서 행을 식별하기 위해 선택한 태그와 유형을 조정합니다. HTML 뷰어를 열고 가져오려는 데이터와 관련된 패턴을 확인하는 것을 두려워하지 마십시오.

7. Data Miner에게 다음 페이지로 이동하는 방법을 알려주세요.

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

추출할 데이터 페이지가 여러 개인 경우 모든 페이지를 클릭하고 레시피를 계속해서 실행하고 싶지는 않을 것입니다. 이 문제를 해결하려면 Data Miner에게 다음 페이지로 이동하기 위해 클릭해야 하는 탐색 버튼을 찾을 수 있는 위치를 알려주십시오. "Page 2"와 같은 항목을 클릭하라고 말하지 않도록 주의하십시오. 그러면 페이지 2로 이동합니다. 다시 말하지만 <a>를 선택하고 있는지 확인하세요. 요소를 찾고 테스트 탐색 버튼을 사용하여 작동하는지 확인하세요.

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

8. 데이터를 로드하기 위해 클릭하거나 스크롤할 위치를 Data Miner에게 알려줍니다.

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

일부 페이지는 무언가를 클릭하거나 아래로 스크롤할 때까지 데이터를 로드하지 않습니다. 운 좋게도 Data Miner는 이러한 작업도 수행할 수 있습니다! 상단에 있는 "찾기" 도구를 사용하여(지금쯤이면 꽤 능숙해질 것입니다) 조작해야 하는 요소를 선택한 다음 선택기를 적절한 상자에 넣고 작동하는지 테스트합니다.

요소 또는 무한 스크롤바를 활성화할 선택기를 정확히 파악하는 것은 까다로울 수 있지만 기본 HTML 지식과 약간의 시행착오를 통해 여기까지 도달할 수 있습니다. 여기에서 조작해야 하는 대부분의 항목은 JavaScript 기반이지만 Data Miner는 이를 활성화하기 위한 작업과 관련된 CSS 선택기만 알면 되므로 대부분의 경우 코드를 엉망으로 만들 필요가 없습니다.

다음 단계에서는 사용자 정의 JS를 추가하여 원하는 모든 작업을 수행할 수도 있습니다. 하지만 이는 상당히 고급이며 기본 스크래핑에 필요한 것 이상입니다.

9. 레시피 저장 및 실행

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

축하합니다! 이제 모두 합쳐졌는지 확인할 차례입니다. 현재 있는 페이지에서 레시피를 실행하고 미리보기를 확인하여 행과 열이 제대로 작동하는지 확인하세요. 그렇지 않은 경우 돌아가서 레시피를 편집할 수 있습니다.

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

모든 것이 제대로 작동하는 경우 "다음 페이지" 버튼을 사용하여 스크레이퍼에게 크롤링해야 하는 페이지 수와 속도를 알릴 수 있습니다. /P>

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

필요한 모든 데이터가 있으면 다운로드에 사용할 파일 형식을 선택할 수 있습니다.

데이터 스크래핑 도구를 사용하여 웹페이지에서 데이터를 추출하는 방법

문제가 있습니다. 더 쉬운 방법이 있습니까?

Data Miner 프로그램이 제대로 작동하지 않는 경우 ParseHub, Scraper, Octoparse, Import.io, VisualScraper 등의 다른 데이터 스크래핑 도구를 사용할 수 있습니다. 그 중 일부는 더 직관적인 인터페이스와 더 많은 자동화를 제공할 수 있습니다. 그러나 HTML과 웹이 구성되는 방식에 대해 최소한 약간은 알고 있어야 합니다. Data Miner를 초보자에게 특히 유용하게 만드는 것은 크라우드소싱된 레시피 라이브러리로, 코드와의 가장 사소한 만남을 방지하는 데 잠재적으로 도움이 될 수 있습니다. 이는 상당히 관대한 무료 월간 스크랩 패키지와 결합되어 대부분의 요구 사항에 매우 적합한 도구입니다.