웹 스크래핑 또는 자동 데이터 추출은 개인과 기업 모두에게 매우 유용한 도구가 될 수 있습니다. 웹 스크래핑은 수동으로 수행할 수 있지만 순식간에 엄청나게 지루한 작업이 될 수 있습니다. 프로세스 속도를 높이려면 사용자가 Octoparse에서 제공하는 것과 같은 웹 스크래핑 도구를 사용하는 것이 좋습니다. 이 회사는 최근 소프트웨어의 새 버전(8.4)을 출시하여 여러 가지 개선 사항을 가져왔습니다. 이 기사에서는 Octoparse 8.4가 테이블에 어떤 기능을 제공하는지 자세히 살펴봅니다.
참고:이것은 후원 기사이며 Octoparse에서 가능했습니다. 실제 내용과 의견은 협찬을 받아도 편집의 독립성을 유지하는 작성자의 단독 견해입니다.
Octoparse 8.4에 대해 알아보기
Octoparse는 기능이 풍부한 사용하기 쉬운 웹 스크래핑 도구입니다. 사용자가 많은 노력 없이 즉시 웹 스크래핑을 시작할 수 있는 일련의 편리한 템플릿이 함께 제공됩니다. Octoparse는 코딩 지식이 필요하지 않으므로 누구나 데이터 마이닝 소프트웨어를 사용할 수 있습니다.
그러나 이 프로그램을 최대한 활용하려면 고려해야 할 일관된 학습 곡선이 있습니다. 다행스럽게도 Octoparse는 다양한 작업을 즉시 수행하는 방법에 대한 교육을 받을 수 있도록 광범위한 자습서 라이브러리를 제공합니다.
Octoparse 8.4는 공식 웹사이트에서 Windows(7, 8, 10) 또는 macOS(10.10 이상) 사용자가 사용할 수 있습니다. Windows XP 또는 x32 시스템을 사용하는 경우 이전 Octoparse 7.3.0 버전을 다운로드해야 합니다.
Octoparse 8.4로 무엇을 할 수 있습니까?
Octoparse를 사용하면 Amazon, eBay, Target, Walmart 등과 같은 주요 전자 상거래 웹사이트에서 제품 데이터를 비롯한 모든 종류의 데이터를 추출할 수 있습니다. 또한 이 도구는 Facebook, Twitter, Instagram, YouTube 등과 같은 주요 소셜 미디어 웹사이트를 대상으로 게시물, 댓글, 이미지 등을 가져올 수 있습니다.
Octoparse 8.4를 열면 바로 이러한 웹사이트를 대상으로 하는 일련의 템플릿을 찾을 수 있습니다. 예를 들어, Facebook 템플릿은 Facebook 계정 페이지의 각 게시물에 대한 댓글을 스크랩하도록 설계되었습니다. 시도해 보려면 파란색 "사용해 보기" 버튼을 누르기만 하면 됩니다.
또한 Octoparse를 사용하면 Booking 또는 TripAdvisor와 같은 웹사이트에서 호텔 가격, 평점 및 리뷰를 추적하거나 Yellow Pages, Yelp, Crunchbase 등과 같은 웹사이트에서 정보를 스크랩하여 특정 데이터베이스를 생성할 수 있습니다.
웹 스크래핑 프로세스가 완료되면 Octoparse 사용자는 결과를 Excel, HTML, TXT, CVS 또는 MySQL, SQL Server 및 Oracle과 같은 데이터베이스를 포함한 다양한 형식으로 내보낼 수 있습니다.
고급 모드로 작업
템플릿은 제쳐두고 Octoparse를 사용하면 모든 웹사이트에서 데이터를 스크랩할 수 있습니다. 작업을 설정하는 것은 매우 간단합니다. 새 버전에는 워크플로를 왼쪽에서 오른쪽으로 전환하는 새로운 레이아웃이 있습니다. 또한 모서리에 고급 설정 영역이 있어 사용자가 원하는 작업을 더 쉽게 정의할 수 있습니다.
전반적으로 인터페이스가 더 넓고 숨 쉴 공간이 충분한 것처럼 느껴집니다. 그렇더라도 Octoparse에서 작업할 때는 더 큰 모니터를 사용하는 것이 좋습니다. 업데이트에도 불구하고 표준 노트북에서는 여전히 약간 비좁은 느낌이 듭니다.
고급 모드에서는 관련 URL을 애플리케이션에 붙여넣어야 합니다.
다음으로 프로그램은 페이지를 자동으로 로드하고 관련 정보로 간주되는 정보를 추출합니다. 결과는 디스플레이 하단에 표시됩니다. 세 개의 점을 클릭한 다음 "삭제" 옵션을 선택하여 관심이 없는 필드를 제거할 수 있습니다.
최신 버전은 뛰어난 부동액 기능을 제공하는 브라우저 내부의 Webview 기술을 활용합니다. 테스트 결과 성가신 페이지 고정 문제가 나타나지 않았습니다.
팁을 계속 확인하세요
위의 지침에 따라 Octoparse는 현재 페이지에서만 데이터를 추출하지만 프로그램이 모든 페이지에서 데이터 마이닝을 하도록 하려면 페이지 매김 루프를 만들어야 합니다. 이를 위한 첫 번째 단계는 워크플로를 만드는 것입니다. 시작하려면 버튼을 클릭하세요.
이제 제안 상자에 여러 옵션이 표시됩니다. "더 로드 버튼 클릭"을 선택한 다음 "다음 페이지" 버튼 또는 이와 유사한 것을 찾을 때까지 페이지 하단으로 스크롤합니다. 그것을 클릭하고 "확인" 버튼을 누르십시오.
Octoparse가 원래 선택한 것보다 더 많은 데이터가 필요한 경우 목록의 모든 항목을 선택하고 원하는 데이터를 가져오는 두 번째 요소를 만들 수 있습니다.
시작하려면 목록의 항목으로 이동하여 클릭한 다음 팁 메뉴에서 "URL 클릭" 옵션을 선택합니다.
이제 항목의 전용 페이지가 로드됩니다. 해당 필드를 클릭하면 아래에 표시됩니다. 원하는 경우 편집할 수 있습니다.
작업 실행
생성한 작업의 개요가 마침내 만족스러우면 장치에서 실행하거나 일정을 예약할 때입니다(로컬). 클라우드에서도 실행이 가능하지만 요금제를 사용하는 사람에게만 제공되는 옵션입니다.
모든 것을 스크래핑하는 프로세스는 너무 오래 걸리지 않으며 완료되면 즉시 "데이터 내보내기" 버튼을 클릭하고 여기에서 원하는 형식을 선택할 수 있습니다.
Octoparse는 매우 복잡하며 단순한 작업을 설정하는 것보다 더 많은 것을 얻을 수 있습니다. 예:추출한 데이터 정제. 도구 상자의 RegEx 도구를 사용하여 텍스트 교체와 같은 데이터를 정리할 수 있습니다.
안녕하세요, Zapier!
또한 버전 8.4에서는 Octoparse가 Zapier와 협력했으며 이 통합을 통해 사용자는 이제 Google Drive, Google Sheets, Slack 등과 같은 수천 개의 앱과 함께 웹 스크래핑 서비스를 사용할 수 있습니다.피>
워크플로 통합을 시작하려면 기기에서 Zapier에 액세스해야 합니다. 그런 다음 디스플레이 오른쪽에 있는 "Zap 만들기" 버튼을 클릭합니다. Google 드라이브 파일을 Octoparse에서 처리되는 새 문서로 대체할 수 있는 Zap을 설정하고 싶었습니다.
트리거를 설정하려면 검색 창을 사용하여 Octoparse를 찾아 선택해야 합니다. Octoparse 계정에 연결하고 트리거 설정을 시작하십시오. ID로 검색할 수 있는 대상 Octoparse 작업을 선택한 다음 이상적인 작업 상태를 설정합니다. 작업 ID를 찾는 것은 처음 할 때 약간 까다롭습니다. 다행스럽게도 문서에서 다루었으므로 빠르게 알아낼 수 있습니다. (팁:클라우드에서 작업을 실행해야 합니다.)
다음으로 액션 앱을 선택해야 합니다. 이 예에서는 Google 문서도구입니다.
이 섹션에서는 여러 매개변수를 정의해야 합니다. 가장 중요한 것은 Action 이벤트이므로 적절한 옵션을 선택해야 합니다. 그런 다음 "작업 설정" 필드에서 작업에 대한 자세한 내용을 지정해야 합니다.
다음 번에 새로운 Zap을 만들려고 했을 때 프로세스가 매우 매끄럽다는 것이 입증되었습니다. 익숙해지는 데 약간의 시간이 필요할 뿐입니다. 약간의 독서가 필요할 수도 있습니다. 다행히 Zapier와 Octoparse는 자체 튜토리얼 라이브러리를 제공하므로 연구에 많은 시간을 투자하지 않아도 됩니다.
지금 Octoparse 받기
몇 가지 간단한 프로젝트를 수행하려는 사람들에게 완벽한 Octoparse를 무료로 사용해 볼 수 있습니다. 시작하려면 계정으로 가입하세요. 그러나 전체 기능 세트에 액세스하려면 세 가지 유료 요금제 중 하나로 업그레이드해야 합니다.
- 표준 요금제:$75/월
- 프로페셔널 플랜:$209/월
- 엔터프라이즈 플랜:주문형 기능 사용 가능
무료 버전에서 할 수 있는 일이 많지만 유료 버전은 고급 옵션을 제공합니다. 여기에는 더 많은 크롤러에 대한 액세스, 예약된 추출, 동시 클라우드 추출, 자동 IP 순환, API 액세스, 이메일 지원 등이 포함됩니다.
Octoparse에 대해 궁금한 점이 있다면 먼저 프리 티어를 다운로드하고 귀하의 요구 사항을 얼마나 잘 충족하는지 확인할 수 있습니다. 최신 버전은 지금 공식 웹사이트에서 다운로드할 수 있습니다.