웹 구조 마이닝은 데이터 또는 직접 링크 연결로 연결된 웹 페이지 간의 관계를 인식할 수 있는 도구입니다. 이 구조화된 데이터는 웹 페이지에 대한 데이터베이스 기술을 통해 웹 구조 스키마를 제공하여 검색할 수 있습니다.
이 연결을 통해 검색 엔진은 콘텐츠가 기반으로 하는 웹 사이트에서 연결 웹 페이지로 직접 검색 쿼리와 관련된 데이터를 가져올 수 있습니다. 이 완료는 웹 사이트를 스캔하고 홈 페이지를 가져온 다음 참조 연결을 통해 데이터를 연결하여 원하는 정보가 포함된 특정 페이지를 가져오는 스파이더의 필요성을 통해 이루어집니다.
웹 마이닝은 적응된 데이터 마이닝 방법을 웹에 적용하는 것으로 널리 볼 수 있는 반면, 데이터 마이닝은 지식 발견 프로세스에 고정된 대부분의 구조화된 데이터에서 패턴을 찾기 위한 알고리즘의 적용으로 표현됩니다.
웹 마이닝에는 여러 데이터 유형 모음을 지원하는 고유한 속성이 있습니다. 웹에는 텍스트를 포함하는 웹 페이지, 하이퍼링크를 통해 연결되는 웹 페이지, 웹 서버 로그를 통해 사용자 활동을 모니터링할 수 있는 등 마이닝 프로세스에 대한 여러 접근 방식을 제공하는 여러 측면이 있습니다.
구조 마이닝을 사용하면 데이터 양이 많기 때문에 World Wide Web의 두 가지 주요 문제를 최소화합니다. 첫 번째 문제는 검색 결과와 관련이 없습니다.
검색 엔진이 종종 낮은 정밀도 기준만 허용하는 문제로 인해 검색 정보의 관련성이 잘못 해석됩니다.
두 번째 문제는 웹에서 지원되는 많은 양의 데이터를 인덱싱할 수 없다는 것입니다. 이것은 콘텐츠 마이닝에서 적은 양의 기억을 생성합니다. 이러한 최소화는 웹 구조 마이닝이 지원하는 웹 하이퍼링크 구조의 기본 모델을 찾는 서비스에서 부분적으로 나타납니다.
구조 마이닝의 목적은 웹 페이지 간의 이전에 알려지지 않은 관계를 추출하는 것입니다. 이 데이터 마이닝 구조는 기업이 웹사이트의 데이터를 연결하여 탐색을 허용하고 데이터를 사이트 맵에 클러스터링하는 데 사용합니다.
이를 통해 사용자는 키워드 관계 및 콘텐츠 마이닝을 통해 원하는 데이터를 생성할 수 있습니다. 하이퍼링크 계층은 또한 사이트 내의 관련 데이터를 경쟁사 링크의 연결 및 검색 엔진 및 타사 공동 링크를 통한 연결로 경로 지정합니다. 이렇게 하면 연결된 웹 페이지를 클러스터링하여 이러한 페이지의 관계를 만들 수 있습니다.
World Wide Web에서 구조 마이닝을 사용하면 기본 구조 식별을 통해 클러스터링하여 웹 페이지의 동일한 아키텍처를 결정할 수 있습니다.
이 데이터는 웹 콘텐츠의 유사성을 디자인하는 데 사용할 수 있습니다. 알려진 유사성은 웹 스파이더에 더 높은 비율로 액세스할 수 있도록 사이트의 데이터를 지원하거나 개선하는 기능을 지원합니다. 웹 크롤러의 수가 많을수록 검색과 관련된 콘텐츠로 인해 사이트에 더 유리합니다.