웹 마이닝이란 무엇입니까?

<시간/>

웹 마이닝은 적응된 데이터 마이닝 방법을 웹에 적용한 것으로 널리 볼 수 있는 반면, 데이터 마이닝은 지식 발견 프로세스에 고정된 대부분 구조화된 데이터에서 패턴을 찾기 위한 알고리즘의 적용으로 표현됩니다.

웹 마이닝은 여러 데이터 유형의 모음을 지원하는 고유한 속성을 가지고 있습니다. 웹에는 텍스트를 포함한 웹 페이지, 하이퍼링크를 통해 연결되는 웹 페이지, 웹을 통해 사용자 활동을 모니터링할 수 있는 등 마이닝 프로세스에 대한 여러 접근 방식을 생성하는 여러 측면이 있습니다. 서버 로그.

그것은 다음과 같은 관찰을 기반으로 하며, 웹은 효과적인 자원 및 지식 발견을 위한 큰 도전 과제이기도 합니다.

웹은 효율적인 데이터 웨어하우징 및 데이터 마이닝을 하기에는 너무 큰 것 같습니다. − 웹의 크기는 수백 테라바이트에 이르며 여전히 빠르게 성장하고 있습니다. 일부 조직 및 사회에서는 웹에 공개적으로 액세스할 수 있는 여러 데이터를 배치합니다. 웹에서 일부 데이터를 복제, 저장 또는 통합하기 위해 데이터 웨어하우스를 설정하는 데 적용할 수 있습니다.

웹 페이지의 복잡성은 기존의 텍스트 문서 컬렉션보다 훨씬 큽니다. − 웹 페이지에는 통합 구조가 없습니다. 여기에는 어떤 책이나 다른 전통적인 텍스트 기반 문서보다 훨씬 더 많은 저작 스타일과 콘텐츠 변형이 포함되어 있습니다.

웹은 거대한 디지털 도서관으로 취급됩니다. 그러나 이 라이브러리에 있는 엄청난 수의 레코드는 특정 정렬 순서에 따라 정렬되지 않습니다. 요소별, 제목, 저자, 표지, 목차 등으로 색인이 없습니다. 이러한 라이브러리에서 원하는 정보를 검색하는 것은 매우 어려울 수 있습니다.

웹은 매우 동적인 정보 소스입니다. − 웹이 빠르게 성장할 뿐만 아니라 정보도 지속적으로 업데이트됩니다. 뉴스, 주식 시장, 날씨, 스포츠, 쇼핑, 회사 광고 및 기타 수많은 웹 페이지가 웹에서 정기적으로 업데이트됩니다. 연계정보 및 접속기록도 수시로 업데이트 됩니다.

웹은 광범위한 사용자 커뮤니티에 서비스를 제공합니다. − 인터넷은 현재 1억 개 이상의 워크스테이션을 연결하고 있으며 사용자 커뮤니티는 여전히 빠르게 확장되고 있습니다. 사용자는 다양한 배경, 관심사 및 사용 목표를 가질 수 있습니다.

일부 사용자는 데이터 네트워크의 구조에 대해 가장 잘 알지 못하고 특정 검색의 막대한 비용을 인식하지 못할 수 있습니다. 그들은 네트워크의 "어두움"에서 더듬어 쉽게 길을 잃거나 많은 액세스 "홉"을 취하고 한 조각의 정보를 참을성 없이 기다리면 지루해할 수 있습니다.