Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

링크 마이닝의 문제점은 무엇입니까?

<시간/>

링크 마이닝에는 다음과 같은 몇 가지 문제가 있습니다. -

  • 논리적 종속성 대 통계적 종속성 − 그래프 링크 구조(객체 간의 논리적 관계를 나타냄)와 확률적 종속성(일반적으로 이러한 객체가 논리적으로 관련되어 있는 객체의 속성 간의 상관 관계와 같은 통계적 관계를 나타냄)에는 두 가지 유형의 종속성이 있습니다.

    이러한 종속성을 일관되게 처리하는 것은 마이닝할 데이터가 여러 테이블에 존재하는 다중 관계형 데이터 마이닝에서도 어려운 문제입니다. 객체 간의 가능한 여러 논리적 관계를 검색해야 하며, 속성 간의 확률적 종속성에 대한 표준 검색도 수행해야 합니다. 이것은 방대한 검색 영역을 필요로 하며, 이는 합리적인 수학적 모델을 찾는 것을 더욱 복잡하게 만듭니다. 귀납적 논리 프로그래밍에서 개발된 방법이 여기에 적용될 수 있으며, 이는 논리적 관계에 대한 검색에 중점을 둡니다.

  • 기능 구성 − 링크 기반 분류에서는 객체의 속성과 이에 연결된 객체의 속성을 고려할 수 있습니다. 또한 링크는 속성을 가질 수도 있습니다. 기능 구성의 목적은 이러한 속성을 정의하는 단일 기능을 구성하는 것입니다. 여기에는 기능 선택 및 기능 집계가 포함될 수 있습니다. 기능 선택에는 가장 눈에 띄는 기능만 포함됩니다.

  • 인스턴스 대 클래스 − 이는 모델이 명시적으로 개인 또는 개인의 클래스(일반 범주)를 참조하는지 여부를 암시합니다. 전자 모델의 장점은 특정 개인을 높은 확률로 연결하는 데 사용할 수 있다는 것입니다. 후자 모델의 장점은 여러 개인과 함께 새로운 상황에 일반화하는 데 사용할 수 있다는 것입니다.

  • 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터의 효과적인 사용 − 최근 학습 전략은 레이블이 지정된 데이터와 레이블이 지정되지 않은 데이터를 혼합하여 통합하는 것입니다. 레이블이 지정되지 않은 데이터는 개체 속성 분포를 추론할 수 있습니다. 레이블이 지정되지 않은(테스트) 데이터 간의 링크를 통해 연결된 개체의 속성을 사용할 수 있습니다. 레이블이 지정된(훈련) 데이터와 레이블이 지정되지 않은(테스트) 데이터 간의 링크는 더 정확한 추론을 생성하는 데 도움이 될 수 있는 종속성을 유도합니다.

  • 링크 예측 - 링크 예측의 문제는 객체 간의 특정 링크의 사전 확률이 일반적으로 매우 낮다는 것입니다. 네트워크에서 노드의 근접성을 분석하기 위한 몇 가지 측정을 기반으로 링크 예측을 위한 다양한 방법이 제안되었습니다. 확률 모델도 제안되었습니다. 방대한 데이터 세트의 경우 더 높은 수준에서 링크를 모델링하는 것이 더 효율적일 수 있습니다.

  • 폐쇄적 가정 대 개방적 가정 − 대부분의 전통적인 접근 방식은 도메인의 모든 잠재적 엔터티를 알고 있다고 가정합니다. 이 "닫힌 세계" 가정은 실제 응용 프로그램에서 비현실적입니다. 이 분야의 작업에는 여러 개체 집합을 포함하는 관계 구조에 대한 확률 분포를 정의하기 위한 언어 도입이 포함됩니다.