개인정보를 보호하는 데이터 마이닝 방법은 무엇입니까?

<시간/>

개인 정보 보호 데이터 마이닝은 데이터 마이닝의 개인 정보 보안에 대한 응답으로 데이터 마이닝 연구의 응용 프로그램입니다. 이를 개인 정보 보호 강화 또는 개인 정보에 민감한 데이터 마이닝이라고 합니다. 기본적인 민감한 데이터 값을 공개하지 않고 진정한 데이터 마이닝 결과를 얻는 것을 다룹니다.

대부분의 개인 정보 보호 데이터 마이닝 접근 방식은 개인 정보 보호를 구현하기 위해 다양한 형태의 데이터 변환을 사용합니다. 일반적으로 이러한 방법은 개인 정보를 보호하기 위해 설명의 세분성을 줄입니다.

예를 들어, 단일 사용자에서 사용자 그룹으로 데이터를 일반화할 수 있습니다. 이러한 세분성의 감소로 인해 데이터가 손실되고 데이터 마이닝 결과의 유용성이 떨어질 수 있습니다. 이것은 데이터 손실과 개인 정보 보호 간의 균형입니다.

개인 정보 보호 데이터 마이닝 방법은 다음과 같은 다음 요소로 정의할 수 있습니다. -

무작위화 방법 − 이 방법은 데이터에 노이즈를 삽입하여 데이터의 여러 값을 마스킹합니다. 추가되는 노이즈는 개별 데이터 값, 특히 민감한 값을 가져올 수 없도록 커야 합니다.

데이터 마이닝의 최종 결과가 일반적으로 보존되도록 능숙하게 추가해야 합니다. 교란된 데이터에서 집계 분포를 변경하기 위해 다양한 방법이 설계되었습니다.

k-익명성 및 l-다양성 방법 − 이 두 가지 방법 모두 단일 데이터를 변경하여 구체적으로 식별할 수 없습니다. k-익명성 방법에서 데이터 표현의 세분성은 일부 주어진 데이터가 데이터의 최소 k개의 다른 레코드에 매핑되도록 적절하게 감소됩니다. 일반화 및 억제와 같은 기술이 필요합니다.

k-익명성 방법은 그룹 내 민감한 값의 균일성이 있는 경우 변경된 데이터에 대해 해당 값을 유추할 수 있다는 점에서 취약합니다. l-다양성 모델은 익명화를 제공하기 위해 민감한 값의 그룹 내 다양성을 적용하여 이러한 약점을 관리하도록 설계되었습니다. 목표는 공격자가 단일 레코드를 정확하게 인식하기 위해 데이터 속성 조합을 사용하는 것을 충분히 어렵게 만드는 것입니다.

분산된 개인정보 보호 − 큰 데이터 세트는 수평으로(즉, 데이터 세트가 데이터의 여러 하위 집합으로 분할되고 여러 사이트에 분산됨) 수직으로(즉, 데이터 세트가 속성별로 분할 및 배포됨) 분할 및 배포될 수 있습니다. 둘 다 세트입니다.

단일 사이트가 전체 데이터 세트를 공유할 필요는 없지만 여러 프로토콜을 사용하여 제한된 데이터 공유에 동의할 수 있습니다. 이러한 방법의 완전한 효과는 각 단일 개체에 대한 개인 정보를 지원하는 동시에 일부 데이터에 대한 집계 결과를 변경하는 것입니다.

데이터 마이닝 결과의 효율성 저하 − 여러 경우에 데이터를 사용할 수 없는 경우에도 데이터 마이닝의 출력(예:연관 규칙 및 분류 모델)은 개인 정보 보호 위반을 초래할 수 있습니다. 해결책은 일부 연관 규칙을 숨기거나 일부 분류 모델을 다소 왜곡하는 것을 포함하여 데이터 또는 마이닝 결과를 변경하여 데이터 마이닝의 효율성을 낮추는 것입니다.