Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

생물학적 데이터 분석을 위한 데이터 마이닝의 측면은 무엇입니까?

<시간/>

생물학적 데이터 분석을 위한 데이터 마이닝에는 다음과 같은 영역이 있습니다.

이기종, 분산된 게놈 및 단백질 데이터베이스의 의미론적 통합 − 게놈 및 단백질 데이터 세트는 여러 실험실에서 다양한 방법으로 생성됩니다. 그것들은 분포되어 있고 이질적이며 매우 다양합니다. 이러한 데이터의 의미론적 통합은 생물학적 기록의 교차 사이트 분석에 중요합니다.

또한 연구 문헌과 관련 생물학적 개체 간의 올바른 연결을 찾는 것이 중요합니다. 이러한 통합 및 연결 분석은 게놈 및 생물학적 기록의 체계적이고 조정된 분석을 지원할 수 있습니다. 이는 기본 및 변경된 생물학적 데이터를 저장하고 처리하기 위해 통합 데이터 웨어하우스 및 분산 연합 데이터베이스의 개발을 촉진했습니다.

데이터 정리, 데이터 통합, 참조 조정, 분류 및 클러스터링 방법은 생물학적 기록 통합 및 생물학적 데이터 분석을 위한 데이터 웨어하우스 개발을 지원합니다.

다중 뉴클레오티드/단백질 서열의 정렬, 인덱싱, 유사성 검색 및 비교 분석 − 지난 20년 동안 개발된 다양한 생물학적 서열 정렬 방법이 있습니다. 특히 BLAST 및 FASTA는 게놈 및 단백질 데이터의 체계적인 분석을 위한 도구입니다. 생물학적 서열 분석 방법은 데이터 마이닝 연구에서 제안된 많은 순차 패턴 분석 알고리즘과 다릅니다.

삽입, 삭제 및 돌연변이를 처리하기 위해 쿼리 시퀀스와 검색할 시퀀스 데이터 사이의 간격과 불일치를 허용해야 합니다. 더욱이, 단백질 서열의 경우, 자연에서 나타날 가능성이 있는 치환에 의해 하나가 다른 아미노산에서 변경될 수 있는 경우 두 개의 아미노산도 "일치"로 처리되어야 합니다.

구조적 패턴의 발견 및 유전자 네트워크 및 단백질 경로 분석 - 생물학에서 단백질 서열은 3차원 구조로 접혀 있으며, 이러한 구조는 상대적인 위치와 거리에 따라 상호 작용합니다. 이러한 복잡한 상호작용은 정교한 유전 네트워크와 단백질 경로의 기초를 형성합니다.

이렇게 거대하지만 복잡한 생물학적 네트워크 사이에서 구조적 패턴과 규칙성을 발견하는 것이 중요합니다. 대략적이고 빈번한 구조적 패턴을 발견하고 상호 연결된 생물학적 네트워크 간의 규칙성과 불규칙성을 연구하기 위해 강력하고 확장 가능한 데이터 마이닝 방법을 개발하는 것이 중요합니다.

연결 및 경로 분석 - 동시 발생 유전자 서열을 식별하고 유전자를 질병 발달의 여러 단계에 연결할 수 있습니다. 연관 분석 방법은 표적 샘플에서 따를 수 있는 유전자 유형을 조절하는 데 사용할 수 있습니다. 이러한 분석은 유전자 팀의 발견과 이들 간의 상호작용 및 관계 연구를 지원할 것입니다.