BLAST 로컬 정렬 알고리즘이란 무엇입니까?

<시간/>

BLAST 알고리즘은 1990년경에 NCBI(National Center for Biotechnology Information)에서 Altschul, Gish, Miller에 의해 생성되었습니다. BLAST는 서열 간의 기능적, 진화적 관계를 도출하고 유전자 패밀리의 구성원을 인식하는 데 사용됩니다.

NCBI 웹사이트에는 몇 가지 일반적인 BLAST 데이터베이스가 포함되어 있습니다. 내용에 따라 뉴클레오티드 및 단백질 데이터베이스로 결합됩니다. NCBI는 또한 벡터 스크리닝 데이터베이스, 여러 유기체에 대한 여러 게놈 데이터베이스 및 추적 데이터베이스를 포함하여 전문화된 BLAST 데이터베이스를 지원합니다.

BLAST는 발견적 접근 방식을 사용하여 쿼리 시퀀스와 데이터베이스 간의 가장 큰 로컬 정렬을 발견합니다. BLAST는 비교할 시퀀스를 단편 시퀀스(단어라고 정의됨)로 나누고 원래 이 단어들 사이에서 일치하는 항목을 검색하여 검색의 완전한 속도를 높입니다.

BLAST에서 단어는 k-튜플로 처리됩니다. DNA 뉴클레오티드의 경우 단어는 일반적으로 11개의 염기(뉴클레오티드)를 포함하는 반면 단백질의 경우 단어는 일반적으로 3개의 아미노산을 포함합니다. BLAST는 이웃(거의 일치) 단어의 해시 테이블을 만드는 반면 "근접성"에 대한 임계값은 통계에 따라 설정됩니다. 이웃 단어와 정확히 일치하는 것부터 시작합니다.

좋은 정렬에는 여러 개의 가까운 일치 항목이 포함되어야 하므로 통계를 사용하여 중요한 일치 항목을 결정할 수 있습니다. 해싱을 통해 O(n)(선형) 시간에 일치 항목을 찾을 수 있습니다. 양방향으로 일치 항목에 도달함으로써 접근 방식은 여러 고득점 및 최대 세그먼트 쌍을 포함하는 고품질 정렬을 발견합니다.

BLAST 알고리즘에는 여러 버전과 확장이 있습니다. 예를 들어 MEGABLAST, Discontinuous MEGABLAST 및 BLASTN은 모두 뉴클레오티드 서열을 인식하는 데 사용할 수 있습니다. MEGABLAST는 특히 매우 동일한 시퀀스 간의 긴 정렬을 효율적으로 찾을 수 있도록 설계되었으므로 쿼리 시퀀스와 동일한 일치 항목을 찾는 데 사용할 수 있는 최고의 장치입니다.

BLAST 검색의 민감도를 안내하는 필수 매개변수 중 하나는 원래 단어의 길이 또는 단어 크기입니다. 단어 크기는 BLASTN에서 유연하며 검색 감도를 향상시키기 위해 기본값에서 최소 7로 줄일 수 있습니다. 따라서 BLASTN은 다른 유기체의 관련 뉴클레오티드 서열에 대한 정렬을 발견하는 데 MEGABLAST보다 우수합니다.

표준 단백질-단백질 BLAST(BLASTP)는 쿼리 아미노산 서열을 인식하고 단백질 데이터베이스에서 동일한 서열을 발견하는 데 사용됩니다. PSI(Position-Specific Iterated)-BLAST는 보다 민감한 단백질 유사성 검색을 위해 생성됩니다. 매우 멀리 떨어진 관련 단백질을 발견하는 데 유용합니다.

Pattern-Hit Initiated(PHI)-BLAST는 제한된 단백질 패턴 검색을 수행할 수 있습니다. 사용자가 정의한 패턴을 포함하고 패턴에 근접한 쿼리 시퀀스와 동일한 단백질을 검색하기 위해 생성됩니다.