Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

바이오시퀀스를 비교하고 정렬하는 것이 왜 유용한가요?

<시간/>

정렬은 모든 살아있는 유기체가 진화와 관련되어 있다는 사실에 달려 있습니다. 이것은 진화 과정에서 서로 가까운 종의 뉴클레오티드(DNA, RNA)와 단백질 계열이 더 높은 유사성을 나타내야 한다는 것을 사용합니다.

정렬은 최대 수준의 동일성을 얻기 위해 서열을 정렬하는 단계이며, 이는 또한 서열 간의 유사도를 정의합니다. 공통 조상을 보내면 두 개의 염기서열이 상동입니다.

서열 정렬에 의해 획득된 유사성 정도는 두 서열 간의 상동 가능성을 결정하는데 유리할 수 있다. 이러한 정렬 지원은 계통수라고 하는 진화수에서 서로 다른 종의 상대적 위치를 결정합니다.

생물학적 서열의 정렬 문제는 다음과 같이 정의할 수 있습니다. - 2개 이상의 입력 생물학적 서열이 주어졌을 때, 고도로 보존된 하위 서열이 있는 동일한 서열을 인식합니다. 정렬할 다중 시퀀스가 ​​2인 경우 쌍별 시퀀스 정렬이라고 합니다. 따라서 다중 시퀀스 정렬입니다.

구별하고 정렬할 서열은 뉴클레오티드(DNA/RNA) 또는 아미노산(단백질)일 수 있습니다. 뉴클레오티드의 경우 두 기호가 정확하면 정렬됩니다. 그러나 아미노산의 경우 두 기호가 정확하거나 자연에 나타나는 치환에 의해 다른 기호가 바뀔 수 있는 경우 정렬됩니다.

로컬 정렬과 전역 정렬을 포함하여 두 가지 유형의 정렬이 있습니다. 전자는 시퀀스의 영역만 정렬되도록 정의하는 반면 후자는 시퀀스의 전체 길이에 걸쳐 정렬이 필요합니다.

뉴클레오타이드 또는 아미노산의 경우 삽입, 삭제 및 치환은 자연에서 여러 확률로 나타납니다. 치환 행렬은 뉴클레오티드 또는 아미노산의 치환 확률과 삽입 및 삭제 확률을 정의합니다.

두 기호를 정렬하지 않는 것이 바람직한 위치를 나타내기 위해 공백 문자 "-"를 자주 사용합니다. 정렬의 품질을 계산할 수 있으며 일반적으로 동일하거나 동일한 기호를 양수 점수로, 격차를 음수 점수로 계산하는 점수 구조가 일반적으로 정의됩니다.

점수의 대수적 합이 정렬 범위로 사용됩니다. 정렬의 목적은 몇 가지 가능한 정렬 사이에서 최대 점수를 얻는 것입니다. 그러나 최적의 정렬을 찾는 데는 많은 비용이 듭니다. 따라서 차선의 정렬을 발견하기 위해 몇 가지 발견적 기법이 개발되었습니다.

게놈은 유기체의 전체 유전자 세트입니다. 단백질이 필요할 때 동등한 유전자가 RNA로 복사됩니다. RNA는 뉴클레오티드의 사슬입니다. DNA는 각각 세포 기능에서 특정한 역할을 하는 여러 RNA 분자의 합성을 수행합니다.