정렬은 모든 살아있는 유기체가 진화와 관련되어 있다는 사실에 달려 있습니다. 이것은 진화 과정에서 서로 가까운 종의 뉴클레오티드(DNA, RNA)와 단백질 계열이 더 높은 유사성을 나타내야 한다는 것을 사용합니다.
정렬은 최대 수준의 동일성을 얻기 위해 서열을 정렬하는 단계이며, 이는 또한 서열 간의 유사도를 정의합니다. 공통 조상을 보내면 두 개의 염기서열이 상동입니다.
서열 정렬에 의해 획득된 유사성 정도는 두 서열 간의 상동 가능성을 결정하는데 유리할 수 있다. 이러한 정렬 지원은 계통수라고 하는 진화수에서 서로 다른 종의 상대적 위치를 결정합니다.
생물학적 서열의 정렬 문제는 다음과 같이 정의할 수 있습니다. - 2개 이상의 입력 생물학적 서열이 주어졌을 때, 고도로 보존된 하위 서열이 있는 동일한 서열을 인식합니다. 정렬할 다중 시퀀스가 2인 경우 쌍별 시퀀스 정렬이라고 합니다. 따라서 다중 시퀀스 정렬입니다.
구별하고 정렬할 서열은 뉴클레오티드(DNA/RNA) 또는 아미노산(단백질)일 수 있습니다. 뉴클레오티드의 경우 두 기호가 정확하면 정렬됩니다. 그러나 아미노산의 경우 두 기호가 정확하거나 자연에 나타나는 치환에 의해 다른 기호가 바뀔 수 있는 경우 정렬됩니다.
로컬 정렬과 전역 정렬을 포함하여 두 가지 유형의 정렬이 있습니다. 전자는 시퀀스의 영역만 정렬되도록 정의하는 반면 후자는 시퀀스의 전체 길이에 걸쳐 정렬이 필요합니다.
뉴클레오타이드 또는 아미노산의 경우 삽입, 삭제 및 치환은 자연에서 여러 확률로 나타납니다. 치환 행렬은 뉴클레오티드 또는 아미노산의 치환 확률과 삽입 및 삭제 확률을 정의합니다.
두 기호를 정렬하지 않는 것이 바람직한 위치를 나타내기 위해 공백 문자 "-"를 자주 사용합니다. 정렬의 품질을 계산할 수 있으며 일반적으로 동일하거나 동일한 기호를 양수 점수로, 격차를 음수 점수로 계산하는 점수 구조가 일반적으로 정의됩니다.
점수의 대수적 합이 정렬 범위로 사용됩니다. 정렬의 목적은 몇 가지 가능한 정렬 사이에서 최대 점수를 얻는 것입니다. 그러나 최적의 정렬을 찾는 데는 많은 비용이 듭니다. 따라서 차선의 정렬을 발견하기 위해 몇 가지 발견적 기법이 개발되었습니다.
게놈은 유기체의 전체 유전자 세트입니다. 단백질이 필요할 때 동등한 유전자가 RNA로 복사됩니다. RNA는 뉴클레오티드의 사슬입니다. DNA는 각각 세포 기능에서 특정한 역할을 하는 여러 RNA 분자의 합성을 수행합니다.