DNA 서열이 있다고 가정합니다. 우리가 알고 있듯이 모든 DNA는 A, C, G 및 T와 같이 약어로 된 일련의 뉴클레오티드로 구성됩니다(예:"ACGAATTCCG"). DNA를 연구할 때 DNA 내에서 반복되는 서열을 식별하는 것이 때때로 유용합니다.
DNA 분자에서 두 번 이상 발생하는 10자 길이의 모든 시퀀스(하위 문자열)를 찾기 위해 하나의 방법을 작성해야 합니다.
따라서 입력이 "AAAAACCCCCAAAAACCCCCCAAAAGGGTTT"와 같으면 출력은 ["AAAAACCCCC", "CCCCCAAAAA"]가 됩니다.
이 문제를 해결하기 위해 다음 단계를 따릅니다. −
-
배열 ret를 정의하고 n :=s의 크기로 방문 및 방문2라는 두 세트를 생성합니다.
-
bitVal이라는 맵을 정의합니다.
-
0123과 같은 ACGT에 해당하는 값을 butVal에 저장합니다.
-
마스크 :=0
-
0 ~ n – 1 범위의 i에 대해
-
마스크 :=마스크 * 4
-
마스크 :=마스트 OR bitVal[s[i]]
-
마스크 :=마스크 AND FFFFF
-
i <9이면 다음 반복을 계속합니다.
-
하위 문자열 형식 인덱스 i – 9에서 9를 ret에 삽입
-
방문2에 마크를 삽입합니다.
-
-
방문에 마스크 삽입
-
-
리턴 렛
예시(C++)
더 나은 이해를 위해 다음 구현을 살펴보겠습니다. −
#include <bits/stdc++.h>
using namespace std;
void print_vector(vector<auto> v){
cout << "[";
for(int i = 0; i<v.size(); i++){
cout << v[i] << ", ";
}
cout << "]"<<endl;
}
typedef long long int lli;
class Solution {
public:
vector<string>findRepeatedDnaSequences(string s) {
vector <string> ret;
int n = s.size();
set <int> visited;
set <int> visited2;
map <char, int> bitVal;
bitVal['A'] = 0;
bitVal['C'] = 1;
bitVal['G'] = 2;
bitVal['T'] = 3;
lli mask = 0;
for(int i = 0; i < n; i++){
mask <<= 2;
mask |= bitVal[s[i]];
mask &= 0xfffff;
if(i < 9) continue;
if(visited.count(mask) && !visited2.count(mask)){
ret.push_back(s.substr(i - 9, 10));
visited2.insert(mask);
}
visited.insert(mask);
}
return ret;
}
};
main(){
Solution ob;
print_vector(ob.findRepeatedDnaSequences("AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"));
} 입력
"AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
출력
[AAAAACCCCC, CCCCCAAAAA, ]