DNA 서열이 있다고 가정합니다. 우리가 알고 있듯이 모든 DNA는 A, C, G 및 T와 같이 약어로 된 일련의 뉴클레오티드로 구성됩니다(예:"ACGAATTCCG"). DNA를 연구할 때 DNA 내에서 반복되는 서열을 식별하는 것이 때때로 유용합니다.
DNA 분자에서 두 번 이상 발생하는 10자 길이의 모든 시퀀스(하위 문자열)를 찾기 위해 하나의 방법을 작성해야 합니다.
따라서 입력이 "AAAAACCCCCAAAAACCCCCCAAAAGGGTTT"와 같으면 출력은 ["AAAAACCCCC", "CCCCCAAAAA"]가 됩니다.
이 문제를 해결하기 위해 다음 단계를 따릅니다. −
-
배열 ret를 정의하고 n :=s의 크기로 방문 및 방문2라는 두 세트를 생성합니다.
-
bitVal이라는 맵을 정의합니다.
-
0123과 같은 ACGT에 해당하는 값을 butVal에 저장합니다.
-
마스크 :=0
-
0 ~ n – 1 범위의 i에 대해
-
마스크 :=마스크 * 4
-
마스크 :=마스트 OR bitVal[s[i]]
-
마스크 :=마스크 AND FFFFF
-
i <9이면 다음 반복을 계속합니다.
-
하위 문자열 형식 인덱스 i – 9에서 9를 ret에 삽입
-
방문2에 마크를 삽입합니다.
-
-
방문에 마스크 삽입
-
-
리턴 렛
예시(C++)
더 나은 이해를 위해 다음 구현을 살펴보겠습니다. −
#include <bits/stdc++.h> using namespace std; void print_vector(vector<auto> v){ cout << "["; for(int i = 0; i<v.size(); i++){ cout << v[i] << ", "; } cout << "]"<<endl; } typedef long long int lli; class Solution { public: vector<string>findRepeatedDnaSequences(string s) { vector <string> ret; int n = s.size(); set <int> visited; set <int> visited2; map <char, int> bitVal; bitVal['A'] = 0; bitVal['C'] = 1; bitVal['G'] = 2; bitVal['T'] = 3; lli mask = 0; for(int i = 0; i < n; i++){ mask <<= 2; mask |= bitVal[s[i]]; mask &= 0xfffff; if(i < 9) continue; if(visited.count(mask) && !visited2.count(mask)){ ret.push_back(s.substr(i - 9, 10)); visited2.insert(mask); } visited.insert(mask); } return ret; } }; main(){ Solution ob; print_vector(ob.findRepeatedDnaSequences("AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT")); }
입력
"AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
출력
[AAAAACCCCC, CCCCCAAAAA, ]