Computer >> 컴퓨터 >  >> 프로그램 작성 >> 프로그램 작성

마이닝 시퀀스 데이터의 유형은 무엇입니까?

<시간/>

시퀀스는 순서가 지정된 이벤트 목록입니다. 시퀀스는 다음과 같이 정의하는 이벤트의 기능에 따라 세 그룹으로 나눌 수 있습니다. -

시계열 데이터의 유사성 검색

시계열 데이터 세트에는 반복적인 시간 계산을 통해 얻은 정수 값 시퀀스가 ​​포함됩니다. 값은 일반적으로 동일한 시간 간격(예:분, 시간 또는 일)으로 측정됩니다.

시계열 데이터베이스는 주식 시장 분석, 경제 및 판매 예측, 예산 분석, 유틸리티 연구, 재고 연구, 수익 예측, 워크로드 예측, 프로세스 및 품질 서비스를 포함한 여러 애플리케이션에서 유명합니다. 자연 현상, 수학 및 공학 실험, 약물 치료 연구에 유용합니다.

시계열 데이터의 회귀 및 추세 분석

시계열 데이터의 회귀 분석은 데이터 및 신호 분석의 응용 분야에서 실질적으로 설계되었습니다. 추세 분석은 시계열 데이터를 정의하기 위해 다음 4가지 주요 요소 또는 움직임을 사용하여 통합 모델을 구성합니다. −

추세 또는 장기 움직임 − 이것은 시계열 그래프가 시간이 지남에 따라 변하는 일반적인 방향을 나타냅니다. 예를 들어, 가중 이동 평균 및 최소 자승법을 사용하여 점선을 포함한 추세 곡선을 찾는 방법을 사용합니다.

주기적인 움직임 − 추세선 또는 곡선에 대한 장기 진동입니다.

계절적 변화 − 이는 홀리데이 쇼핑 시즌을 포함하여 연속적으로 동일한 시즌 동안 시계열이 발생하는 것과 거의 동일한 패턴입니다. 효율적인 추세 분석을 위해 자기 상관에 의해 계산된 계절 지수를 기반으로 데이터를 "비계절화"해야 합니다.

무작위 움직임 − 이는 노동쟁의 또는 조직 내 공지된 인사 변경 등 우연한 사건으로 인한 산발적인 변경을 정의합니다.

기호 시퀀스의 순차 패턴 마이닝

상징적 시퀀스는 시간에 대한 구체적인 개념의 유무에 관계없이 문서화된 요소 또는 이벤트의 정렬된 그룹을 포함합니다. 사용자 쇼핑 시퀀스, 웹 클릭 스트림, 프로그램 구현 시퀀스, 생물학적 시퀀스, 과학 및 공학 및 자연 및 사회 발전의 이벤트 시퀀스를 포함하는 기호 계열 데이터를 포함하는 여러 응용 프로그램이 있습니다.

생물학적 서열은 복잡한 의미론적 의미를 부여하고 몇 가지 도전적인 연구 문제를 제기하기 때문에 대부분의 조사는 생물정보학의 적용에 관한 것입니다.

생물학적 서열의 정렬

생물학적 서열은 뉴클레오티드 또는 아미노산의 서열을 정의합니다. 생물학적 서열 분석은 생물학적 서열을 비교, 정렬, 색인화 및 연구하므로 생물정보학 및 현재 생물학에서 필수적인 역할을 합니다.

서열 정렬은 모든 살아있는 유기체가 발달과 관련되어 있다는 사실에 달려 있습니다. 이것은 진화 과정에서 서로 더 가까운 종의 뉴클레오티드(DNA, RNA)와 단백질 서열이 더 높은 유사성을 나타내야 함을 나타냅니다. 정렬은 시퀀스 간의 유사도를 정의하는 최대 동일성 수준을 얻기 위해 시퀀스를 정렬하는 절차입니다.