빅 데이터의 맥락에서 우리는 그것이 많은 양의 데이터와 그 실행을 다룬다는 것을 알고 있습니다. 따라서 간단히 말해서 빅 데이터는 많은 양의 데이터를 처리하는 것이라고 말할 수 있습니다. 데이터의 양이 너무 많기 때문에 데이터가 구성되는 방식을 기반으로 정의되는 세 가지 범주, 즉 구조화된 범주가 있습니다. 반정형 및 비정형 데이터. 이제 데이터를 구성하는 수준의 기초가 다음과 같이 이 세 가지 유형의 데이터 모두에서 몇 가지 차이점을 더 찾을 수 있습니다. 다음은 Structure와 Union의 중요한 차이점입니다. Sr. 아
확률 이론에서 합집합 경계라고도 하는 Boole의 부등식에 따르면, 유한하거나 셀 수 있는 이벤트 집합에 대해 이벤트 중 하나 이상이 발생할 확률은 다음보다 높지 않습니다. 개별 사건의 확률의 합입니다. 수학에서 확률 이론은 무작위 사건의 확률에 대해 연구하는 중요한 분야로 표시됩니다. 확률은 실험의 결과인 이벤트가 발생할 확률의 측정으로 표시됩니다. 예 - 동전을 던지는 것을 실험으로, 앞면 또는 뒷면을 얻는 것을 이벤트로 표시합니다. 이상적으로는 50%-50%의 확률, 즉 머리나 꼬리를 얻을 확률이 1/2-1/2입니다. 확
새로운 관련 증거의 도착에 따라 우리의 신념을 업데이트하는 방법은 Bayes 규칙에 의해 제공됩니다. 예를 들어, 주어진 사람이 암에 걸릴 확률을 제공하려는 경우 처음에는 인구의 퍼센트가 암에 걸렸다는 결론을 내릴 것입니다. 그러나 그 사람이 흡연자라는 사실과 같은 추가 증거가 주어지면 그 사람이 흡연자인 경우 암에 걸릴 확률이 더 높기 때문에 확률을 업데이트할 수 있습니다. 이를 통해 사전 지식을 활용하여 확률 추정을 개선할 수 있습니다. 규칙은 아래에 설명되어 있습니다 - $$P\l그룹 C|D \rgroup=\frac{P \
사전은 개체 그룹을 저장하기 위한 범용 데이터 구조로 정의됩니다. 사전은 키 세트와 연관되며 각 키는 연관된 단일 값을 갖습니다. 키와 함께 제공되면 사전은 단순히 관련 값을 반환합니다. 예를 들어, 교실 시험의 결과는 학생의 이름을 키로 사용하고 점수를 값으로 사용하는 사전으로 나타낼 수 있습니다. results = {'Anik' : 75, 'Aftab' :80, 'James' : 85, 'Manisha': 77, 'Suhana' :87, 'Marga
정의 허프만 코딩은 코드의 길이가 해당 문자의 상대적 빈도 또는 가중치에 따라 달라지도록 문자에 코드를 제공합니다. 허프만 코드는 길이가 가변적이며 접두사가 없습니다(즉, 코드가 다른 코드의 접두사가 아님을 의미함). 접두사 없는 바이너리 코드는 인코딩된 문자가 나뭇잎에 저장된 바이너리 트리로 표시되거나 시각화될 수 있습니다. 허프만 트리 또는 허프만 코딩 트리는 트리의 각 잎이 주어진 알파벳의 문자에 해당하는 전체 이진 트리로 정의됩니다. 허프만 트리는 최소 외부 경로 가중치와 연관된 이진 트리로 처리됩니다. 즉, 주어진 잎 세
데이터 웨어하우스는 특정 목적을 위해 이미 처리된 구조화되고 필터링된 데이터의 리포지토리입니다. 데이터웨어는 여러 소스에서 데이터를 수집하고 ETL 프로세스를 사용하여 데이터를 변환한 다음 비즈니스 목적으로 데이터 웨어하우스에 로드합니다. 운영 데이터베이스는 데이터가 자주 변경되는 데이터베이스입니다. 그들은 주로 대용량 데이터 트랜잭션을 위해 설계되었습니다. 데이터 웨어하우스의 소스 데이터베이스입니다. 다중 액세스 환경에서 온라인 트랜잭션 및 레코드 무결성을 유지하는 데 사용됩니다. Sr. 아니요. 키 데이터 웨어하우스 운영 데이
다음 두 가지 작업을 지원하는 데이터 구조를 설계해야 한다고 가정해 보겠습니다. addWord(단어) 검색(단어) search(word) 메서드는 문자 a-z 또는 .. A 만 포함하는 리터럴 단어 또는 정규식 문자열을 검색할 수 있습니다. 하나의 문자를 나타낼 수 있음을 의미합니다. 예를 들어 bad, dad, mad와 같은 단어를 추가한 다음 search(pad) → false, search(bad) → true, search(.ad)를 검색합니다. → true 및 검색(b..) → true 이 문제를 해결하
스테가노그래피 스테가노그래피 또는 커버 라이팅은 비밀 방법을 가짜 메시지로 변환하는 방법입니다. 이 기술은 메시지를 비밀로 유지하는 데 도움이 됩니다. 사용하고 이해하기가 상당히 어렵습니다. 데이터 구조는 Steganography에서 변경되지 않은 상태로 유지됩니다. 텍스트, 오디오, 비디오 또는 이미지에 사용됩니다. 암호화 암호 또는 비밀 쓰기는 비밀 방법을 암호 텍스트로 변환하여 다른 사람에게 보낸 다음 암호 텍스트를 일반 텍스트로 해독하는 방법입니다. 암호화는 대칭 키 암호화 또는 비대칭 키 암호화로 분류할 수 있습니다.
연결된 그래프 G(V,E)가 있고 모든 간선에 대한 가중치 또는 비용이 제공됩니다. Kruskal의 알고리즘은 그래프와 비용을 사용하여 최소 스패닝 트리를 찾습니다. 병합 트리 접근 방식입니다. 처음에는 다른 트리가 있지만 이 알고리즘은 비용이 최소인 가장자리를 취하여 병합하고 단일 트리를 형성합니다. 이 문제에서는 모든 간선이 나열되고 비용을 기준으로 정렬됩니다. 리스트에서 최소 비용의 edge를 뽑아서 트리에 추가하고 edge가 형성되는 주기를 체크하고 순환을 형성하면 list에서 edge를 버리고 다음 edge로 이동한
연결된 그래프 G(V,E)가 있고 모든 간선에 대한 가중치 또는 비용이 제공됩니다. Prim의 알고리즘은 그래프 G에서 최소 스패닝 트리를 찾습니다. 그것은 성장 나무 접근입니다. 이 알고리즘은 트리를 시작하기 위해 시드 값이 필요합니다. 시드 정점이 성장하여 전체 트리를 형성합니다. 문제는 두 세트를 사용하여 해결됩니다. 한 세트는 이미 선택된 노드를 보유하고 다른 세트는 아직 고려되지 않은 항목을 보유합니다. seed vertex에서 최소 edge cost를 기준으로 인접한 vertex를 취하므로 노드를 하나씩 취하여 트
단일 소스 최단 경로 알고리즘(음수가 아닌 가중치)은 Dijkstra 알고리즘으로도 알려져 있습니다. 인접 행렬 표현이 있는 주어진 그래프 G(V,E)가 있으며 소스 정점도 제공됩니다. 그래프 G의 다른 정점에 대한 소스 정점 사이의 최소 최단 경로를 찾는 Dijkstra의 알고리즘입니다. 시작 노드에서 다른 노드까지 가장 작은 거리를 찾습니다. 이 문제에서 그래프는 인접 행렬을 사용하여 표현됩니다. (비용 매트릭스와 인접 매트릭스는 이를 위해 유사합니다.) 입력 − 인접 행렬 − 0 3 6 ∞ ∞ &i
단일 소스 최단 경로 알고리즘(임의 가중치 양수 또는 음수)은 Bellman-Ford 알고리즘도 알려져 있습니다. 소스 정점에서 다른 정점까지의 최소 거리를 찾는 데 사용됩니다. 이 알고리즘과 Dijkstra 알고리즘의 주요 차이점은 Dijkstra 알고리즘에서는 음수 가중치를 처리할 수 없지만 여기서는 쉽게 처리할 수 있다는 것입니다. Bellman-Ford 알고리즘은 상향식으로 거리를 찾습니다. 처음에는 경로에 가장자리가 하나만 있는 거리를 찾습니다. 그런 다음 가능한 모든 솔루션을 찾기 위해 경로 길이를 늘립니다. 입력
모든 쌍의 최단 경로 알고리즘은 Floyd-Warshall 알고리즘이라고도 하며 주어진 가중치 그래프에서 모든 쌍의 최단 경로 문제를 찾는 데 사용됩니다. 이 알고리즘의 결과로 그래프의 모든 노드에서 다른 모든 노드까지의 최소 거리를 나타내는 행렬이 생성됩니다. 처음에 출력 행렬은 그래프의 주어진 비용 행렬과 동일합니다. 그 후 출력 행렬은 모든 정점 k를 중간 정점으로 사용하여 업데이트됩니다. 이 알고리즘의 시간 복잡도는 O(V3)이며, 여기서 V는 그래프의 정점 수입니다. 입력 - 그래프의 비용 매트릭스. 0 3 6 ∞
허프만 코딩은 무손실 데이터 압축 알고리즘입니다. 이 알고리즘에서 가변 길이 코드는 다른 문자를 입력하기 위해 할당됩니다. 코드 길이는 문자가 사용되는 빈도와 관련이 있습니다. 가장 자주 사용되는 문자에는 가장 작은 코드가 있고 가장 적게 사용되는 문자에는 더 긴 코드가 있습니다. 크게 두 부분이 있습니다. 첫 번째는 Huffman 트리를 생성하고 다른 하나는 트리를 탐색하여 코드를 찾습니다. 예를 들어 일부 문자열 YYYZXXYYX를 고려하면 문자 Y의 빈도는 X보다 크고 문자 Z는 빈도가 가장 낮습니다. 따라서 Y의 코드 길
재귀는 함수가 자신을 호출하는 프로세스입니다. 우리는 더 큰 문제를 더 작은 하위 문제로 해결하기 위해 재귀를 사용합니다. 명심해야 할 한 가지는 각 하위 문제가 동일한 종류의 패턴을 따르는 경우에만 재귀적 접근 방식을 사용할 수 있다는 것입니다. 재귀 함수는 두 부분으로 나뉩니다. 기본 케이스와 재귀 케이스. 기본 사례는 반복 작업을 종료하는 데 사용됩니다. 기본 케이스가 정의되지 않은 경우 함수는 (이론적으로) 무한 반복됩니다. 컴퓨터 프로그램에서 하나의 함수를 호출하면 프로그램 카운터의 값은 함수 영역으로 점프하기 전에 내
스택은 LIFO(Last In First Out) 데이터 구조입니다. 이 데이터 구조에는 다른 측면에서 몇 가지 중요한 응용 프로그램이 있습니다. 다음과 같습니다 - 표현식 처리 - 중위에서 접미사로 또는 중위에서 접두사로 변환 - 스택은 일부 중위 표현식을 그에 상응하는 후위 또는 상응하는 접두사로 변환하는 데 사용할 수 있습니다. 이러한 접미사 또는 접두사 표기법은 컴퓨터에서 일부 표현을 표현하는 데 사용됩니다. 이러한 표현식은 중위 표현식에 그다지 익숙하지 않지만 몇 가지 큰 장점도 있습니다. 연산자 순서와 괄호를 유지
데이터베이스의 구조를 변경하는 과정은 기본적으로 Normalization과 Denormalization의 두 가지로 분류됩니다. 다음은 정규화와 비정규화의 중요한 차이점입니다. Sr. 아니요. 키 정규화 비정규화 1 구현 정규화는 데이터베이스에서 중복 데이터를 제거하고 중복되지 않고 일관된 데이터를 데이터베이스에 저장하는 데 사용됩니다. 비정규화는 여러 테이블 데이터를 하나로 결합하여 빠르게 쿼리할 수 있도록 하는 데 사용됩니다. 2 초점 정규화는 주로 사용하지 않는 데이터에서 데이터베이스를 지우고 데이터 중복성과 불일치를
DDL DDL은 데이터 정의 언어이며 스키마, 데이터베이스, 테이블, 제약 조건 등과 같은 구조를 정의하는 데 사용됩니다. DDL의 예는 create 및 alter 문입니다. DML DML은 데이터 조작 언어이며 데이터를 조작하는 데 사용됩니다. DML의 예는 삽입, 업데이트 및 삭제 명령문입니다. 다음은 DDL과 DML의 중요한 차이점입니다. Sr. 아니요. 키 DDL DML 1 의 약자 DDL은 데이터 정의 언어를 의미합니다. DML은 데이터 조작 언어를 의미합니다. 2 사용 DDL 문은 데이터베이스, 스키마, 제약
이 섹션에서 우리는 몇 가지 일반적인 수학적 문제와 다른 계산 알고리즘을 사용하여 해결할 수 있는 방법을 볼 것입니다. 미분 방정식, 적분 및 기타 복잡한 수학 문제를 해결하는 방법을 살펴보겠습니다. 이 섹션에서 다룰 내용 - 중위를 후위 표현식으로 변환 중위어를 접두사 표현식으로 변환 접미사 표현식 평가 비선형 방정식을 푸는 시컨트 방법 정적분에 대한 사다리꼴 법칙 정적분에 대한 Simpson의 1/3 법칙 선형 회귀 라그랑주 보간 미분방정식에 대한 Runge-Kutta 4차 법칙 행운의 숫자 10진수에서 2진수로 변환 두 숫자
점근적 분석 점근적 분석을 사용하여 입력 크기를 기반으로 하는 알고리즘의 성능에 대한 아이디어를 얻을 수 있습니다. 정확한 실행 시간을 계산해서는 안되지만 실행 시간과 입력 크기 간의 관계를 찾아야 합니다. 입력의 크기가 증가할 때 실행 시간을 따라야 합니다. 공간 복잡도의 경우, 우리의 목표는 알고리즘을 완성하기 위해 메인 메모리에서 얼마나 많은 공간을 차지하는지 관계나 함수를 얻는 것입니다. 점근적 행동 f(n) 함수의 경우 점근적 동작은 n이 커질수록 f(n)이 증가하는 것입니다. 작은 입력 값은 고려되지 않습니다. 우리