Weka는 데이터 마이닝 서비스를 위한 기계 학습 알고리즘 세트입니다. 알고리즘은 데이터 세트 또는 자체 Java 프로그램에서 직접 사용할 수 있습니다. 여기에는 데이터 사전 처리, 분류, 회귀, 클러스터링, 연관 규칙 및 시각화를 위한 도구가 포함됩니다. 새로운 기계 학습 계획을 생성하는 데에도 적용할 수 있습니다.
Weka를 사용하는 한 가지 방법은 데이터 세트에 대한 학습 접근 방식을 사용하고 그 출력을 분석하여 레코드에 대해 자세히 알아보는 것입니다. 두 번째는 새로운 인스턴스를 예측하기 위해 학습된 모델이 필요하다는 것입니다.
세 번째는 여러 학습자를 사용하고 성능을 비교하여 예측을 위해 하나를 선택하는 것입니다. 인터랙티브한 Weka 인터페이스에서는 메뉴에서 필요한 학습 방법을 선택할 수 있습니다. 여러 메서드에는 속성 시트 또는 개체 편집기를 통해 만들 수 있는 조정 가능한 매개 변수가 있습니다. 모든 분류기의 성능을 계산하기 위해 공통 계산 구조가 사용됩니다.
여러 필터를 사용하는 방법을 보여주고 필터링 알고리즘을 나열하며 해당 매개변수를 설명할 수 있습니다. Weka는 또한 학습 연관 규칙, 클래스 값이 지정되지 않은 데이터 클러스터링, 데이터에서 관련 속성 선택을 위한 알고리즘 구현을 포함합니다.
Weka를 사용하는 가장 간단한 방법은 Explorer라는 그래픽 사용자 인터페이스를 사용하는 것입니다. 이것은 메뉴 선택 및 양식 작성을 사용하여 일부 시설에 대한 액세스를 제공합니다. 예를 들어 ARFF 문서(또는 스프레드시트)에서 데이터 세트를 빠르게 읽고 여기에서 의사 결정 트리를 구성할 수 있습니다.
Explorer 인터페이스는 선택 항목을 메뉴로 표시하고, 선택 항목이 적합할 때까지 선택 항목을 회색으로 표시하고, 채울 양식으로 옵션을 표시하여 적절한 순서로 작업하도록 합니다. 마우스가 화면의 요소 위로 이동할 때 표시되는 유용한 도구 설명이 기능을 이해하는 데 유용합니다. 합리적인 기본값을 사용하면 최소한의 노력으로 결과를 얻을 수 있지만 결과가 의미하는 바를 이해하려면 그것이 무엇인지 생각해야 합니다.
지식 흐름 인터페이스를 사용하면 스트리밍 정보 처리를 위한 구조를 만들 수 있습니다. Explorer 인터페이스의 한계는 데이터셋을 열 수 있을 때 메인 메모리의 모든 것에 영향을 미치고 모든 데이터를 직접 로드한다는 것입니다.
즉, Explorer는 중소 규모의 문제에 사용할 수 있습니다. 그러나 Weka에는 거대한 데이터 세트를 처리하는 데 사용할 수 있는 몇 가지 증분 알고리즘이 포함되어 있습니다. 지식 흐름 인터페이스를 사용하면 학습 알고리즘과 데이터 소스를 정의하는 상자를 화면에서 끌어서 필요한 구성에 연결할 수 있습니다.
데이터 소스, 전처리 도구, 학습 알고리즘, 계산 방법 및 시각화 모듈을 정의하는 구성 요소를 연결하여 데이터 스트림을 정의할 수 있습니다. 필터와 학습 알고리즘이 증분 학습에 적합하면 데이터가 추가로 로드되고 처리됩니다.