weka tutorial how download
이 WEKA 튜토리얼은 Weka Machine Learning 도구, 기능 및 Weka Machine Learning 소프트웨어를 다운로드, 설치 및 사용하는 방법에 대해 설명합니다.
에서 이전 튜토리얼 , 우리는 ML의 Support Vector Machine과 Hyperplane, Support Vectors & Applications of SVM과 같은 관련 개념에 대해 배웠습니다.
기계 학습은 기계가 인공 지능 시스템으로 작동하는 과학 분야입니다. 기계는 명시적인 코딩없이 스스로 학습 할 수 있습니다. 데이터에 액세스하고 스스로 학습하며 결과를 예측하는 반복적 인 프로세스입니다. 기계 학습 작업을 실행하려면 많은 도구와 스크립트가 필요합니다.
WEKA는 많은 기계 학습 활동을 지원하는 많은 도구로 구성된 기계 학습 플랫폼입니다.
=> 완전한 기계 학습 교육 시리즈 읽기
sleep () C ++
학습 내용 :
WEKA 란?
Weka는 뉴질랜드 와이 카토 대학의 과학자 / 연구자들이 설계하고 개발 한 오픈 소스 도구입니다. WEKA는 지식 분석을위한 Waikato Environment의 약자입니다. 국제 과학 커뮤니티에서 개발했으며 무료 GNU GPL 라이선스에 따라 배포됩니다.
WEKA는 Java로 완전히 개발되었습니다. Java 데이터베이스 연결을 사용하여 SQL 데이터베이스와의 통합을 제공합니다. 데이터 마이닝 작업을 구현하기 위해 많은 기계 학습 알고리즘을 제공합니다. 이러한 알고리즘은 WEKA 도구를 사용하여 직접 사용하거나 Java 프로그래밍 언어를 사용하는 다른 응용 프로그램과 함께 사용할 수 있습니다.
데이터 전처리, 분류, 클러스터링, 회귀 분석, 연관 규칙 생성, 기능 추출 및 데이터 시각화를위한 많은 도구를 제공합니다. 머신 러닝에서 새로운 알고리즘 개발을 지원하는 강력한 도구입니다.
WEKA 기계 학습 도구를 사용하는 이유
WEKA를 사용하면 기계 학습 알고리즘을 사용자가 쉽게 사용할 수 있습니다. ML 전문가는 이러한 방법을 사용하여 대량의 데이터에서 유용한 정보를 추출 할 수 있습니다. 여기에서 전문가는 새로운 기계 학습 방법을 개발하고 실제 데이터에 구현할 수있는 환경을 만들 수 있습니다.
WEKA는 기계 학습 및 응용 과학 연구자들이 학습 목적으로 사용합니다. 많은 데이터 마이닝 작업을 수행하기위한 효율적인 도구입니다.
WEKA 다운로드 및 설치
#1) 다음에서 소프트웨어 다운로드 여기 .
컴퓨터 시스템의 구성을 확인하고이 페이지에서 안정된 버전의 WEKA (현재 3.8)를 다운로드하십시오.
#두) 성공적으로 다운로드 한 후 파일 위치를 열고 다운로드 한 파일을 두 번 클릭합니다. Step Up 마법사가 나타납니다. 다음을 클릭하십시오.
#삼) 라이선스 계약 조건이 열립니다. 자세히 읽고 '동의 함'을 클릭하십시오.
# 4) 요구 사항에 따라 설치할 구성 요소를 선택합니다. 전체 구성 요소 설치를 권장합니다. 다음을 클릭하십시오.
# 5) 대상 폴더를 선택하고 다음을 클릭하십시오.
# 6) 그러면 설치가 시작됩니다.
# 7) 시스템에 Java가 설치되어 있지 않으면 먼저 Java를 설치합니다.
# 8) 설치가 완료되면 다음과 같은 창이 나타납니다. 다음을 클릭하십시오.
# 9) Start Weka 확인란을 선택합니다. 마침을 클릭하십시오.
# 10) WEKA 도구 및 탐색기 창이 열립니다.
#열한) WEKA 매뉴얼은 여기.
WEKA의 그래픽 사용자 인터페이스
WEKA의 GUI는 5 가지 옵션을 제공합니다. Explorer, Experimenter, Knowledge flow, Workbench 및 Simple CLI. 이들 각각을 개별적으로 이해합시다.
# 1) 간단한 CLI
간단한 CLI는 명령 줄과 출력이있는 Weka Shell입니다. '도움말'을 사용하면 모든 명령의 개요를 볼 수 있습니다. Simple CLI는 분류 자, 클러스터 및 필터 등과 같은 모든 클래스에 대한 액세스를 제공합니다.
간단한 CLI 명령 중 일부는 다음과 같습니다.
- 단절: 현재 스레드를 중지하려면
- 출구: CLI 종료
- 도움말 () : 지정된 명령에 대한 도움말을 출력합니다.
- -java weka.classifiers.trees.J48 -t c : /temp/iris.arff : WEKA 클래스를 호출하려면 Java를 접두어로 사용하십시오. 이 명령은 WEKA가 클래스를로드하고 주어진 매개 변수로 실행하도록 지시합니다. 이 명령에서 J48 분류기는 IRIS 데이터 세트에서 호출됩니다.
# 2) 탐색기
WEKA Explorer 창에는 전처리로 시작하는 여러 탭이 표시됩니다. 처음에는 알고리즘을 적용하고 데이터 세트를 탐색하기 전에 먼저 데이터 세트가 사전 처리되므로 사전 처리 탭이 활성화됩니다.
탭은 다음과 같습니다.
- 전처리 : 로드 된 데이터를 선택하고 수정합니다.
- 나누다: 데이터를 분류하고 회귀 할 데이터에 훈련 및 테스트 알고리즘을 적용합니다.
- 클러스터: 데이터에서 클러스터를 형성합니다.
- 동무: 데이터에 대한 연관 규칙을 찾아냅니다.
- 속성 선택 : 속성 선택 측정이 적용됩니다.
- 시각화 : 데이터의 2D 표현이 보입니다.
- 상태 표시 줄: 창의 맨 아래 섹션에는 상태 표시 줄이 표시됩니다. 이 섹션은 현재 파일이로드되는 것과 같은 메시지 형태로 무슨 일이 일어나고 있는지 보여줍니다. 이것을 마우스 오른쪽 버튼으로 클릭하고 기억 정보 볼 수 있으며 또한 운영 찌꺼기 수집기 공간을 확보하기 위해 실행할 수 있습니다.
- 로그 버튼 : 타임 스탬프와 함께 Weka의 모든 작업 로그를 저장합니다. 로그 버튼을 클릭하면 별도의 창에 로그가 표시됩니다.
- WEKA 새 아이콘 : 오른쪽 하단 모서리에있는 WEKA 새는 동시에 실행되는 프로세스 수 (x)를 나타냅니다. 프로세스가 실행 중일 때 새가 움직일 것입니다.
# 3) 실험자
WEKA 실험자 버튼을 사용하면 사용자가 데이터 세트에 대한 하나의 실험에서 다양한 스키마를 생성, 실행 및 수정할 수 있습니다. 실험자는 두 가지 유형의 구성이 있습니다. 단순하고 고급. 두 구성 모두 사용자가 로컬 및 원격 컴퓨터에서 실험을 실행할 수 있도록합니다.
- '열기'및 '새로 만들기'버튼은 사용자가 수행 할 수있는 새 실험 창을 엽니 다.
- 결과 : ARFF, JDFC 및 CSV 파일에서 결과 대상 파일을 설정합니다.
- 실험 유형 : 사용자는 교차 검증과 학습 / 테스트 비율 분할 중에서 선택할 수 있습니다. 사용자는 사용 된 데이터 세트와 분류 자에 따라 분류와 회귀를 선택할 수 있습니다.
- 데이터 세트 : 사용자는 여기에서 데이터 세트를 찾아보고 선택할 수 있습니다. 다른 컴퓨터에서 작업하는 경우 상대 경로 확인란을 클릭합니다. 지원되는 데이터 세트 형식은 ARFF, C4.5, CSV, libsvm, bsi 및 XRFF입니다.
- 되풀이: 기본 반복 횟수는 10으로 설정됩니다. 먼저 데이터 세트와 알고리즘이 데이터 세트와 알고리즘 사이를 전환하는 데 도움이되므로 모든 데이터 세트에서 알고리즘을 실행할 수 있습니다.
- 알고리즘 : 새로운 알고리즘은 '새 버튼'에 의해 추가됩니다. 사용자는 분류자를 선택할 수 있습니다.
- 저장 버튼을 사용하여 실험을 저장합니다.
- 실행 버튼을 사용하여 실험을 실행합니다.
# 4) 지식 흐름
지식 흐름은 WEKA 알고리즘의 그래픽 표현을 보여줍니다. 사용자는 구성 요소를 선택하고 데이터 세트를 분석하는 워크 플로를 만들 수 있습니다. 데이터는 배치 방식 또는 증분 방식으로 처리 할 수 있습니다. 병렬 워크 플로를 설계 할 수 있으며 각각 별도의 스레드에서 실행됩니다.
사용 가능한 다양한 구성 요소는 다음과 같습니다. 데이터 소스, 데이터 세이버, 필터, 분류 자, 클러스터, 평가 및 시각화.
# 5) 작업대
WEKA에는 단일 창에 모든 GUI를 포함하는 워크 벤치 모듈이 있습니다.
WEKA Explorer의 특징
# 1) 데이터 셋
데이터 세트는 항목으로 구성됩니다. 그것은 객체를 나타냅니다 예를 들면 : 마케팅 데이터베이스에서는 고객과 제품을 나타냅니다. 데이터 세트는 속성으로 설명됩니다. 데이터 세트는 데이터베이스의 데이터 튜플을 포함합니다. 데이터 세트에는 명목, 숫자 또는 문자열이 될 수있는 속성이 있습니다. Weka에서 데이터 세트는 weka.core.Instances 수업.
5 가지 예시로 데이터 세트 표현 :
@데이터
맑음, FALSE, 85,85, 아니요
햇살, TRUE, 80,90, 아니요
흐림, FALSE, 83,86, 예
장마, 거짓, 70,96, 예
장마, FALSE, 68,80, 예
속성이란 무엇입니까?
속성은 데이터 개체의 특성을 나타내는 데이터 필드입니다. 예를 들면 고객 데이터베이스에서 속성은 customer_id, customer_email, customer_address 등입니다. 속성에는 다른 유형이 있습니다.
가능한 유형은 다음과 같습니다.
A) 명목상 속성 : 이름과 관련이 있고 색상, 날씨와 같은 미리 정의 된 값이있는 속성입니다. 이러한 속성은 범주 형 속성 . 이러한 속성에는 순서가 없으며 해당 값을 열거라고도합니다.
@attribute 전망 {맑음, 흐림, 비오는 날} : 명목 속성의 선언.
B) 바이너리 속성 : 이러한 속성은 값 0과 1 만 나타냅니다. 이는 2 개의 범주 만있는 명목 속성 유형입니다. 이러한 속성을 부울이라고도합니다.
C) 서수 속성 : 순서 나 순위를 유지하는 속성은 서수 속성입니다. 연속적인 값은 예측할 수 없지만 순서 만 유지됩니다. 예: 크기, 등급 등
D) 숫자 속성 : 측정 가능한 수량을 나타내는 속성은 숫자 속성입니다. 이들은 실수 또는 정수로 표시됩니다. 예: 온도, 습도.
@attribute 습도 실제 : 숫자 속성 선언
IT 관리 소프트웨어 및 모니터링 도구
E) 문자열 속성 : 이러한 속성은 큰 따옴표로 표시된 문자 목록을 나타냅니다.
# 2) ARFF 데이터 형식
WEKA는 데이터 분석을 위해 ARFF 파일에서 작동합니다. ARFF는 속성 관계 파일 형식을 나타냅니다. 3 개의 섹션이 있습니다. 관계, 속성 및 데이터. 모든 섹션은 '@'로 시작합니다.
ARFF 파일은 공칭, 숫자, 문자열, 날짜 및 관계형 데이터 속성을 사용합니다. 잘 알려진 기계 학습 데이터 세트 중 일부는 WEKA에 ARFF로 제공됩니다.
ARFF의 형식은 다음과 같습니다.
@관계
@속성
@데이터
ARFF 파일의 예는 다음과 같습니다.
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
# 3) XRFF 데이터 형식
XRFF는 XML 속성 Relation File Format을 나타냅니다. 주석, 속성 및 인스턴스 가중치를 저장할 수있는 데이터를 나타냅니다. .xrff 확장자와 .xrff.gz (압축 형식) 파일 확장자가 있습니다. XRFF 파일은 데이터를 XML 형식으로 나타냅니다.
# 4) 데이터베이스 연결
WEKA를 사용하면 JDBC 드라이버를 사용하여 데이터베이스에 쉽게 연결할 수 있습니다. 데이터베이스에 연결하려면 JDBC 드라이버가 필요합니다. 예:
MS SQL 서버 (com.microsoft.jdbc.sqlserver.SQLServerDriver)
신탁 (oracle.jdbc.driver.OracleDriver)
# 5) 분류 자
출력 데이터를 예측하기 위해 WEKA에는 분류 기가 포함되어 있습니다. 학습에 사용할 수있는 분류 알고리즘은 의사 결정 트리, 지원 벡터 머신, 인스턴스 기반 분류기, 로지스틱 회귀 및 베이지안 네트워크입니다. 시행 및 테스트를 사용하는 요구 사항에 따라 사용자는 데이터 분석에 적합한 알고리즘을 찾을 수 있습니다. 분류기는 속성의 특성에 따라 데이터 세트를 분류하는 데 사용됩니다.
# 6) 클러스터링
WEKA는 클러스터 탭을 사용하여 데이터 세트의 유사성을 예측합니다. 클러스터링을 기반으로 사용자는 분석에 유용한 속성을 찾고 다른 속성은 무시할 수 있습니다. WEKA에서 클러스터링에 사용할 수있는 알고리즘은 k- 평균, EM, Cobweb, X- 평균 및 FarhtestFirst입니다.
# 7) 협회
연결 규칙을 찾기 위해 WEKA에서 사용할 수있는 유일한 알고리즘은 Apriori입니다.
# 8) 속성 섹션 측정
WEKA는 계산 목적으로 최상의 속성 선택을 위해 두 가지 접근 방식을 사용합니다.
- 검색 방법 알고리즘 사용 : 최고 우선, 순방향 선택, 무작위, 완전, 유전 알고리즘 및 순위 알고리즘.
- 평가 방법 알고리즘 사용 : 상관 기반, 래퍼, 정보 이득, 카이 제곱.
# 9) 시각화
WEKA는 데이터의 2D 표현, 회전을 통한 3D 시각화, 단일 속성의 1D 표현을 지원합니다. 명목 속성 및 '숨겨진'데이터 포인트에 대한 '지터'옵션이 있습니다.
WEKA의 다른 주요 기능은 다음과 같습니다.
- 'Explorer', 'Experimenter'및 'Knowledge Flow'형식의 그래픽 사용자 인터페이스가있는 오픈 소스 도구입니다.
- 플랫폼에 독립적입니다.
- 여기에는 49 개의 데이터 전처리 도구가 포함되어 있습니다.
- 76 개의 분류 및 회귀 알고리즘, 8 개의 클러스터링 알고리즘이 WEKA에 있습니다.
- 15 개의 속성 선택 알고리즘과 10 개의 기능 선택 알고리즘이 있습니다.
- 연관 규칙을 찾기위한 3 개의 알고리즘이 있습니다.
- WEKA를 사용하여 사용자는 기계 학습을위한 맞춤형 코드를 개발할 수 있습니다.
결론
이 WEKA 튜토리얼에서는 오픈 소스 WEKA 머신 러닝 소프트웨어에 대한 소개를 제공하고 단계별 다운로드 및 설치 프로세스를 설명했습니다. 또한 Weka 그래픽 사용자 인터페이스에 사용할 수있는 5 가지 옵션, 즉 Explorer, Experimenter, Knowledge flow, Workbench 및 Simple CLI를 확인했습니다.
예제를 통해 WEKA의 기능에 대해서도 배웠습니다. 기능에는 데이터 세트, ARFF 데이터 형식, 데이터베이스 연결 등이 포함됩니다.
=> 독점적 인 기계 학습 시리즈를 보려면 여기를 방문하십시오