weka dataset classifier
이 튜토리얼에서는 의사 결정 트리를위한 WEKA 데이터 세트, 분류기 및 J48 알고리즘에 대해 설명합니다. 또한 Weka의 샘플 ARFF 데이터 세트에 대한 정보를 제공합니다.
에서 이전 튜토리얼 , Weka Machine Learning 도구, 기능 및 Weka Machine Learning 소프트웨어를 다운로드, 설치 및 사용하는 방법에 대해 배웠습니다.
WEKA는 실제 데이터에 대한 데이터 마이닝 문제를 해결하기위한 기계 학습 알고리즘 라이브러리입니다. WEKA는 또한 많은 기계 학습 알고리즘을 개발할 수있는 환경을 제공합니다. 데이터 분류, 데이터 클러스터링, 회귀, 속성 선택, 빈번한 항목 세트 마이닝 등과 같은 다양한 데이터 마이닝 작업을 수행하기위한 도구 세트가 있습니다.
이러한 모든 작업은 WEKA 저장소에있는 sample.ARFF 파일에서 수행하거나 사용자가 데이터 파일을 준비 할 수 있습니다. 샘플 .arff 파일은 연구원이 수집 한 기록 데이터가 내장 된 데이터 세트입니다.
=> 완전한 기계 학습 교육 시리즈 읽기
이 튜토리얼에서는 WEKA의 샘플 데이터 세트를 확인하고 weather.arff 데이터 세트를 사용하여 의사 결정 트리 알고리즘 데이터 마이닝을 수행합니다.
학습 내용 :
WEKA 데이터 세트 탐색
WEKA 기계 학습 도구는 일부 샘플 데이터 세트의 디렉토리를 제공합니다. 사용자가 즉시 모델 개발을 시작할 수 있도록 이러한 데이터 세트를 WEKA에 직접로드 할 수 있습니다.
WEKA 데이터 세트는“C : Program Files Weka-3-8 data”링크에서 탐색 할 수 있습니다. 데이터 세트는 .arff 형식입니다.
샘플 WEKA 데이터 세트
WEKA에있는 일부 샘플 데이터 세트는 아래 표에 나열되어 있습니다.
S. 아니. | 샘플 데이터 세트 |
---|---|
7. | 당뇨병 .arff |
1. | airline.arff |
두. | 유방암 .arff |
삼. | contact-lens.arff |
네. | cpu.arff |
5. | cpu.with-vendor.arff |
6. | credit-g.arff |
8. | glass.arff |
9. | hypothyroid.arff |
10. | ionospehre.arff |
열한. | iris.2D.arff |
12. | iris.arff |
13. | labor.arff |
14. | ReutersCorn-train.arff |
열 다섯. | ReutersCorn-test.arff |
16. | ReutersGrain-train.arff |
17. | ReutersGrain-test.arff |
18. | segment-challenge.arff |
19. | segment-test.arff |
이십. | soybean.arff |
이십 일. | 슈퍼마켓 .arff |
22. | unbalanced.arff |
2. 3. | vote.arff |
24. | weather.numeric.arff |
25. | weather.nominal.arff |
다음 중 몇 가지를 살펴 보겠습니다.
contact-lens.arff
contact-lens.arff 데이터 셋은 콘택트 렌즈 피팅을위한 데이터베이스입니다. 1990 년 기부자 Benoit Julien이 기부했습니다.
데이터 베이스: 이 데이터베이스는 완전합니다. 이 데이터베이스에 사용 된 예제는 완전하고 소음이 없습니다. 데이터베이스에는 24 개의 인스턴스와 4 개의 속성이 있습니다.
속성 : 네 가지 속성은 모두 명목입니다. 누락 된 속성 값이 없습니다. 네 가지 속성은 다음과 같습니다.
#1) 환자의 나이 : 속성 age는 다음 값을 가질 수 있습니다.
- 젊은
- 노안 전
- 노안의
#두) 스펙타클 처방 :이 속성은 다음 값을 가질 수 있습니다.
- 근시
- 하이퍼 메트로 프
#삼) 난시 :이 속성은 값을 가질 수 있습니다.
- 하지 마라
- 예
# 4) 눈물 생산 속도 : 값은
- 줄인
- 표준
클래스 : 여기에 세 개의 클래스 레이블이 정의되어 있습니다. 이것들은:
- 환자는 하드 콘택트 렌즈를 착용해야합니다.
- 환자는 소프트 콘택트 렌즈를 착용해야합니다.
- 환자는 콘택트 렌즈를 착용해서는 안됩니다.
클래스 배포 : 클래스 레이블로 분류 된 인스턴스는 다음과 같습니다.
클래스 레이블 | 인스턴스 수 | |
---|---|---|
1. | 하드 콘택트 렌즈 | 4 |
두. | 소프트 콘택트 렌즈 | 5 |
삼. | 콘택트 렌즈 없음 | 열 다섯 |
iris.arff
iris.arff 데이터 셋은 1988 년에 Michael Marshall에 의해 생성되었습니다. Iris Plants 데이터베이스입니다.
MP3 변환기에 최고의 무료 YouTube
데이터 베이스: 이 데이터베이스는 패턴 인식에 사용됩니다. 데이터 세트에는 50 개 인스턴스의 3 개 클래스가 포함됩니다. 각 클래스는 붓꽃의 유형을 나타냅니다. 한 클래스는 다른 클래스와 선형 적으로 분리 가능하지만 후자는 서로 선형 적으로 분리 할 수 없습니다. 관찰이 속한 3 개의 붓꽃 중 어느 종에 속하는지 예측합니다. 이를 다중 클래스 분류 데이터 세트라고합니다.
속성 : 4 개의 숫자, 예측 속성 및 클래스가 있습니다. 누락 된 속성이 없습니다.
속성은 다음과 같습니다.
- 꽃받침 길이 (cm)
- 꽃받침 너비 (cm)
- 꽃잎 길이 (cm)
- 꽃잎 너비 (cm)
- 수업:
- 아이리스 세토 사
- 아이리스 버시 컬러
- 아이리스 버지니 카
요약 통계 :
최소 | 최대 | 평균 | SD | 클래스 상관 관계 | |
---|---|---|---|---|---|
꽃받침 길이 | 4.3 | 7.9 | 5.84 | 0.83 | 0.7826 |
꽃받침 너비 | 2.0 | 4.4 | 3.05 | 0.43 | -0.4194 |
꽃잎 길이 | 1.0 | 6.9 | 3.76 | 1. 76 | 0.9490 (높음!) |
꽃잎 너비 | 0.1 | 2.5 | 1.20 | 0.76 | 0.9565 (높음!) |
클래스 분배 : 3 개 수업 각 33.3 %
기타 데이터 세트 :
당뇨병 .arff
이 데이터 세트의 데이터베이스는 Pima Indians Diabetes입니다. 이 데이터 세트는 환자가 향후 5 년 동안 당뇨병에 걸릴 가능성이 있는지 여부를 예측합니다. 이 데이터 세트의 환자는 Pima Indian Heritage에서 온 21 세 이상의 모든 여성입니다. 768 개의 인스턴스와 8 개의 숫자 속성과 클래스가 있습니다. 예측 된 출력 변수가 두 개의 클래스로 구성된 명목 인 이진 분류 데이터 세트입니다.
ionosphere.arff
이진 분류를위한 인기있는 데이터 세트입니다. 이 데이터 세트의 인스턴스는 대기에서 반사되는 레이더의 속성을 설명합니다. 전리층이 어떤 구조를 가지고 있는지 여부를 예측하는 데 사용됩니다. 34 개의 숫자 속성과 클래스가 있습니다.
클래스 속성은 34 개의 속성 관찰을 기반으로 예측되는 '좋음'또는 '나쁨'입니다. 수신 된 신호는 시간 펄스와 펄스 수를 인수로 취하는 자기 상관 함수에 의해 처리됩니다.
회귀 데이터 세트
회귀 데이터 세트는 WEKA 웹 페이지“ 데이터 세트 모음 ”. 다양한 출처에서 얻은 37 개의 회귀 문제가 있습니다. 다운로드 된 파일은 .arff 형식의 회귀 데이터 세트가있는 숫자 / 디렉토리를 생성합니다.
디렉토리에있는 인기있는 데이터 세트는 다음과 같습니다. Longley 경제 데이터 세트 (longley.arff), Boston 주택 가격 데이터 세트 (housing.arff), 포유류 데이터 세트 (sleep.arff)의 수면.
이제 WEKA 탐색기를 사용하여 데이터 세트에서 실제 값과 명목 속성을 식별하는 방법을 살펴 보겠습니다.
실제 가치와 명목 속성은 무엇인가
실제 값 속성은 실제 값만 포함하는 숫자 속성입니다. 이것은 측정 가능한 양입니다. 이러한 속성은 온도 또는 평균, 중앙값과 같은 비율로 간격을 조정할 수 있습니다.
공칭 속성은 이름 또는 사물의 일부 표현을 나타냅니다. 이러한 속성에는 순서가 없으며 일부 범주를 나타냅니다. 예를 들면 색깔.
아래 나열된 단계에 따라 데이터 세트에서 실제 값과 명목 속성을 식별하기 위해 WEKA를 사용합니다.
#1) WEKA를 열고 '응용 프로그램'에서 '탐색기'를 선택합니다.
#두) '사전 처리'탭을 선택합니다. '파일 열기'를 클릭합니다. WEKA 사용자를 사용하면 WEKA 샘플 파일에 액세스 할 수 있습니다.
#삼) 로컬 시스템에 저장된 WEKA3.8 폴더에서 입력 파일을 선택합니다. 미리 정의 된 .arff 파일 'credit-g.arff'파일을 선택하고 '열기'를 클릭합니다.
# 4) 왼쪽 패널에 속성 목록이 열립니다. 선택한 속성 통계는 히스토그램과 함께 오른쪽 패널에 표시됩니다.
데이터 세트 분석 :
왼쪽 패널에 현재 관계가 표시됩니다.
- 관계 이름 : german_credit는 샘플 파일입니다.
- 인스턴스 : 데이터 세트에있는 1000 개의 데이터 행.
- 속성 : 데이터 세트의 21 개 속성.
현재 관계 아래의 패널에는 속성 이름이 표시됩니다.
오른쪽 패널에서 선택한 속성 통계가 표시됩니다. 선택 'checking_status'속성.
이것은 보여준다:
- 속성의 이름
- 잃어버린: 데이터 세트에있는 속성의 누락 된 값입니다. 이 경우 0 %입니다.
- 뚜렷한: 속성에는 4 개의 고유 값이 있습니다.
- 유형: 속성은 명목 유형입니다. 즉, 숫자 값을 사용하지 않습니다.
- 카운트: 1000 개의 인스턴스 중 각 고유 클래스 레이블의 개수는 개수 열에 기록됩니다.
- 히스토그램 : 속성에 대한 출력 클래스 레이블이 표시됩니다. 이 데이터 세트의 클래스 레이블은 좋거나 나쁩니다. 양호 (파란색으로 표시) 700 개와 불량 (빨간색으로 표시) 300 개가 있습니다.
- 라벨 용<0, the instances for good or bad are almost the same in number.
- 라벨의 경우 0<= X<200, the instances with decision good are more than instances with bad.
- 마찬가지로 레이블> = 200의 경우 최대 인스턴스가 정상으로 발생하고 확인 레이블이없는 경우 결정이 좋은 인스턴스가 더 많습니다.
다음 속성 '기간'의 경우.
오른쪽 패널에는 다음이 표시됩니다.
- 이름: 속성의 이름입니다.
- 유형: 속성 유형은 숫자입니다.
- 누락 된 값 : 속성에 누락 된 값이 없습니다.
- 뚜렷한: 1000 개의 인스턴스에 33 개의 고유 한 값이 있습니다. 1000 개의 인스턴스에서 33 개의 고유 한 값이 있음을 의미합니다.
- 독특한: 서로 일치하지 않는 5 개의 고유 한 값이 있습니다.
- 최소값 : 속성의 최소값은 4입니다.
- 최대 값 : 속성의 최대 값은 72입니다.
- 평균: 평균은 인스턴스로 나눈 모든 값을 더하는 것입니다.
- 표준 편차: 속성 기간의 Stddeviation.
- 히스토그램 : 히스토그램은 4 단위의 기간을 나타내며, 좋은 클래스에 대해 최대 인스턴스가 발생합니다. 기간이 38 단위로 증가하면 좋은 등급 레이블에 대한 인스턴스 수가 줄어 듭니다. 기간은 결정을 잘못된 것으로 분류하는 인스턴스가 하나 뿐인 72 단위에 도달합니다.
클래스는 공칭 유형의 분류 기능입니다. 두 가지 고유 한 값이 있습니다. 좋은것과 나쁜 것. 좋은 클래스 레이블에는 700 개의 인스턴스가 있고 잘못된 클래스 레이블에는 300 개의 인스턴스가 있습니다.
데이터 세트의 모든 속성을 시각화하려면 '모두 시각화'를 클릭합니다.
# 5) 숫자 속성 만 찾으려면 필터 버튼을 클릭합니다. 거기에서 -> WEKA> 필터-> 비 감독 유형-> 유형 제거를 선택합니다.
WEKA 필터에는 알고리즘에 적합하도록 데이터 세트의 속성 값을 변환하는 많은 기능이 있습니다. 예를 들면 속성의 숫자 변환.
데이터 세트에서 명목 및 실수 값 속성을 필터링하는 것은 WEKA 필터를 사용하는 또 다른 예입니다.
# 6) 필터 탭에서 RemoveType을 클릭하십시오. 개체 편집기 창이 열립니다. attributeType '숫자 속성 삭제'를 선택하고 확인을 클릭합니다.
# 7) 필터를 적용하십시오. 숫자 속성 만 표시됩니다.
클래스 속성은 명목 유형입니다. 출력을 분류하므로 삭제할 수 없습니다. 따라서 숫자 속성으로 표시됩니다.
산출:
데이터 세트의 실제 값 및 명목 값 속성이 식별됩니다. 클래스 레이블을 사용한 시각화는 히스토그램의 형태로 표시됩니다.
Weka 의사 결정 트리 분류 알고리즘
이제 J48 분류기를 사용하여 weather.nominal.arff 데이터 세트에서 의사 결정 트리 분류를 구현하는 방법을 살펴 보겠습니다.
weather.nominal.arff
WEKA에서 직접 제공하는 샘플 데이터 세트입니다. 이 데이터 세트는 날씨가 크리켓 경기에 적합한 지 예측합니다. 데이터 세트에는 5 개의 속성과 14 개의 인스턴스가 있습니다. 클래스 레이블 'play'는 출력을 'yes'또는 'no'로 분류합니다.
의사 결정 나무 란?
의사 결정 트리는 루트 노드, 분기 (에지 또는 링크) 및 리프 노드의 세 가지 구성 요소로 구성된 분류 기술입니다. 루트는 다른 속성에 대한 테스트 조건을 나타내고 분기는 테스트에있을 수있는 모든 가능한 결과를 나타내며 리프 노드에는 자신이 속한 클래스의 레이블이 포함됩니다. 루트 노드는 트리의 맨 위라고도하는 트리의 시작 부분에 있습니다.
J48 분류기
C4.5 (ID3의 확장)에 의해 생성되는 의사 결정 트리를 생성하는 알고리즘입니다. 통계 분류기라고도합니다. 의사 결정 트리 분류를 위해서는 데이터베이스가 필요합니다.
단계는 다음과 같습니다.
#1) WEKA 탐색기를 엽니 다.
#두) 전처리 탭 옵션의 '파일 선택'에서 weather.nominal.arff 파일을 선택하십시오.
#삼) 분류되지 않은 데이터를 분류하려면 '분류'탭으로 이동하십시오. '선택'버튼을 클릭합니다. 여기에서 'trees-> J48'을 선택합니다. 또한 선택 버튼에있는 다른 옵션을 간단히 살펴 보겠습니다.
- 베이 즈 : 수치 속성에 대한 밀도 추정입니다.
- 메타 : 다중 반응 선형 회귀입니다.
- 기능 : 로지스틱 회귀입니다.
- 게으른: 블렌드 엔트로피를 자동으로 설정합니다.
- 규칙: 규칙 학습자입니다.
- 나무: 나무는 데이터를 분류합니다.
# 4) 시작 버튼을 클릭하십시오. 분류기 출력은 오른쪽 패널에 표시됩니다. 다음과 같이 패널에 실행 정보가 표시됩니다.
- 계획: 사용 된 분류 알고리즘입니다.
- 인스턴스 : 데이터 세트의 데이터 행 수입니다.
- 속성 : 데이터 세트에는 5 개의 속성이 있습니다.
- 잎의 수와 나무의 크기는 의사 결정 나무를 설명합니다.
- 모델 구축에 소요 된 시간 : 출력 시간입니다.
- 속성 및 인스턴스 수로 정리 된 J48의 전체 분류.
# 5) 트리를 시각화하려면 결과를 마우스 오른쪽 버튼으로 클릭하고 트리 시각화를 선택합니다.
산출 :
출력은 의사 결정 트리 형식입니다. 주요 속성은 '전망'입니다.
전망이 맑으면 그런 다음 나무는 습도를 추가로 분석합니다. 습도가 높으면 등급 레이블이 '예'입니다.
전망이 흐리다면 클래스 레이블, 플레이는 '예'입니다. 분류를 따르는 인스턴스의 수는 4 개입니다.
전망이 비가 오면 'windy'속성을 분석하기 위해 추가 분류가 수행됩니다. windy = true이면 연극 = '아니오'입니다. outlook = windy 및 windy = true 분류를 따르는 인스턴스 수는 2입니다.
결론
WEKA는 기계 학습 알고리즘을 적용하기위한 광범위한 샘플 데이터 세트를 제공합니다. 사용자는 분류, 회귀, 속성 선택, 이러한 샘플 데이터 세트에 대한 연관과 같은 기계 학습 작업을 수행 할 수 있으며이를 사용하여 도구를 학습 할 수도 있습니다.
WEKA 탐색기는 전처리부터 시작하여 여러 기능을 수행하는 데 사용됩니다. 전처리는 입력을 .arff 파일로 가져 와서 입력을 처리하고 다른 컴퓨터 프로그램에서 사용할 수있는 출력을 제공합니다. WEKA에서 전처리의 출력은 데이터 세트에있는 속성을 제공하여 통계 분석 및 클래스 레이블과의 비교에 추가로 사용할 수 있습니다.
WEKA는 의사 결정 트리를위한 다양한 분류 알고리즘도 제공합니다. J48은 의사 결정 트리를 출력하는 인기있는 분류 알고리즘 중 하나입니다. 분류 탭을 사용하여 사용자는 의사 결정 트리를 시각화 할 수 있습니다. 의사 결정 트리가 너무 채워지면 필요하지 않은 속성을 제거하고 분류 프로세스를 다시 시작하여 전처리 탭에서 트리 정리를 적용 할 수 있습니다.
=> 독점적 인 기계 학습 시리즈를 보려면 여기를 방문하십시오