weka explorer visualization
이 튜토리얼에서는 WEKA Explorer를 사용하여 데이터 시각화, K- 평균 군집 분석 및 연관 규칙 마이닝을 수행하는 방법을 설명합니다.
에서 이전 튜토리얼 에서 WEKA Dataset, Classifier, J48 Algorithm for Decision Tree에 대해 배웠습니다.
이전에 살펴본 것처럼 WEKA는 많은 연구자와 학생들이 많은 기계 학습 작업을 수행하는 데 사용하는 오픈 소스 데이터 마이닝 도구입니다. 사용자는 기계 학습 방법을 구축하고 WEKA 디렉토리에 제공된 샘플 데이터 세트에 대한 실험을 수행 할 수도 있습니다.
WEKA의 데이터 시각화는 샘플 데이터 세트 또는 .arff, .csv 형식의 사용자가 만든 데이터 세트를 사용하여 수행 할 수 있습니다.
=> 완전한 기계 학습 교육 시리즈 읽기
연관 규칙 마이닝은 Apriori 알고리즘을 사용하여 수행됩니다. 빈번한 패턴 마이닝을 수행하기 위해 WEKA에서 제공하는 유일한 알고리즘입니다.
WEKA에는 FartherestFirst, FilteredCluster 및 HierachicalCluster 등과 같은 클러스터 분석을 수행하기위한 많은 알고리즘이 있습니다.이 중에서 가장 간단한 클러스터링 방법 인 SimpleKmeans를 사용합니다.
학습 내용 :
WEKA Explorer를 사용한 연관 규칙 마이닝
WEKA Explorer를 사용하여 Association Rule Mining을 구현하는 방법을 살펴 보겠습니다.
연관 규칙 마이닝
1994 년 Srikant와 Aggarwal에 의해 개발 및 설계되었습니다. 데이터에서 패턴을 찾는 데 도움이됩니다. 함께 발생하는 기능 또는 상호 관련된 기능을 찾는 데이터 마이닝 프로세스입니다.
Mac 크롬을위한 최고의 광고 차단기
연관 규칙의 적용에는 단일 바구니에서 구매 한 품목을 분석하는 시장 바구니 분석이 포함됩니다. 자동차 딜러 및 석유 회사와 같은 비즈니스 제품 가치를 높이는 다른 비즈니스와 협력하기위한 교차 마케팅.
큰 데이터 세트에서 자주 항목 세트가 발견 된 후 연관 규칙이 마이닝됩니다. 이러한 데이터 세트는 Apriori 및 FP Growth와 같은 마이닝 알고리즘을 사용하여 발견됩니다. Frequent Itemset 마이닝은 지원 및 신뢰 측정을 사용하여 데이터를 마이닝합니다.
지원과 신뢰
지원하다 빵과 버터와 같은 단일 거래에서 두 품목이 함께 구매 될 확률을 측정합니다. 자신 랩톱 및 컴퓨터 바이러스 백신 소프트웨어와 같이 두 항목을 차례로 구매하지만 함께 구매하지 않을 확률을 나타내는 척도입니다.
최소 임계 값 지원 및 최소 임계 값 신뢰도 값은 트랜잭션을 정리하고 가장 자주 발생하는 항목 집합을 찾는 것으로 가정합니다.
WEKA Explorer를 사용한 구현
WEKA에는 Apriori 알고리즘 학습 협회 규칙. Apriori는 이진 속성, 범주 형 데이터 (명목 데이터)에서만 작동하므로 데이터 세트에 숫자 값이 포함 된 경우 먼저 명목으로 변환합니다.
Apriori는 최소 지원 및 신뢰 임계 값으로 모든 규칙을 찾습니다.
아래 단계를 따르십시오.
#1) Excel 파일 데이터 세트를 준비하고 이름을“ apriori.csv '.
#두) WEKA Explorer를 열고 Preprocess 탭에서 'apriori.csv'파일을 선택합니다.
#삼) 이제 파일이 WEKA Explorer에로드됩니다.
# 4) 아래 이미지와 같이 확인란을 선택하고 제거를 클릭하여 트랜잭션 필드를 제거하십시오. 이제 파일을 'aprioritest.arff'로 저장합니다.
# 5) Associate 탭으로 이동합니다. apriori 규칙은 여기에서 채굴 할 수 있습니다.
# 6) 지원 및 신뢰 매개 변수를 설정하려면 선택을 클릭하십시오. 여기에서 설정할 수있는 다양한 매개 변수는 다음과 같습니다.
- ' lowerBoundMinSupport ”및“ upperBoundMinSupport ”, 이것은 우리 알고리즘이 작동하는 지원 수준 간격입니다.
- 델타 지원의 증분입니다. 이 경우 0.05는 0.1에서 1까지의 지원 증분입니다.
- metricType 'Confidence', 'Lift', 'Leverage'및 'Conviction'이 될 수 있습니다. 이것은 우리가 연결 규칙의 순위를 매기는 방법을 알려줍니다. 일반적으로 Confidence가 선택됩니다.
- numRules 마이닝 할 연관 규칙의 수를 알려줍니다. 기본적으로 10으로 설정됩니다.
- 중요도 신뢰 수준의 중요성을 나타냅니다.
# 7) 선택 버튼 옆의 텍스트 상자에 ' Apriori-N-10-T-0-C-0.9-D 0.05-U1.0-M0.1-S-1.0-c-1 ”는 설정 탭에서 알고리즘에 대해 설정된 요약 된 규칙을 보여줍니다.
# 8) 시작 버튼을 클릭하십시오. 연결 규칙은 오른쪽 패널에 생성됩니다. 이 패널은 2 개의 섹션으로 구성됩니다. 첫 번째는 알고리즘, 실행하도록 선택한 데이터 세트입니다. 두 번째 부분은 Apriori 정보를 보여줍니다.
오른쪽 패널의 실행 정보를 이해하겠습니다.
- Scheme은 우리 Apriori를 사용했습니다.
- 인스턴스 및 속성 : 6 개의 인스턴스와 4 개의 속성이 있습니다.
- 최소 지원과 최소 신뢰는 각각 0.4와 0.9입니다. 6 개 인스턴스 중 최소 지원으로 2 개의 인스턴스가 발견되었습니다.
- 마이닝 연관 규칙에 대해 수행 된주기 수는 12입니다.
- 생성 된 큰 항목 집합은 3 : L (1), L (2), L (3)이지만 크기가 각각 7, 11 및 5이므로 순위가 지정되지 않습니다.
- 발견 된 규칙이 순위가 매겨집니다. 이 규칙의 해석은 다음과 같습니다.
- 버터 T 4 => 맥주 F 4 : 6 개 중 4 개 사례는 버터가 참이면 맥주가 거짓임을 나타냅니다. 이것은 강한 연관성을 제공합니다. 신뢰 수준은 0.1입니다.
산출
연결 규칙은 Apriori 알고리즘과 함께 WEKA Explorer를 사용하여 채굴 할 수 있습니다. 이 알고리즘은 WEKA 디렉토리에서 사용 가능한 모든 유형의 데이터 세트와 사용자가 만든 다른 데이터 세트에 적용 할 수 있습니다. 지원 및 신뢰도 및 기타 매개 변수는 알고리즘의 설정 창을 사용하여 설정할 수 있습니다.
WEKA Explorer를 사용한 K- 평균 알고리즘
WEKA Explorer를 사용하여 클러스터링을위한 K- 평균 알고리즘을 구현하는 방법을 살펴 보겠습니다.
군집 분석이란?
클러스터링 알고리즘은 유사한 특성을 가진 데이터 그룹을 생성하는 데 사용되는 비지도 학습 알고리즘입니다. 유사성이있는 개체를 그룹 및 하위 그룹으로 집계하여 데이터 집합을 분할합니다. 클러스터 분석은 데이터 세트를 하위 집합으로 나누는 프로세스입니다. 이러한 하위 집합을 클러스터라고하고 클러스터 집합을 클러스터링이라고합니다.
Cluster Analysis는 비슷한 선호도를 가진 고객 그룹화와 같은 비즈니스 인텔리전스에서 이미지 인식, 패턴 인식, 웹 검색 및 보안과 같은 많은 애플리케이션에서 사용됩니다.
K- 평균 클러스터링이란?
K는 클러스터링이 가장 간단한 클러스터링 알고리즘임을 의미합니다. K- 클러스터링 알고리즘에서 데이터 세트는 K- 클러스터로 분할됩니다. 목적 함수는 유사한 개체가 한 클러스터에 있고 다른 개체가 다른 그룹에 있도록 파티션의 품질을 찾는 데 사용됩니다.
이 방법에서는 클러스터의 중심이 클러스터를 나타냅니다. 중심은 군집 내 점의 평균 값으로 계산되는 군집의 중심으로 간주됩니다. 이제 군집의 품질은 점과 중심 사이의 유클리드 거리를 측정하여 찾을 수 있습니다. 이 거리는 최대 여야합니다.
K- 평균 클러스터링 알고리즘의 작동 원리
1 단계: K 값을 선택하십시오. 여기서 K는 클러스터 수입니다.
2 단계: 각 점을 반복하고 가장 가까운 중심을 갖는 클러스터를 할당합니다. 각 요소가 반복되면 모든 클러스터의 중심을 계산합니다.
3 단계 : 데이터 세트의 모든 요소를 반복하고 모든 군집의 점과 중심 사이의 유클리드 거리를 계산합니다. 클러스터에 가장 가깝지 않은 포인트가 있으면 가장 가까운 클러스터에 해당 포인트를 재 할당하고 데이터 세트의 모든 포인트에이를 수행 한 후 각 클러스터의 중심을 다시 계산합니다.
4 단계 : 두 개의 연속 반복 사이에 새로운 할당이 발생하지 않을 때까지 3 단계를 수행합니다.
WEKA를 이용한 K- 평균 클러스터링 구현
Weka를 사용한 구현 단계는 다음과 같습니다.
#1) WEKA Explorer를 열고 Preprocess 탭에서 Open File을 클릭합니다. 'vote.arff'데이터 세트를 선택합니다.
#두) “Cluster”탭으로 이동하여“Choose”버튼을 클릭합니다. 클러스터링 방법을 'SimpleKMeans'로 선택합니다.
# 3) 설정을 선택한 후 다음 필드를 설정합니다.
- 유클리드로서의 거리 함수
- 클러스터 수는 6입니다. 클러스터 수가 많을수록 제곱 오차의 합이 줄어 듭니다.
- 시드 10.
확인을 클릭하고 알고리즘을 시작하십시오.
# 4) 왼쪽 패널에서 시작을 클릭합니다. 알고리즘은 흰색 화면에 결과를 표시합니다. 실행 정보를 분석해 보겠습니다.
- 구성표, 관계, 인스턴스 및 속성은 데이터 세트의 속성과 사용 된 클러스터링 방법을 설명합니다. 이 경우 vote.arff 데이터 세트에는 435 개의 인스턴스와 13 개의 속성이 있습니다.
- Kmeans 클러스터의 경우 반복 횟수는 5입니다.
- 제곱 오차의 합은 1098.0입니다. 이 오류는 클러스터 수가 증가하면 감소합니다.
- 중심이있는 5 개의 최종 군집이 표 형식으로 표시됩니다. 이 경우 군집의 중심은 168.0, 47.0, 37.0, 122.0.33.0 및 28.0입니다.
- 클러스터링 된 인스턴스는 클러스터에 속하는 총 인스턴스의 수와 비율을 나타냅니다.
# 5) 'Classes to Clusters Evaluations'를 선택하고 시작을 클릭합니다.
알고리즘은 클러스터에 클래스 레이블을 할당합니다. 클러스터 0은 공화당을 나타내고 클러스터 3은 민주당을 나타냅니다. 잘못 클러스터 된 인스턴스는 39.77 %이며 중요하지 않은 속성을 무시하여 줄일 수 있습니다.
# 6) 중요하지 않은 속성을 무시합니다. '속성 무시'버튼을 클릭하고 제거 할 속성을 선택합니다.
# 7) 클러스터링 알고리즘 결과를 시각화하려면 '시각화'탭을 사용하십시오. 탭으로 이동하여 아무 상자 나 클릭하십시오. 지터를 최대로 이동합니다.
- X 축과 Y 축은 속성을 나타냅니다.
- 파란색은 계급 레이블 민주당을 나타내고 빨간색은 계급 레이블 공화당을 나타냅니다.
- 지터는 클러스터를 보는 데 사용됩니다.
- 창의 오른쪽에있는 상자를 클릭하여 x 좌표 속성을 변경하고 다른 속성과 관련된 클러스터링을 봅니다.
산출
K는 클러스터링이 간단한 클러스터 분석 방법임을 의미합니다. 클러스터 수는 설정 탭을 사용하여 설정할 수 있습니다. 각 군집의 중심은 군집 내 모든 점의 평균으로 계산됩니다. 군집 수가 증가하면 제곱 오차의 합이 감소합니다. 클러스터 내의 개체는 유사한 특성과 속성을 나타냅니다. 클러스터는 클래스 레이블을 나타냅니다.
WEKA를 사용하여 데이터 시각화 구현
데이터 시각화
데이터를 명확하게 이해하기 위해 그래프와 플롯을 통해 데이터를 표현하는 방법은 데이터 시각화입니다.
데이터를 표현하는 방법에는 여러 가지가 있습니다. 그들 중 일부는 다음과 같습니다.
# 1) 픽셀 지향 시각화 : 여기서 픽셀의 색상은 치수 값을 나타냅니다. 픽셀의 색상은 해당 값을 나타냅니다.
# 2) 기하학적 표현 : 다차원 데이터 세트는 2D, 3D 및 4D 산점도에 표시됩니다.
# 3) 아이콘 기반 시각화 : 데이터는 Chernoff의 얼굴과 막대기로 표현됩니다. Chernoff의 얼굴은 인간의 마음의 능력을 사용하여 얼굴의 특징과 차이점을 인식합니다. 막대 그림은 5 개의 막대 그림을 사용하여 다차원 데이터를 나타냅니다.
좋은 이메일 공급자는 무엇입니까
# 4) 계층 적 데이터 시각화 : 데이터 세트는 트리 맵을 사용하여 표시됩니다. 계층 적 데이터를 중첩 삼각형 세트로 나타냅니다.
WEKA Explorer를 사용한 데이터 시각화
WEKA를 사용한 데이터 시각화는 IRIS.arff 데이터 세트에서 수행됩니다.
관련된 단계는 다음과 같습니다.
#1) Preprocess 탭으로 이동하여 IRIS.arff 데이터 세트를 엽니 다.
#두) 데이터 세트에는 4 개의 속성과 1 개의 클래스 레이블이 있습니다. 이 데이터 세트의 속성은 다음과 같습니다.
- Sepallength : 유형-숫자
- Sepalwidth : 유형-숫자
- 페타 길이 : 유형-숫자
- 꽃잎 너비 : 유형-숫자
- 수업: 형식 명목
#삼) 데이터 세트를 시각화하려면 시각화 탭으로 이동합니다. 탭에는 속성 플롯 행렬이 표시됩니다. 데이터 세트 속성은 인스턴스가 플로팅되는 동안 x 축과 y 축에 표시됩니다. x 축 속성과 y 축 속성이있는 상자를 확대 할 수 있습니다.
# 4) 확대하려면 플롯의 상자를 클릭하십시오. 예를 들면 x : 꽃잎 길이 및 y : 꽃잎 너비. 클래스 레이블은 서로 다른 색상으로 표시됩니다.
- 클래스 라벨-아이리스-세토 사 : 파란색
- 클래스 라벨-Iris-versicolor : 빨간색
- 클래스 라벨 -Iris-virginica-green
이러한 색상은 변경할 수 있습니다. 색상을 변경하려면 하단의 클래스 레이블을 클릭하면 색상 창이 나타납니다.
# 5) 플롯에서 'x'로 표시된 인스턴스를 클릭합니다. 인스턴스 세부 정보를 제공합니다. 예를 들면 :
- 인스턴스 번호 : 91
- Sepalength : 5.5
- Sepalwidth : 2.6
- 페타 길이 : 4.4
- 꽃잎 너비 : 1.2
- 수업: 아이리스 버시 컬러
플롯의 일부 포인트는 다른 포인트보다 어둡게 나타납니다. 이러한 점은 같은 클래스 레이블과 같은 속성 값 (예 : petalwidth 및 petallength)이 그래프에 표시된 2 개 이상의 인스턴스를 나타냅니다.
아래 그림은 2 개의 인스턴스 정보가있는 지점을 나타냅니다.
# 6) X 및 Y 축 속성은 그래프 시각화의 오른쪽 패널에서 변경할 수 있습니다. 사용자는 다른 플롯을 볼 수 있습니다.
# 7) 지터는 플롯에 임의성을 추가하는 데 사용됩니다. 때때로 포인트가 겹칩니다. 지터를 사용하면 더 어두운 점이 여러 인스턴스를 나타냅니다.
# 8) 데이터 세트를 더 명확하게보고 이상 값을 제거하기 위해 사용자는 드롭 다운에서 인스턴스를 선택할 수 있습니다. '인스턴스 선택'드롭 다운을 클릭합니다. '직사각형'을 선택합니다. 이를 통해 사용자는 직사각형을 플로팅하여 플롯에서 포인트를 선택할 수 있습니다.
# 9) “제출”을 클릭하십시오. 선택한 데이터 세트 포인트 만 표시되고 다른 포인트는 그래프에서 제외됩니다.
아래 그림은 선택한 직사각형 모양의 점을 보여줍니다. 플롯은 3 개의 클래스 레이블 만있는 점을 나타냅니다. 사용자는 '저장'을 클릭하여 데이터 세트를 저장하거나 '재설정'을 클릭하여 다른 인스턴스를 선택할 수 있습니다. 데이터 세트는 별도의 .ARFF 파일에 저장됩니다.
산출:
박스 플롯 덕분에 WEKA를 사용한 데이터 시각화가 단순화됩니다. 사용자는 모든 수준의 세분성을 볼 수 있습니다. 속성은 X 축 및 Y 축에 표시되고 인스턴스는 X 및 Y 축에 대해 표시됩니다. 일부 포인트는 어두운 색상의 포인트로 표시되는 여러 인스턴스를 나타냅니다.
결론
WEKA는 많은 데이터 마이닝 작업을 수행하고 데이터 세트에 대한 새로운 방법을 실험 할 수있는 효율적인 데이터 마이닝 도구입니다. WEKA는 뉴질랜드 와이 카토 대학교 컴퓨터 과학과에서 개발했습니다.
오늘날의 세상은 슈퍼마켓에서 쇼핑하는 것부터 가정의 보안 카메라에 이르기까지 데이터로 가득 차 있습니다. 데이터 마이닝은이 원시 데이터를 사용하여 예측을위한 정보로 변환합니다. Apriori 알고리즘의 도움으로 WEKA는 데이터 세트의 마이닝 연관 규칙을 지원합니다. Apriori는 트랜잭션에서 항목 집합의 발생 횟수를 계산하는 빈번한 패턴 마이닝 알고리즘입니다.
군집 분석은 유사한 특성을 나타내는 데이터 군집을 찾는 기술입니다. WEKA는 simplekmeans가 많이 사용되는 클러스터 분석을 수행하기 위해 많은 알고리즘을 제공합니다.
WEKA의 데이터 시각화는 WEKA 디렉토리의 모든 데이터 세트에서 수행 할 수 있습니다. 원시 데이터 세트를 볼 수있을뿐만 아니라 분류, 클러스터링 및 연관과 같은 다른 알고리즘의 다른 결과 데이터 세트도 WEKA를 사용하여 시각화 할 수 있습니다.
=> 독점적 인 기계 학습 시리즈를 보려면 여기를 방문하십시오