data mining techniques
데이터 마이닝 기술에 대한이 심층 자습서에서는 유용한 데이터를 추출하기위한 알고리즘, 데이터 마이닝 도구 및 방법을 설명합니다.
어떤 종류의 이메일이 있습니까
이것에 모두를위한 심층 데이터 마이닝 교육 자습서 , 이전 튜토리얼에서 데이터 마이닝에 대한 모든 것을 살펴 보았습니다.
이 튜토리얼에서는 데이터 추출에 사용되는 다양한 기술에 대해 배웁니다. 데이터 마이닝은 방대한 양의 데이터에서 유용한 정보를 추출하는 개념이라는 것을 알고 있으므로 유용한 정보를 추출하기 위해 대규모 데이터 세트에 일부 기술과 방법이 적용됩니다.
이러한 기술은 기본적으로 데이터 세트에 적용되는 방법 및 알고리즘의 형태입니다. 데이터 마이닝 기술 중 일부는 다음과 같습니다. 마이닝 빈번한 패턴, 연관 및 상관, 분류, 클러스터링, 이상치 감지 및 통계, 시각 및 오디오 데이터 마이닝과 같은 일부 고급 기술.
일반적으로 관계형 데이터베이스, 트랜잭션 데이터베이스 및 데이터웨어 하우스는 데이터 마이닝 기술에 사용됩니다. 그러나 시계열, 기호 시퀀스 및 생물학적 순차 데이터와 같은 복잡한 데이터에 대한 고급 마이닝 기술도 있습니다.
학습 내용 :
데이터 마이닝 기법의 목적
매일 방대한 양의 데이터가 저장되는 상황에서 기업은 이제 그로부터 추세를 파악하는 데 관심이 있습니다. 데이터 추출 기술은 원시 데이터를 유용한 지식으로 변환하는 데 도움이됩니다. 엄청난 양의 데이터를 채굴하려면 사람이 대량의 데이터를 수동으로 처리하는 것이 불가능하기 때문에 소프트웨어가 필요합니다.
데이터 마이닝 소프트웨어는 의사 결정 프로세스에 도움이 될 수있는 대형 데이터베이스의 서로 다른 항목 간의 관계를 분석하고, 고객에 대해 더 많이 배우고, 마케팅 전략을 만들고, 판매량을 늘리고, 비용을 줄일 수 있습니다.
데이터 추출 기술 목록
적용 할 데이터 마이닝 기술은 데이터 분석의 관점에 따라 다릅니다.
따라서 데이터 추출이 다양한 방식으로 수행되는 방법에 대한 다양한 기술에 대해 논의 해 보겠습니다.
# 1) 빈번한 패턴 마이닝 / 연관 분석
이 유형의 데이터 마이닝 기술은 주어진 데이터 세트에서 반복되는 관계를 찾습니다. 데이터베이스에있는 다른 항목 간의 흥미로운 연관성 및 상관 관계를 찾고 패턴을 식별합니다.
예, '장바구니 분석'은 '고객이 상점에서 함께 구매할 가능성이있는 제품은 무엇입니까?'입니다. 빵과 버터와 같은.
신청: 매장 진열대, 마케팅, 제품 교차 판매에 제품 배치 설계.
패턴은 연관 규칙의 형태로 표현 될 수 있습니다. 연관 규칙은 지원과 신뢰가 관련 항목의 유용성을 찾는 매개 변수라고 말합니다. 한 번에 두 항목을 함께 구매 한 거래를 지원이라고합니다.
고객이 두 품목을 모두 구매했지만 차례로 구매 한 거래는 자신감입니다. 채굴 된 패턴은 최소 지원 임계 값 과 최소 신뢰 임계 값 값. 임계 값은 도메인 전문가가 결정합니다.
빵 => 버터 [지지 = 2 %, 신뢰 -60 %]
위의 문은 연결 규칙의 예입니다. 이는 빵과 버터를 함께 구입 한 거래가 2 %이고 버터와 빵을 구입 한 고객의 60 %가 있음을 의미합니다.
연관성 분석을 구현하는 단계 :
- 빈번한 아이템 세트 찾기. Itemset은 항목 집합을 의미합니다. k 개의 항목을 포함하는 항목 세트는 k-itemset입니다. 항목 세트의 빈도는 항목 세트를 포함하는 트랜잭션 수입니다.
- 빈번한 항목 집합에서 강력한 연결 규칙을 생성합니다. 강력한 연관 규칙이란 최소 임계 값 지원 및 신뢰도를 충족 함을 의미합니다.
Apriori Algorithm, Pattern Growth Approach, Vertical Data Format을 이용한 Mining과 같은 다양한 빈번한 아이템 셋 마이닝 방법이 있습니다. 이 기술은 일반적으로 시장 바구니 분석으로 알려져 있습니다.
# 2) 상관 관계 분석
상관 분석은 연관 규칙의 확장 일뿐입니다. 때로는 지원 및 신뢰 매개 변수가 여전히 사용자에게 흥미롭지 않은 패턴을 제공 할 수 있습니다.
위의 진술을 뒷받침하는 예는 다음과 같습니다. 분석 된 1000 개의 트랜잭션 중 600 개는 빵만 포함하고 750 개는 버터를 포함하고 400 개는 빵과 버터를 모두 포함했습니다. 연결 규칙 실행에 대한 최소 지원이 30 %이고 최소 신뢰도가 60 %라고 가정합니다.
400 / 1000 = 40 % 및 신뢰 값 = 400 / 600 = 66 %의 지원 값이 임계 값을 충족합니다. 그러나 버터를 구매할 확률은 75 %로 66 % 이상입니다. 이것은 빵과 버터가 하나를 구매하면 다른 하나의 구매가 감소하므로 음의 상관 관계가 있음을 의미합니다. 결과는 기만적입니다.
위의 예에서지지와 신뢰는 흥미로운 패턴을 채굴하는 데 도움이되는 또 다른 흥미도 측정 즉 상관 분석으로 보완됩니다.
A => B [지지, 신뢰도, 상관 관계].
상관 규칙은 항목 세트 A와 B 간의 지원, 신뢰도 및 상관으로 측정됩니다. 상관 관계는 리프트와 카이-제곱으로 측정됩니다.
(i) 리프트 : 단어 자체에서 알 수 있듯이 Lift는 한 항목 집합의 존재가 다른 항목 집합의 발생을 높이는 정도를 나타냅니다.
A와 B 발생 사이의 상승도는 다음과 같이 측정 할 수 있습니다.
리프트 (A, B) = P (A U B) / P (A). P (B).
만약 그렇다면<1, then A and B are negatively correlated.
> 1 인 경우. 그러면 A와 B는 양의 상관 관계가 있습니다. 즉, 하나의 발생이 다른 하나의 발생을 의미합니다.
= 1이면 둘 사이에 상관 관계가 없습니다.
(ii) 카이-제곱 : 이것은 또 다른 상관 측정입니다. 슬롯 (A 및 B 쌍)에 대한 관측 값과 기대 값 간의 제곱 차이를 예상 값으로 나눈 값을 측정합니다.
> 1이면 음의 상관 관계입니다.
# 3) 분류
분류는 중요한 데이터 클래스의 모델을 구축하는 데 도움이됩니다. 클래스 레이블을 예측하기 위해 모델 또는 분류 기가 구성됩니다. 레이블은 '예'또는 '아니요', '안전'또는 '위험'과 같은 개별 값으로 정의 된 클래스입니다. 레이블 클래스가 이미 알려져 있기 때문에지도 학습의 한 유형입니다.
데이터 분류는 2 단계 프로세스입니다.
- 학습 단계 : 모델은 여기에서 구성됩니다. 제공된 클래스 레이블로 분석 할 데이터에 미리 정의 된 알고리즘을 적용하고 분류 규칙을 구성합니다.
- 분류 단계 : 모델은 주어진 데이터에 대한 클래스 레이블을 예측하는 데 사용됩니다. 분류 규칙의 정확성은 테스트 데이터에 의해 추정되며 정확하다고 판단되면 새 데이터 튜플의 분류에 사용됩니다.
항목 집합의 항목은 클래스 레이블 수준에서 기능을 예측하기 위해 대상 범주에 할당됩니다.
신청: 대출 신청자를 저 위험, 중위 험 또는 고위험으로 식별하는 은행, 연령대 분류에 따라 마케팅 캠페인을 설계하는 기업 .`
# 4) 의사 결정 트리 유도
의사 결정 트리 유도 방법은 분류 분석 아래에 있습니다. 의사 결정 트리는 이해하기 쉽고 간단하고 빠른 트리와 같은 구조입니다. 여기서 리프가 아닌 각 노드는 특성에 대한 테스트를 나타내고 각 분기는 테스트 결과를 나타내고 리프 노드는 클래스 레이블을 나타냅니다.
튜플의 속성 값은 루트에서 리프 노드까지 의사 결정 트리에 대해 테스트됩니다. 의사 결정 트리는 도메인 지식이 필요하지 않기 때문에 널리 사용됩니다. 이들은 다차원 데이터를 나타낼 수 있습니다. 의사 결정 트리는 분류 규칙으로 쉽게 변환 할 수 있습니다.
신청: 의사 결정 트리는 의학, 제조, 생산, 천문학 등에서 구성됩니다. 아래에서 예를 볼 수 있습니다.
qa 엔지니어 인터뷰 질문 답변 pdf
# 5) 베이 즈 분류
베이지안 분류는 분류 분석의 또 다른 방법입니다. Bayes 분류기는 주어진 튜플이 특정 클래스에 속할 확률을 예측합니다. 이것은 확률과 결정 이론에 기반한 베이 즈 정리를 기반으로합니다.
Bayes Classification은 의사 결정 프로세스의 사후 확률과 사전 확률에 대해 작동합니다. 사후 확률에 의해 주어진 정보로부터 가설이 만들어집니다. 즉, 속성 값이 알려져있는 반면, 사전 확률의 경우 속성 값에 관계없이 가설이 제공됩니다.
# 6) 클러스터링 분석
데이터 집합을 클러스터 또는 개체 그룹으로 분할하는 기술입니다. 클러스터링은 알고리즘을 사용하여 수행됩니다. 레이블 정보를 알 수 없기 때문에 비지도 학습의 한 유형입니다. 클러스터링 방법은 서로 유사하거나 다른 데이터를 식별하고 특성 분석이 수행됩니다.
클러스터 분석은 특성화, 속성 하위 집합 선택 등과 같은 다양한 다른 알고리즘을 적용하기위한 사전 단계로 사용할 수 있습니다. 클러스터 분석은 신용 카드 거래에서 높은 구매와 같은 이상 값 감지에도 사용할 수 있습니다.
신청 : 이미지 인식, 웹 검색 및 보안.
# 7) 이상치 탐지
다른 개체에서 예외적 인 동작을 가진 데이터 개체를 찾는 프로세스를 이상 값 감지라고합니다. 이상 값 감지와 클러스터 분석은 서로 관련되어 있습니다. 이상치 방법은 통계, 근접성 기반, 클러스터링 기반 및 분류 기반으로 분류됩니다.
다양한 유형의 이상 값이 있으며 그중 일부는 다음과 같습니다.
- 글로벌 이상치 : 데이터 개체가 나머지 데이터 집합에서 크게 벗어났습니다.
- 문맥 이상치 : 날짜, 시간 및 위치와 같은 특정 요인에 따라 다릅니다. 데이터 개체가 컨텍스트를 참조하여 크게 벗어나는 경우.
- 집단 이상치 : 데이터 개체 그룹이 전체 데이터 집합과 다른 동작을하는 경우.
신청: 신용 카드 사기 위험 감지, 신규성 감지 등
# 8) 순차적 패턴
이러한 유형의 데이터 마이닝에서는 추세 또는 일부 일관된 패턴이 인식됩니다. 고객의 구매 행동과 순차적 패턴을 이해하는 것은 매장에서 제품을 진열하는 데 사용됩니다.
신청: 항목 A를 구매할 때 과거 구매 내역을보고 항목 A와 함께 항목 B를 자주 구매하는 전자 상거래 예입니다.
# 9) 회귀 분석
이러한 유형의 분석은 감독되며 서로 다른 관계 중 어떤 항목 집합이 서로 관련되어 있거나 독립적인지 식별합니다. 판매, 수익, 온도, 인간 행동 예측 등을 예측할 수 있습니다. 이미 알려진 데이터 세트 값이 있습니다.
입력이 제공되면 회귀 알고리즘이 입력과 예상 값을 비교하고 정확한 결과를 얻기 위해 오류를 계산합니다.
신청: 마케팅 및 제품 개발 노력 비교.
상위 데이터 마이닝 알고리즘
데이터 마이닝 기술은 그 뒤에있는 알고리즘을 통해 적용됩니다. 이러한 알고리즘은 데이터 추출 소프트웨어에서 실행되며 비즈니스 요구에 따라 적용됩니다.
조직에서 데이터 세트를 분석하기 위해 널리 사용하는 일부 알고리즘은 다음과 같습니다.
- K- 평균 : 유사한 항목의 그룹이 함께 클러스터링되는 인기있는 클러스터 분석 기술입니다.
- Apriori 알고리즘 : 이는 빈번한 항목 집합 마이닝 기술이며 연결 규칙이 트랜잭션 데이터베이스에 적용됩니다. 빈번한 아이템 세트를 감지하고 일반적인 트렌드를 강조합니다.
- K 가장 가까운 이웃 : 이 방법은 분류 및 회귀 분석에 사용됩니다. k 개의 가장 가까운 이웃은 학습 데이터를 저장하는 지연 학습이며 레이블이 지정되지 않은 새 데이터가 오면 입력 데이터를 분류합니다.
- Bayes 배송 : 각 데이터 개체 기능이 서로 독립적이라고 가정하는 간단한 확률 분류 알고리즘 그룹입니다. Bayes Theorem의 응용입니다.
- AdaBoost : 성능 향상에 사용되는 기계 학습 메타 알고리즘입니다. Adaboost는 노이즈가 많은 데이터와 이상 값에 민감합니다.
데이터 추출 방법
복잡한 데이터 유형을 처리하기위한 몇 가지 고급 데이터 마이닝 방법이 아래에 설명되어 있습니다.
오늘날의 데이터는 단순한 데이터에서 복잡한 데이터까지 다양한 유형입니다. 시계열, 다차원, 공간 및 멀티미디어 데이터와 같은 복잡한 데이터 유형을 마이닝하려면 고급 알고리즘 및 기술이 필요합니다.
그중 일부는 아래에 설명되어 있습니다.
- 딸깍 하는 소리: 다차원 부분 공간에서 클러스터를 찾는 최초의 클러스터링 방법이었습니다.
- P3C : 중간 수준에서 높은 수준의 다차원 데이터에 대해 잘 알려진 클러스터링 방법입니다.
- 호수: 중간에서 높은 차원의 데이터를 클러스터링하는 것을 목표로하는 k- 평균 기반 방법입니다. 알고리즘은 가능한 이상 값을 제거하여 데이터를 k 개의 분리 된 요소 집합으로 분할합니다.
- 경기자: 상관 클러스터링 알고리즘으로 선형 및 비선형 상관을 모두 찾습니다.
최고의 데이터 마이닝 도구
데이터 마이닝 도구는 데이터를 마이닝하는 데 사용되는 소프트웨어입니다. 이 도구는 백엔드에서 알고리즘을 실행합니다. 이러한 도구는 시장에서 오픈 소스, 무료 소프트웨어 및 라이선스 버전으로 제공됩니다.
일부 데이터 추출 도구는 다음과 같습니다.
# 1) RapidMiner
RapidMiner는 데이터 준비, 기계 학습 및 예측 모델 배포를 통합하는 분석 팀을위한 오픈 소스 소프트웨어 플랫폼입니다. 이 도구는 데이터 마이닝 분석을 수행하고 데이터 모델을 만드는 데 사용됩니다. 분류, 클러스터링, 연관 규칙 마이닝 및 회귀 알고리즘을위한 대규모 세트가 있습니다.
# 2) 오렌지
데이터 시각화 및 분석 패키지가 포함 된 오픈 소스 도구입니다. Orange는 작동하는 모든 Python 환경에서 가져올 수 있습니다. 새로운 연구자와 소규모 프로젝트에 적합합니다.
# 3) 언어
KEEL (진화 학습 기반 지식 추출)은 오픈 소스 ( GPLv3 ) 다양한 지식 데이터 검색 작업에 사용할 수있는 Java 소프트웨어 도구.
소프트웨어 테스트 인터뷰 질문 및 답변
# 4) SPSS
IBM SPSS Modeler는 IBM의 데이터 마이닝 및 텍스트 분석 소프트웨어 애플리케이션입니다. 예측 모델을 구축하고 다른 분석 작업을 수행하는 데 사용됩니다.
# 5) KNIME
데이터 정리 및 분석 패키지, 감정 분석 및 소셜 네트워크 분석 분야의 전문 알고리즘을 포함하는 무료 오픈 소스 도구입니다. KNIME은 동일한 분석에서 다양한 소스의 데이터를 통합 할 수 있습니다. Java, Python 및 R 프로그래밍과의 인터페이스가 있습니다.
중요한 질문 : 분류는 예측과 어떻게 다릅니 까?
분류는 데이터 그룹입니다. 분류의 예는 연령대, 건강 상태 등에 따라 분류하는 것입니다. 예측은 분류 된 데이터를 사용하여 결과를 도출합니다.
예 of Predictive Analysis는 연령대, 질병 치료에 따른 관심사를 예측합니다. 예측은 연속 값에 대한 추정이라고도합니다.
중요한 용어 : 예측 데이터 마이닝
예측 데이터 마이닝은 비즈니스 인텔리전스 및 기타 데이터를 사용하여 특정 데이터 추세를 예측하거나 예측하기 위해 수행됩니다. 기업이 더 나은 분석을하고 더 나은 결정을 내리는 데 도움이됩니다. 예측 분석은 종종 예측 데이터 마이닝과 결합됩니다.
Predictive Data Mining은 분석 할 관련 데이터를 찾습니다. 예측 분석은 데이터를 사용하여 결과를 예측합니다.
결론
이 자습서에서는 조직과 기업이 가장 유용하고 관련성있는 정보를 찾는 데 도움이되는 다양한 데이터 마이닝 기술에 대해 논의했습니다. 이 정보는 기업이 조치를 취할 수 있도록 고객의 행동을 예측하는 모델을 만드는 데 사용됩니다.
데이터 마이닝 기술에 대한 위에서 언급 한 모든 정보를 읽으면 그 신뢰성과 실행 가능성을 더 잘 결정할 수 있습니다. 데이터 추출 기술에는 데이터 작업, 데이터 재 형식화, 데이터 재구성이 포함됩니다. 필요한 정보의 형식은 수행 할 기술과 분석을 기반으로합니다.
마지막으로, 모든 기술, 방법 및 데이터 마이닝 시스템은 새로운 창의적 혁신을 발견하는 데 도움이됩니다.