data mining process
이 심층 데이터 마이닝 자습서에서는 데이터 분석에 사용되는 프로세스 및 기술을 포함하여 데이터 마이닝이 무엇인지 설명합니다.
금광이라고하는 암석에서 금을 채굴하는 예를 들어 광업이라는 용어의 의미를 이해합시다. 여기서 유용한 것은“Gold”이므로 금 채굴이라고합니다.
마찬가지로 방대한 양의 데이터에서 유용한 정보를 추출하는 것을 지식 마이닝이라고하며 일반적으로 데이터 마이닝이라고합니다. 유용한 정보라는 용어는 결과를 예측하는 데 도움이 될 수있는 데이터를 나타냅니다.
예를 들어 특정 연령대 (예 : 철)를 구매하는 경향을 찾습니다. 예: 40-70 세).
=>아래로 스크롤초보자를위한 7 가지 심층 데이터 마이닝 자습서의 전체 목록보기
학습 내용 :
이진 검색 트리 C ++ 예제
- 데이터 마이닝 자습서 목록
- 이 데이터 마이닝 시리즈의 자습서 개요
- 데이터 마이닝이란?
- 어떤 종류의 데이터를 채굴 할 수 있습니까?
- 데이터 마이닝에 사용되는 기술은 무엇입니까?
- 데이터 분석의 주요 이슈
- 결론
데이터 마이닝 자습서 목록
튜토리얼 # 1 : 데이터 마이닝 : 데이터 분석의 프로세스, 기술 및 주요 문제 (이 튜토리얼)
튜토리얼 # 2 : 데이터 마이닝 기술 : 알고리즘, 방법 및 최고의 데이터 마이닝 도구
튜토리얼 # 3 : 데이터 마이닝 프로세스 : 관련된 모델, 프로세스 단계 및 과제
튜토리얼 # 4 : 데이터 마이닝 예 : 2019 년 데이터 마이닝의 가장 일반적인 애플리케이션
튜토리얼 # 5 : 데이터 마이닝의 의사 결정 트리 알고리즘 예제
튜토리얼 # 6 : 데이터 마이닝의 Apriori 알고리즘 : 예제를 사용한 구현
튜토리얼 # 7 : 데이터 마이닝의 FP (Frequent Pattern) 성장 알고리즘
이 데이터 마이닝 시리즈의 자습서 개요
튜토리얼 # | 배울 것 |
---|---|
튜토리얼 _ # 7 : | 데이터 마이닝의 FP (Frequent Pattern) 성장 알고리즘 FP 트리 형태로 데이터베이스를 표현하는 빈번한 패턴 성장 알고리즘에 대한 자세한 자습서입니다. FP 성장 대 Apriori 비교도 여기에 설명되어 있습니다. |
튜토리얼 _ # 1 : | 데이터 마이닝 : 데이터 분석의 프로세스, 기술 및 주요 문제 이 심층 데이터 마이닝 자습서에서는 데이터 분석에 사용되는 프로세스 및 기술을 포함하여 데이터 마이닝이란 무엇인지 설명합니다. |
튜토리얼 _ # 2 : | 데이터 마이닝 기술 : 알고리즘, 방법 및 최고의 데이터 마이닝 도구 데이터 마이닝 기술에 대한이 자습서에서는 유용한 데이터를 추출하는 알고리즘, 데이터 마이닝 도구 및 방법을 설명합니다. |
튜토리얼 _ # 3 : | 데이터 마이닝 프로세스 : 관련된 모델, 프로세스 단계 및 과제 데이터 마이닝 프로세스에 대한이 자습서에서는 데이터 추출 프로세스와 관련된 데이터 마이닝 모델, 단계 및 과제를 다룹니다. |
Tutorial_ # 4 : | 데이터 마이닝 예 : 2019 년 데이터 마이닝의 가장 일반적인 애플리케이션 실제 생활에서 가장 인기있는 데이터 마이닝 예제는이 튜토리얼에서 다룹니다. 재무, 마케팅, 의료 및 CRM의 데이터 마이닝 응용 프로그램에 대해 더 많이 알게 될 것입니다. |
튜토리얼 _ # 5 : | 데이터 마이닝의 의사 결정 트리 알고리즘 예제 이 심층 자습서에서는 데이터 마이닝의 의사 결정 트리 알고리즘에 대한 모든 것을 설명합니다. 의사 결정 트리 예제, 알고리즘 및 분류에 대해 배웁니다. |
Tutorial_ # 6 : | 데이터 마이닝의 Apriori 알고리즘 : 예제를 사용한 구현 이것은 데이터 마이닝에서 자주 발생하는 항목 집합을 찾기위한 Apriori 알고리즘에 대한 간단한 자습서입니다. 또한 Apriori의 단계와 작동 방식을 이해하게됩니다. |
데이터 마이닝이란?
데이터 마이닝은 기업이 제품 판매가 어떻게 증가 할 수 있는지 연구하는 데 도움이되므로 오늘날 큰 수요가 있습니다. 매장에서 상품을 구매 한 고객을 등록하는 패션 매장의 예를 통해이를 이해할 수 있습니다.
연령, 성별, 소득 그룹, 직업 등 고객이 제공 한 데이터를 기반으로 매장은 어떤 유형의 고객이 다른 제품을 구매하는지 파악할 수 있습니다. 여기에서 고객의 이름이 소용이 없음을 알 수 있는데, 그 사람이 특정 제품을 구매할지 여부를 이름으로 구매 추세를 예측할 수 없기 때문입니다.
따라서 연령대, 성별, 소득 군, 직업 등을 이용하여 유용한 정보를 찾을 수 있습니다. 데이터에서 지식이나 흥미로운 패턴을 찾는 것은“데이터 마이닝”입니다. 자리에서 사용할 수있는 다른 용어로는 데이터에서 지식 마이닝, 지식 추출, 데이터 분석, 패턴 분석 등이 있습니다.
데이터 마이닝에서 널리 사용되는 또 다른 용어는 데이터 또는 KDD의 지식 검색입니다.
데이터 분석 프로세스
지식 검색 프로세스는 다음 단계의 순서입니다.
- 데이터 정리 : 이 단계는 입력 데이터에서 노이즈와 불일치 데이터를 제거합니다.
- 데이터 통합 : 이 단계는 여러 데이터 소스를 결합합니다. 데이터 정리 및 데이터 통합 단계는 함께 데이터의 전처리를 형성합니다. 그런 다음 전처리 된 데이터는 데이터웨어 하우스에 저장됩니다.
- 데이터 선택 : 이 단계에서는 데이터베이스에서 분석 작업에 대한 데이터를 선택합니다.
- 데이터 변환 : 이 단계에서는 다양한 데이터 집계 및 데이터 요약 기술을 적용하여 데이터를 마이닝에 유용한 형식으로 변환합니다.
- 데이터 수집: 이 단계에서는 지능형 방법을 적용하여 데이터 패턴을 추출합니다.
- 패턴 평가 : 추출 된 데이터 패턴은 흥미도 측정에 따라 평가되고 인식됩니다.
- 지식 표현 : 시각화 및 지식 표현 기술은 채굴 된 지식을 사용자에게 제공하는 데 사용됩니다.
1-4 단계는 데이터 전처리 단계에 있습니다. 여기서 데이터 마이닝은 단일 단계로 표현되지만 전체 지식 발견 프로세스를 의미합니다.
따라서 데이터 분석은 많은 양의 데이터에서 흥미로운 패턴과 지식을 발견하는 과정이라고 말할 수 있습니다. 데이터 소스에는 데이터베이스, 데이터웨어 하우스, World Wide Web, 플랫 파일 및 기타 정보 파일이 포함될 수 있습니다.
어떤 종류의 데이터를 채굴 할 수 있습니까?
마이닝을위한 가장 기본적인 데이터 형식은 데이터베이스 데이터, 데이터웨어 하우스 데이터 및 트랜잭션 데이터입니다. 데이터 마이닝 기술은 데이터 스트림, 시퀀스 데이터, 텍스트 데이터 및 공간 데이터와 같은 다른 형태에도 적용될 수 있습니다.
# 1) 데이터베이스 데이터 : 데이터베이스 관리 시스템은 데이터를 관리하고 액세스하기위한 일련의 상호 관련된 데이터 및 소프트웨어 프로그램 세트입니다. 관계형 데이터베이스 시스템은 테이블 모음이며 각 테이블은 속성 및 튜플 세트로 구성됩니다.
관계형 데이터베이스 마이닝은 추세 및 데이터 패턴을 검색합니다. 예 : . 연령, 소득 및 이전 신용 위험에 따른 고객의 신용 위험. 또한 마이닝은 예상과의 편차를 찾을 수 있습니다. 예 : 항목의 가격이 크게 상승합니다.
# 2) 데이터웨어 하우스 데이터 : 데이터웨어 하우스는 여러 데이터 소스에서 수집 된 정보의 모음으로 단일 위치에서 통합 스키마에 저장됩니다. DW는 데이터에 대한 사전 계산과 더 빠른 액세스를 제공하는 셀과 차원이있는 데이터 큐브라는 다차원 데이터 구조로 모델링됩니다.
데이터 마이닝은 다양한 세분성 수준에서 차원을 결합하여 OLAP 스타일로 수행됩니다.
# 3) 거래 데이터 : 트랜잭션 데이터는 트랜잭션을 캡처합니다. 트랜잭션 ID와 트랜잭션에 사용 된 항목 목록이 있습니다.
# 4) 다른 종류의 데이터 : 기타 데이터에는 시간 관련 데이터, 공간 데이터, 하이퍼 텍스트 데이터 및 멀티미디어 데이터가 포함될 수 있습니다.
데이터 마이닝에 사용되는 기술은 무엇입니까?
데이터 마이닝은 고도의 애플리케이션 중심 도메인입니다. 통계, 기계 학습, 패턴 인식, 정보 검색, 시각화 등과 같은 많은 기술이 데이터 분석 방법 개발에 영향을 미칩니다.
여기에서 그들 중 일부를 논의합시다 !!
통계
데이터의 수집, 분석, 해석 및 표현에 대한 연구는 통계 모델을 사용하여 수행 할 수 있습니다. 예를 들면 , 통계를 사용하여 잡음 및 결측 데이터를 모델링 한 다음이 모델을 대규모 데이터 세트에 사용하여 데이터의 잡음 및 결 측값을 식별 할 수 있습니다.
기계 학습
ML은 데이터를 기반으로 성능을 향상시키는 데 사용됩니다. 주요 연구 분야는 컴퓨터 프로그램이 복잡한 패턴을 인식하는 방법을 자동으로 학습하고 데이터를 기반으로 지능적인 결정을 내리는 것입니다.
머신 러닝은 정확성에 중점을두고 데이터 마이닝은 대규모 데이터 세트, 복잡한 데이터 등에 대한 마이닝 방법의 효율성과 확장성에 중점을 둡니다.
기계 학습은 세 가지 유형이 있습니다.
- 지도 학습 : 목표 데이터 세트가 알려져 있고 기계는 목표 값에 따라 훈련됩니다.
- 비지도 학습 : 목표 값은 알 수 없으며 기계는 스스로 학습합니다.
- 준지도 학습 : 지도 및 비지도 학습 기술을 모두 사용합니다.
정보 검색 (IR)
문서 또는 문서의 정보를 검색하는 과학입니다.
두 가지 원칙을 사용합니다.
- 검색 할 데이터는 구조화되지 않습니다.
- 쿼리는 주로 키워드로 구성됩니다.
데이터 분석과 IR을 이용하여 문서 모음에서 주요 주제와 각 문서에 관련된 주요 주제를 찾을 수 있습니다.
외부 조인과 왼쪽 조인의 차이점은 무엇입니까
데이터 분석의 주요 이슈
데이터 마이닝에는 아래와 같이 관련된 여러 문제가 있습니다.
채굴 방법론
- 다양한 응용 프로그램이 있기 때문에 새로운 채굴 작업이 계속해서 등장합니다. 이러한 작업은 동일한 데이터베이스를 다른 방식으로 사용할 수 있으며 새로운 데이터 마이닝 기술을 개발해야합니다.
- 대규모 데이터 세트에서 지식을 검색하는 동안 다차원 공간을 탐색해야합니다. 흥미로운 패턴을 찾으려면 다양한 치수 조합을 적용해야합니다.
- 불확실하고 시끄럽고 불완전한 데이터는 때때로 잘못된 파생으로 이어질 수 있습니다.
사용자 상호 작용
- 데이터 분석 프로세스는 고도로 상호 작용해야합니다. 마이닝 프로세스를 사용자 상호 작용으로 촉진하는 것이 중요합니다.
- 도메인 지식, 배경 지식, 제약 등은 모두 데이터 마이닝 프로세스에 통합되어야합니다.
- 데이터 마이닝을 통해 발견 된 지식은 인간에게 유용해야합니다. 시스템은 지식의 표현 표현, 사용자 친화적 인 시각화 기술 등을 채택해야합니다.
효율성 및 확장 성
- 데이터 마이닝 알고리즘은 데이터 저장소에있는 방대한 양의 데이터에서 흥미로운 데이터를 효과적으로 추출 할 수 있도록 효율적이고 확장 가능해야합니다.
- 데이터의 광범위한 분포, 계산의 복잡성은 병렬 및 분산 데이터 집약적 알고리즘의 개발에 동기를 부여합니다.
데이터베이스 유형의 다양성
- 다양한 애플리케이션, 비정형 데이터, 시간 데이터, 하이퍼 텍스트, 멀티미디어 데이터 및 소프트웨어 프로그램 코드의 광범위한 데이터 유형을위한 효과적이고 효율적인 데이터 분석 도구의 구성은 여전히 도전적이고 활발한 연구 분야입니다.
사회적 영향
- 데이터 사용에 대한 공개와 잠재적 인 개인 정보 침해 및 권리 보호는 해결해야 할 문제입니다.
결론
데이터 마이닝은 많은 양의 데이터에 대한 의사 결정 및 분석에 도움이됩니다. 오늘날 가장 일반적인 비즈니스 기술입니다. 데이터를 자동으로 분석하고 인기있는 트렌드와 행동을 식별 할 수 있습니다.
데이터 분석은 고급 데이터 분석 및 행동 연구를 위해 기계 학습, 통계, 인공 지능 등과 결합 할 수 있습니다.
데이터 마이닝은 데이터베이스에서 정보를 추출하는 비용과 패턴 (전문가 자원이 필요한 복잡한 알고리즘 적용), 정보의 유형 (이력 데이터가 현재와 동일하지 않을 수 있음) 등 다양한 요소를 고려하여 적용해야합니다. 현재로서는 분석이 유용하지 않습니다.)
이 튜토리얼을 바랍니다 데이터 마이닝의 개념에 대한 지식을 풍부하게했습니다 !!
추천 도서
- 완벽한 데이터 관리를위한 10 가지 최고의 데이터 분석 도구 (2021 목록)
- 데이터 마이닝 대 기계 학습 대 인공 지능 대 딥 러닝
- ETL 프로세스에 유용한 10 가지 최고의 데이터 매핑 도구 (2021 목록)
- 테스트 데이터 란? 예제를 사용한 테스트 데이터 준비 기법
- 사용자 정의 변수를 사용한 JMeter 데이터 매개 변수화
- 15 가지 최고의 무료 데이터 마이닝 도구 : 가장 포괄적 인 목록
- 데이터 수집 전략을 갖춘 10 개 이상의 최고의 데이터 수집 도구
- 테스트 데이터 관리를위한 IBM Rational Quality Manager의 데이터 풀 기능