data mining process models
데이터 마이닝 프로세스에 대한이 자습서에서는 데이터 추출 프로세스와 관련된 데이터 마이닝 모델, 단계 및 과제를 다룹니다.
데이터 마이닝 기법 이전 튜토리얼에서 자세히 설명했습니다. 모두를위한 완벽한 데이터 마이닝 교육 . 데이터 마이닝은 과학 기술 세계에서 유망한 분야입니다.
데이터베이스의 지식 검색이라고도하는 데이터 마이닝은 데이터베이스 및 데이터웨어 하우스에 저장된 대량의 데이터에서 유용한 정보를 검색하는 프로세스입니다. 이 분석은 회사의 의사 결정 프로세스를 위해 수행됩니다.
데이터 마이닝은 클러스터링, 연관, 순차 패턴 분석 및 의사 결정 트리와 같은 다양한 기술을 사용하여 수행됩니다.
학습 내용 :
- 데이터 마이닝이란?
- 프로세스로서의 데이터 추출
- 데이터 마이닝 모델
- 데이터 마이닝 프로세스의 단계
- Oracle DBMS의 데이터 마이닝 프로세스
- 데이터웨어 하우스의 데이터 마이닝 프로세스
- 데이터 추출의 응용 프로그램은 무엇입니까?
- 데이터 마이닝 과제
- 결론
- 추천 도서
데이터 마이닝이란?
데이터 마이닝은 많은 양의 데이터에서 흥미로운 패턴과 지식을 발견하는 프로세스입니다. 데이터 소스에는 데이터베이스, 데이터웨어 하우스, 웹 및 기타 정보 저장소 또는 시스템으로 동적으로 스트리밍되는 데이터가 포함될 수 있습니다.
기업에 데이터 추출이 필요한 이유는 무엇입니까?
빅 데이터의 출현으로 데이터 마이닝이 더욱 보편화되었습니다. 빅 데이터는 인간이 이해할 수있는 특정 패턴, 연관성 및 추세를 나타 내기 위해 컴퓨터로 분석 할 수있는 매우 큰 데이터 집합입니다. 빅 데이터에는 다양한 유형과 다양한 콘텐츠에 대한 광범위한 정보가 있습니다.
따라서이 양의 데이터에서는 수동 개입이있는 단순 통계가 작동하지 않습니다. 이러한 요구는 데이터 마이닝 프로세스에 의해 충족됩니다. 이로 인해 단순한 데이터 통계에서 복잡한 데이터 마이닝 알고리즘으로 변경됩니다.
데이터 마이닝 프로세스는 트랜잭션, 사진, 비디오, 플랫 파일과 같은 원시 데이터에서 관련 정보를 추출하고 정보를 자동으로 처리하여 기업이 조치를 취하는 데 유용한 보고서를 생성합니다.
따라서 데이터 마이닝 프로세스는 데이터의 패턴 및 추세를 발견하고 데이터를 요약하고 관련 정보를 추출하여 기업이 더 나은 결정을 내리는 데 중요합니다.
프로세스로서의 데이터 추출
모든 비즈니스 문제는 원시 데이터를 검사하여 정보를 설명하는 모델을 구축하고 비즈니스에서 사용할 보고서를 가져옵니다. 원시 데이터는 다양한 소스와 다양한 형식으로 제공되므로 데이터 소스 및 데이터 형식에서 모델을 빌드하는 것은 반복적 인 프로세스입니다.
데이터는 날마다 증가하므로 새 데이터 소스가 발견되면 결과를 변경할 수 있습니다.
다음은 프로세스의 개요입니다.
(영상 출처 )
데이터 마이닝 모델
제조, 마케팅, 화학 및 항공 우주와 같은 많은 산업에서 데이터 마이닝을 활용하고 있습니다. 따라서 표준적이고 안정적인 데이터 마이닝 프로세스에 대한 수요가 급격히 증가합니다.
중요한 데이터 마이닝 모델은 다음과 같습니다.
# 1) 데이터 마이닝을위한 산업 간 표준 프로세스 (CRISP-DM)
CRISP-DM은 6 단계로 구성된 신뢰할 수있는 데이터 마이닝 모델입니다. 데이터 마이닝 프로세스에 대한 구조화 된 접근 방식을 제공하는 주기적 프로세스입니다. 6 단계는 임의의 순서로 구현할 수 있지만 때로는 이전 단계로의 역 추적 및 작업 반복이 필요합니다.
경험이 풍부한 PDF에 대한 angularjs 인터뷰 질문 및 답변
CRISP-DM의 6 단계에는 다음이 포함됩니다.
# 1) 비즈니스 이해 : 이 단계에서 기업의 목표가 설정되고 목표 달성에 도움이 될 중요한 요소가 발견됩니다.
# 2) 데이터 이해 : 이 단계는 전체 데이터를 수집하고 도구에 데이터를 채 웁니다 (도구를 사용하는 경우). 데이터는 데이터 소스, 위치, 획득 방법 및 문제 발생 여부와 함께 나열됩니다. 데이터가 시각화되고 완전성을 확인하기 위해 쿼리됩니다.
# 3) 데이터 준비 : 이 단계에는 적절한 데이터 선택, 정리, 데이터 속성 구성, 여러 데이터베이스의 데이터 통합이 포함됩니다.
# 4) 모델링 : 이 단계에서는 의사 결정 트리와 같은 데이터 마이닝 기술을 선택하고, 선택한 모델을 평가하기위한 테스트 설계를 생성하고, 데이터 세트에서 모델을 구축하고, 전문가와 함께 구축 된 모델을 평가하여 결과를 논의합니다.
# 5) 평가 : 이 단계는 결과 모델이 비즈니스 요구 사항을 충족하는 정도를 결정합니다. 실제 애플리케이션에서 모델을 테스트하여 평가할 수 있습니다. 반복해야하는 실수 나 단계가 있는지 모델을 검토합니다.
# 6) 배포 : 이 단계에서는 배포 계획을 수립하고 데이터 마이닝 모델 결과를 모니터링 및 유지 관리하여 유용성을 확인하는 전략을 수립하고 최종 보고서를 작성하고 전체 프로세스를 검토하여 실수를 확인하고 단계가 반복되는지 확인합니다. .
(영상 출처 )
# 2) SEMMA (샘플, 탐색, 수정, 모델링, 평가)
SEMMA는 SAS Institute에서 개발 한 또 다른 데이터 마이닝 방법론입니다. 약어 SEMMA는 샘플, 탐색, 수정, 모델링, 평가를 나타냅니다.
SEMMA를 사용하면 탐색 적 통계 및 시각화 기술을 쉽게 적용하고, 유의미한 예측 변수를 선택 및 변환하고, 변수를 사용하여 결과를 도출하고 정확도를 확인할 수 있습니다. SEMMA는 또한 매우 반복적 인주기에 의해 구동됩니다.
SEMMA의 단계
- 견본: 이 단계에서는 큰 데이터 세트가 추출되고 전체 데이터를 나타내는 샘플이 추출됩니다. 샘플링은 계산 비용과 처리 시간을 줄여줍니다.
- 탐색 : 데이터에 대한 더 나은 이해를 위해 데이터를 탐색하여 이상 값 및 이상 점을 찾습니다. 데이터를 시각적으로 확인하여 추세와 그룹을 찾습니다.
- 수정 : 이 단계에서는 빌드 할 모델에 초점을 유지하여 그룹화 및 하위 그룹화와 같은 데이터 조작이 수행됩니다.
- 모델: 탐색과 수정을 바탕으로 데이터의 패턴을 설명하는 모델이 구성됩니다.
- 평가 : 이 단계에서는 구성된 모델의 유용성과 신뢰성을 평가합니다. 실제 데이터에 대한 모델 테스트가 여기서 수행됩니다.
SEMMA 및 CRISP 접근 방식은 모두 지식 발견 프로세스에서 작동합니다. 모델이 구축되면 비즈니스 및 연구 작업을 위해 배포됩니다.
데이터 마이닝 프로세스의 단계
데이터 마이닝 프로세스는 데이터 전처리와 데이터 마이닝의 두 부분으로 나뉩니다. 데이터 전처리에는 데이터 정리, 데이터 통합, 데이터 축소 및 데이터 변환이 포함됩니다. 데이터 마이닝 부분은 데이터 마이닝, 패턴 평가 및 데이터 지식 표현을 수행합니다.
(영상 출처 )
데이터를 전처리하는 이유는 무엇입니까?
정확성, 완전성, 일관성, 적시성과 같은 데이터의 유용성을 결정하는 많은 요소가 있습니다. 데이터가 의도 한 목적을 충족한다면 품질을 유지해야합니다. 따라서 전처리는 데이터 마이닝 프로세스에서 중요합니다. 데이터 전처리와 관련된 주요 단계는 아래에 설명되어 있습니다.
Windows 10에서 jar 파일을 여는 방법
# 1) 데이터 정리
데이터 정리는 데이터 마이닝의 첫 번째 단계입니다. 마이닝에 직접 사용하면 더티 데이터가 중요하므로 절차에 혼란을 야기하고 부정확 한 결과를 생성 할 수 있습니다.
기본적으로이 단계에는 컬렉션에서 시끄 럽거나 불완전한 데이터를 제거하는 작업이 포함됩니다. 일반적으로 자체적으로 데이터를 정리하는 많은 방법을 사용할 수 있지만 강력하지는 않습니다.
이 단계는 다음과 같은 방법으로 일상적인 청소 작업을 수행합니다.
(i) 누락 된 데이터 채우기 :
누락 된 데이터는 다음과 같은 방법으로 채울 수 있습니다.
- 튜플을 무시합니다.
- 누락 된 값을 수동으로 채 웁니다.
- 중심 경향, 중앙값 또는
- 가장 가능성있는 값을 입력합니다.
(ii) 시끄러운 데이터 제거 : 임의 오류를 노이즈 데이터라고합니다.
노이즈를 제거하는 방법은 다음과 같습니다.
비닝 : 비닝 방법은 값을 버킷 또는 빈으로 정렬하여 적용됩니다. 평활화는 인접한 값을 참조하여 수행됩니다.
구간 화는 구간별로 평활화하여 수행됩니다. 즉, 각 구간은 구간의 평균으로 대체됩니다. 각 빈 값이 빈 중앙값으로 대체되는 중앙값으로 평활화합니다. 빈 경계에 의한 평활화 즉, 빈의 최소 및 최대 값은 빈 경계이며 각 빈 값은 가장 가까운 경계 값으로 대체됩니다.
- 이상치 식별
- 불일치 해결
# 2) 데이터 통합
데이터베이스, 데이터 큐브 또는 파일과 같은 여러 이기종 데이터 소스가 분석을 위해 결합되는 경우이 프로세스를 데이터 통합이라고합니다. 이는 데이터 마이닝 프로세스의 정확성과 속도를 개선하는 데 도움이 될 수 있습니다.
서로 다른 데이터베이스는 데이터베이스에 중복을 유발하여 변수의 이름 지정 규칙이 다릅니다. 추가 데이터 정리를 수행하여 데이터의 신뢰성에 영향을주지 않고 데이터 통합에서 중복성과 불일치를 제거 할 수 있습니다.
데이터 통합은 Oracle Data Service Integrator 및 Microsoft SQL 등과 같은 데이터 마이그레이션 도구를 사용하여 수행 할 수 있습니다.
# 3) 데이터 감소
이 기술은 데이터 수집에서 분석 할 관련 데이터를 얻는 데 적용됩니다. 표현의 크기는 무결성을 유지하면서 볼륨이 훨씬 작습니다. 데이터 감소는 Naive Bayes, Decision Trees, Neural network 등과 같은 방법을 사용하여 수행됩니다.
데이터 감소 전략은 다음과 같습니다.
안드로이드 폰을 감시하는 앱
- 차원 감소 : 데이터 세트의 속성 수를 줄입니다.
- 수많은 감소 : 원본 데이터 볼륨을 더 작은 형태의 데이터 표현으로 대체합니다.
- 데이터 압축 : 원본 데이터의 압축 표현.
# 4) 데이터 변환
이 과정에서 데이터는 데이터 마이닝 과정에 적합한 형태로 변환됩니다. 데이터가 통합되어 마이닝 프로세스가 더 효율적이고 패턴을 더 쉽게 이해할 수 있습니다. 데이터 변환에는 데이터 매핑 및 코드 생성 프로세스가 포함됩니다.
데이터 변환을위한 전략은 다음과 같습니다.
- 스무딩 : 클러스터링, 회귀 기술 등을 사용하여 데이터에서 노이즈 제거
- 집합: 요약 작업이 데이터에 적용됩니다.
- 표준화: 더 작은 범위에 속하도록 데이터 확장.
- 이산화 : 숫자 데이터의 원시 값은 간격으로 대체됩니다. 예를 들어 나이.
# 5) 데이터 마이닝
데이터 마이닝은 많은 양의 데이터에서 흥미로운 패턴과 지식을 식별하는 프로세스입니다. 이 단계에서는 지능형 패턴을 적용하여 데이터 패턴을 추출합니다. 데이터는 패턴의 형태로 표현되고 모델은 분류 및 클러스터링 기술을 사용하여 구조화됩니다.
# 6) 패턴 평가
이 단계에는 흥미도 측정을 기반으로 지식을 나타내는 흥미로운 패턴을 식별하는 것이 포함됩니다. 데이터 요약 및 시각화 방법은 사용자가 데이터를 이해할 수 있도록하는 데 사용됩니다.
# 7) 지식 표현
지식 표현은 데이터 시각화 및 지식 표현 도구를 사용하여 마이닝 된 데이터를 표현하는 단계입니다. 데이터는 보고서, 표 등의 형태로 시각화됩니다.
Oracle DBMS의 데이터 마이닝 프로세스
RDBMS는 행과 열이있는 테이블 형식의 데이터를 나타냅니다. 데이터베이스 쿼리를 작성하여 데이터에 액세스 할 수 있습니다.
Oracle과 같은 관계형 데이터베이스 관리 시스템은 CRISP-DM을 사용한 데이터 마이닝을 지원합니다. Oracle 데이터베이스의 기능은 데이터 준비 및 이해에 유용합니다. Oracle은 Java 인터페이스, PL / SQL 인터페이스, 자동화 된 데이터 마이닝, SQL 함수 및 그래픽 사용자 인터페이스를 통해 데이터 마이닝을 지원합니다.
데이터웨어 하우스의 데이터 마이닝 프로세스
데이터웨어 하우스는 데이터 큐브라고하는 다차원 데이터 구조용으로 모델링됩니다. 데이터 큐브의 각 셀은 일부 집계 측정 값을 저장합니다.
OLAP 스타일 (온라인 분석 처리)로 수행되는 다차원 공간의 데이터 마이닝을 통해 다양한 수준의 차원에서 여러 차원 조합을 탐색 할 수 있습니다.
데이터 추출의 응용 프로그램은 무엇입니까?
데이터 마이닝이 널리 사용되는 영역 목록은 다음과 같습니다.
# 1) 재무 데이터 분석 : 데이터 마이닝은 은행, 투자, 신용 서비스, 모기지, 자동차 대출, 보험 및 주식 투자 서비스에 널리 사용됩니다. 이러한 소스에서 수집 된 데이터는 완전하고 신뢰할 수 있으며 고품질입니다. 이는 체계적인 데이터 분석 및 데이터 마이닝을 용이하게합니다.
# 2) 소매 및 통신 산업 : 소매 부문은 판매, 고객 쇼핑 이력, 상품 운송, 소비 및 서비스에 대한 방대한 양의 데이터를 수집합니다. 소매 데이터 마이닝은 고객 구매 행동, 고객 쇼핑 패턴 및 추세를 식별하고 고객 서비스 품질을 개선하고 고객 유지 및 만족도를 높이는 데 도움이됩니다.
# 3) 과학 및 공학 : 데이터 마이닝 컴퓨터 과학 및 엔지니어링은 시스템 상태를 모니터링하고, 시스템 성능을 개선하고, 소프트웨어 버그를 격리하고, 소프트웨어 표절을 감지하고, 시스템 오작동을 인식하는 데 도움이 될 수 있습니다.
# 4) 침입 탐지 및 방지 : 침입은 네트워크 리소스의 무결성, 기밀성 또는 가용성을 위협하는 일련의 작업으로 정의됩니다. 데이터 마이닝 방법은 침입 탐지 및 방지 시스템의 성능을 향상시키는 데 도움이 될 수 있습니다.
# 5) 추천 시스템 : Recommender 시스템은 사용자가 관심을 갖는 제품을 추천함으로써 소비자를 돕습니다.
데이터 마이닝 과제
다음은 데이터 마이닝과 관련된 다양한 과제입니다.
- 데이터 마이닝에는 관리하기 어려운 대규모 데이터베이스와 데이터 수집이 필요합니다.
- 데이터 마이닝 프로세스에는 다시 찾기 어려운 도메인 전문가가 필요합니다.
- 이기종 데이터베이스에서 통합하는 것은 복잡한 프로세스입니다.
- 데이터 마이닝 결과를 사용하려면 조직 수준의 관행을 수정해야합니다. 프로세스를 재구성하려면 노력과 비용이 필요합니다.
결론
데이터 마이닝은 마이닝 프로세스를 세분화하고 새 데이터를 통합하여보다 효율적인 결과를 얻을 수있는 반복적 인 프로세스입니다. 데이터 마이닝은 효과적이고 확장 가능하며 유연한 데이터 분석의 요구 사항을 충족합니다.
그것은 정보 기술에 대한 자연스러운 평가로 간주 될 수 있습니다. 지식 검색 프로세스로서 데이터 준비 및 데이터 마이닝 작업은 데이터 마이닝 프로세스를 완료합니다.
데이터 마이닝 프로세스는 데이터베이스 데이터와 같은 모든 종류의 데이터 및 시계열 등과 같은 고급 데이터베이스에 대해 수행 할 수 있습니다. 데이터 마이닝 프로세스에는 자체적 인 문제도 있습니다.
데이터 마이닝 예제에 대해 자세히 알아 보려면 다가오는 튜토리얼을 계속 지켜봐주십시오 !!