complete guide big data analytics
다음은 사용 사례, 아키텍처, 예제 및 빅 데이터 및 데이터 과학과의 비교를 포함한 빅 데이터 분석에 대한 포괄적 인 가이드입니다.
Facebook, Google, Amazon과 같은 기업이 빅 데이터에서 가치를 추출하는 고객의 성향을 이해하기 위해 분산 데이터 처리 및 분석의 새로운 패러다임을 설정했기 때문에 빅 데이터 분석이 주목을 받았습니다.
이 튜토리얼에서는 빅 데이터 분석을 설명하고 빅 데이터 및 데이터 과학과 비교합니다. 비즈니스가 빅 데이터 전략에 필요한 속성과 작동하는 방법론을 다룰 것입니다. 또한 최신 트렌드와 데이터 분석의 일부 사용 사례에 대해서도 언급합니다.
아래 이미지에서 볼 수 있듯이 Analytics에는 IT 기술, 비즈니스 기술 및 데이터 과학을 사용할 수있는 사람이 필요합니다. 빅 데이터 분석은 빅 데이터의 가치를 활용하는 중심에 있으며 조직의 소비 가능한 통찰력을 도출하는 데 도움이됩니다.
(영상 출처 )
학습 내용 :
빅 데이터 분석이란?
빅 데이터 분석은 빅 데이터에 대한 통계 기법, 도구 및 분석 절차 모음을 사용합니다.
추천 읽기 => 빅 데이터 소개
빅 데이터에서 귀중한 패턴과 의미있는 통찰력을 추출하여 데이터 기반 의사 결정을 지원하는 데 도움이되는 분석입니다. 빅 데이터와 분석이 대중화 된 것은 소셜 미디어, IoT 데이터와 같은 새로운 데이터 소스의 출현 때문입니다.
이러한 추세는 데이터 마이닝, 정리, 모델링 및 시각화를위한 기술, 도구, 기술 및 프로세스를 포괄하는 '데이터 과학'이라는 실습 및 연구 영역을 야기하고 있습니다.
빅 데이터 대 빅 데이터 분석 대 데이터 과학
에 빅 데이터, 데이터 과학 및 빅 데이터 분석 간의 비교 아래 표에서 이해할 수 있습니다.
기초 | 빅 데이터 | 데이터 과학 | 빅 데이터 분석 |
---|---|---|---|
도구 및 기술 | Hadoop 생태계, CDH, Cassandra, MongoDB, 자바, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, 데이터 과학 워크 벤치, IBM SPSS, Tableau | Spark, Storm, Knime, 데이터 래퍼, Lumify, HPCC, Qubole, Microsoft HDInsight |
업무 역할 및 기술 | 스토리지 인프라 유지 관리, 데이터 처리, Hadoop에 대한 지식 및 다른 도구와의 통합. | 데이터 변환, 데이터 엔지니어링, 데이터 랭 글링, 데이터 모델링 및 시각화 | BI 및 고급 분석, 통계, 데이터 모델링 및 기계 학습, 수학 기술, 커뮤니케이션, 컨설팅. |
지정 | 빅 데이터 설계자 빅 데이터 개발자 빅 데이터 엔지니어 | 데이터 과학자 기계 학습 엔지니어 | 빅 데이터 분석가 비즈니스 분석가 비즈니스 인텔리전스 엔지니어 비즈니스 분석 전문가 데이터 시각화 개발자 분석 관리자 |
대략. 평균 연봉 (USD) | 100,000 | 90,000 | 70,000 |
추천 읽기 = >> 데이터 과학 대 컴퓨터 과학
모든 빅 데이터 분석 전략이 가져야하는 것
잘 정의되고 통합 된 포괄적 인 전략은 조직의 귀중한 데이터 기반 의사 결정에 기여하고 지원합니다. 이 섹션에서는 빅 데이터 분석 전략을 정의 할 때 고려해야 할 가장 중요한 단계를 나열했습니다.
1 단계 : 평가
이미 비즈니스 목표와 일치하는 평가에는 주요 이해 관계자가 참여하고 올바른 기술을 갖춘 구성원 팀을 구성하고 정책, 사람, 프로세스, 기술 및 데이터 자산을 평가해야합니다. 필요한 경우이 프로세스에서 평가 대상 고객을 참여시킬 수 있습니다.
2 단계 : 우선 순위 지정
평가 후에는 사용 사례를 도출하고 빅 데이터 예측 분석, 규범 적 분석 및 코 그너 티브 분석을 사용하여 우선 순위를 지정해야합니다. 또한 우선 순위 매트릭스와 같은 도구를 사용하고 주요 이해 관계자의 피드백과 입력을 통해 사용 사례를 추가로 필터링 할 수 있습니다.
3 단계 : 로드맵
이 단계에서는 시간 제한 로드맵을 만들고 모든 사람을 위해 게시해야합니다. 로드맵에는 복잡성, 자금, 사용 사례의 고유 한 이점 및 매핑 된 프로젝트에 대한 모든 세부 정보가 포함되어야합니다.
4 단계 : 변경 관리
변경 관리를 구현하려면 데이터 가용성, 무결성, 보안 및 유용성을 관리해야합니다. 기존 데이터 거버넌스를 사용하는 효과적인 변경 관리 프로그램은 지속적인 모니터링을 기반으로 활동 및 구성원에게 인센티브를 제공합니다.
5 단계 : 올바른 기술 세트
올바른 기술 세트를 식별하는 것은 업계의 현재 추세에서 조직의 성공에 매우 중요합니다. 따라서 올바른 리더를 따르고 중요한 이해 관계자를 교육하기위한 교육 프로그램을 가져와야합니다.
6 단계 : 안정성, 확장 성 및 보안
올바른 접근 방식과 효과적인 빅 데이터 분석 전략은 데이터 과학 원칙과 관련된 해석 가능한 모델을 효과적으로 사용하여 분석 프로세스를 안정적으로 만듭니다. 빅 데이터 분석 전략에는 강력하고 긴밀하게 통합 된 분석 파이프 라인을 위해 처음부터 보안 측면도 포함되어야합니다.
데이터 분석을위한 데이터 파이프 라인 및 프로세스
데이터 분석 파이프 라인을 계획 할 때 고려해야 할 세 가지 기본 측면이 있습니다. 다음과 같습니다.
- 입력: 데이터 형식 처리 할 기술의 선택은 데이터의 기본 특성을 기반으로합니다. 데이터가 시계열인지 품질인지 여부.
- 산출: 커넥터 선택 , 보고서 및 시각화는 최종 사용자의 기술 전문 지식과 데이터 소비 요구 사항에 따라 달라집니다.
- 음량: 확장 솔루션 빅 데이터 처리 시스템에 과부하가 걸리지 않도록 데이터 양에 따라 계획됩니다.
이제 빅 데이터 분석 파이프 라인의 일반적인 프로세스와 단계에 대해 논의하겠습니다.
1 단계 : 데이터 수집
데이터 수집은 데이터 파이프 라인에서 가장 중요한 첫 번째 단계입니다. 데이터의 세 가지 측면을 고려합니다.
- 데이터 소스 – 빅 데이터 파이프 라인의 아키텍처 선택과 관련하여 중요합니다.
- 데이터 구조 – 직렬화는 파이프 라인 전체에서 동종 구조를 유지하기위한 핵심입니다.
- 데이터의 청결성 – 분석은 결 측값 및 이상 값 등과 같은 문제가없는 데이터만큼 우수합니다.
2 단계 : ETL / 창고
다음으로 중요한 모듈은 ETL (Extract Transform Load)을 수행하는 데이터 저장 도구입니다. 적절한 데이터 센터의 데이터 저장은 다음에 달려 있습니다.
- 하드웨어
- 관리 전문성
- 예산
(영상 출처 )
데이터 센터에서 ETL /웨어 하우징을 위해 시간 테스트를 거친 도구는 다음과 같습니다.
- Apache Hadoop
- Apache Hive
- Apache Parquet
- Presto 쿼리 엔진
Google, AWS, Microsoft Azure와 같은 클라우드 회사는 이러한 도구를 유료로 제공하고 초기 자본 지출을 절약합니다.
3 단계 : 분석 및 시각화
빠른 쿼리에 대한 Hadoop의 한계를 고려할 때 필요한 결과 시각화와 함께 빠르고 임시 쿼리를 허용하는 분석 플랫폼과 도구를 사용해야합니다.
>> 추천 자료 : 빅 데이터 도구
4 단계 : 모니터링
시각화 도구를 사용하여 수집, 저장 및 분석을위한 인프라를 설정 한 후 다음 단계는 모니터링 할 IT 및 데이터 모니터링 도구를 사용하는 것입니다. 여기에는 다음이 포함됩니다.
- CPU 또는 GPU 사용량
- 메모리 및 리소스 소비
- 네트워크
고려할 가치가있는 몇 가지 도구는 다음과 같습니다.
- Datadog
- Grafana
모니터링 도구는 빅 데이터 분석 파이프 라인에서 필수 불가결하며 파이프 라인의 품질과 무결성을 모니터링하는 데 도움이됩니다.
빅 데이터 분석 아키텍처
아래의 아키텍처 다이어그램은 현대 기술이 Hadoop 및 Map-reduce 처리, 인 메모리 분석 시스템 및 실시간 분석을 위해 비정형 및 정형 데이터 소스를 모두 사용하여 실시간 운영 및 의사 결정을위한 결합 된 결과를 가져 오는 방법을 보여줍니다.
(영상 출처 )
데이터 분석의 현재 동향
이 섹션에서는 업계에서 빅 데이터 분석의 추세를 구현하거나 따를 때 찾아야 할 필수 측면을 나열했습니다.
# 1) 빅 데이터 소스
빅 데이터에는 주로 세 가지 소스가 있습니다. 다음은 다음과 같습니다.
- 소셜 데이터 : 소셜 미디어 사용으로 인해 생성 된 데이터. 이 데이터는 감정 과 고객의 행동 마케팅 분석에 유용 할 수 있습니다.
- 머신 데이터 : 이 데이터는 IoT 센서를 사용하는 산업 장비 및 애플리케이션에서 캡처됩니다. 이해를 돕는다 사람들의 행동 에 대한 통찰력을 제공합니다. 프로세스 .
- 거래 데이터 : 지불 주문, 청구서, 영수증 등에 관한 사용자의 오프라인 및 온라인 활동의 결과로 생성됩니다. 이러한 종류의 데이터는 대부분 전처리 과 청소 분석에 사용할 수 있습니다.
# 2) SQL / NoSQL 데이터 스토리지
기존 데이터베이스 또는 RDBMS와 비교할 때 NoSQL 데이터베이스는 빅 데이터 분석에 필요한 작업에 더 나은 것으로 입증되었습니다.
NoSQL 데이터베이스는 본질적으로 비정형 데이터를 매우 잘 처리 할 수 있으며 값 비싼 스키마 수정, 수직 확장 및 ACID 속성의 간섭에 국한되지 않습니다.
# 3) 예측 분석
Predictive Analytics는 조직이 새로운 고객 응답 또는 구매 및 교차 판매 기회를 생성하도록 유도하는 맞춤형 통찰력을 제공합니다. 조직은 예측 분석을 사용하여 개별 요소를 세부적으로 예측하여 향후 결과를 예측하고 잠재적 인 문제를 방지합니다. 이것은 또한 과거 데이터와 결합되어 규범 적 분석으로 바뀝니다.
빅 데이터 예측 분석이 성공적으로 사용 된 일부 영역은 비즈니스, 아동 보호, 임상 의사 결정 지원 시스템, 포트폴리오 예측, 경제 수준 예측 및 보험입니다.
# 4) 딥 러닝
빅 데이터는 기존 컴퓨팅에 비해 압도적입니다. 데이터 분석의 전통적인 기계 학습 기술은 데이터의 다양성과 양이 증가함에 따라 성능이 평평 해졌습니다.
분석은 형식 변형, 고도로 분산 된 입력 소스, 불균형 입력 데이터 및 빠르게 움직이는 스트리밍 데이터와 관련하여 문제에 직면하고 있으며 딥 러닝 알고리즘은 이러한 문제를 매우 효율적으로 처리합니다.
딥 러닝은 시맨틱 인덱싱, 차별적 작업 수행, 시맨틱 이미지 및 비디오 태깅, 소셜 타겟팅, 그리고 객체 인식, 데이터 태깅, 정보 검색 및 자연어 영역의 계층 적 다단계 학습 접근 방식에서 효과적인 사용을 발견했습니다. 처리.
# 5) 데이터 레이크
서로 다른 시스템에 서로 다른 데이터 세트를 저장하고이를 분석을 위해 기존 데이터 관리 접근 방식과 결합하는 것은 비용이 많이 들고 거의 불가능합니다. 따라서 조직은 실행 가능한 분석을 위해 원시 형식으로 데이터를 저장하는 데이터 레이크를 만들고 있습니다.
아래 이미지는 빅 데이터 아키텍처의 예시 데이터 레이크를 보여줍니다.
(영상 출처 )
빅 데이터 분석 사용
아래에 몇 가지 일반적인 사용 사례를 나열했습니다.
# 1) 고객 분석
빅 데이터 분석은 기업 고객을위한 마이크로 마케팅, 일대일 마케팅, 세분화 및 대량 맞춤화와 같은 다양한 목적에 유용합니다. 기업은 유사하거나 다른 범위의 제품 및 서비스를 상향 판매하거나 교차 판매하려는 고객 성향에 따라 제품 및 서비스를 개인화하는 전략을 만들 수 있습니다.
# 2) 운영 분석
운영 분석은 기존 데이터를 활용하고이를 머신 및 IoT 데이터로 보강하여 전반적인 의사 결정 및 비즈니스 결과를 개선하는 데 도움이됩니다.
예를 들면 의료 분야의 빅 데이터 분석을 통해 의료 지출 최적화, 임상 시험 모니터링 개선, COVID-19와 같은 질병 전염병에 대한 대응 예측 및 계획과 관련된 새로운 기회와 도전에 직면 할 수있게되었습니다.
# 3) 사기 방지
빅 데이터 분석은 주로 금융 및 보험 부문에서 사기 시도를 예상하고 줄임으로써 막대한 이점을 제공 할 수있는 잠재력을 가지고 있습니다.
예를 들면 보험 회사는 인구 통계, 수입, 의료 청구, 변호사 비용, 날씨, 고객의 음성 녹음 및 콜센터 메모에 대한 실시간 데이터를 캡처합니다. 특정 실시간 세부 정보는 위에서 언급 한 정보를 과거 데이터와 결합하여 추측 된 사기성 주장을 조기에 식별함으로써 예측 모델을 도출하는 데 도움이됩니다.
# 4) 가격 최적화
기업은 빅 데이터 분석을 사용하여 카테고리 수준이 아닌 제품 수준에서 최상의 가격을 찾아 수익 마진을 증가시킵니다. 대기업은 수천 개의 제품에 대해 정기적으로 변경되는 가격 변수의 세부 사항과 복잡성을 파악하기가 너무 압도적이라고 생각합니다.
동적 거래 스코어링과 같은 분석 기반 가격 최적화 전략을 통해 기업은 데이터 및 개별 거래 수준에 대한 통찰력을 기반으로 제품 및 세그먼트 클러스터의 가격을 설정하여 까다로운 고객으로부터 빠른 성공을 거둘 수 있습니다.
자주 묻는 질문
Q # 1) 빅 데이터 분석은 좋은 직업입니까?
대답: 이는 모든 조직에 부가가치이며 정보에 입각 한 결정을 내릴 수 있고 경쟁사보다 우위를 제공합니다. 빅 데이터 경력 이동은 조직의 주요 의사 결정자가 될 가능성을 높입니다.
Q # 2) 빅 데이터 분석이 중요한 이유는 무엇입니까?
대답: 조직이 산업 데이터를 결합하고 분석 할 수있는 새로운 성장 기회와 완전히 새로운 범주의 제품을 만들 수 있도록 도와줍니다. 이러한 회사는 제품 및 서비스, 구매자 및 공급 업체, 소비자 선호도에 대해 수집하고 분석 할 수있는 충분한 정보를 가지고 있습니다.
Q # 3) 빅 데이터 분석에 필요한 것은 무엇입니까?
대답: 훌륭한 빅 데이터 분석가가 숙지해야하는 기술의 범위는 엄청납니다. 빅 데이터 분석을 마스터하려면 다양한 도구, 소프트웨어, 하드웨어 및 플랫폼에 대한 이해가 필요합니다. 예를 들면 스프레드 시트, SQL 쿼리, R / R Studio 및 Python은 몇 가지 기본 도구입니다.
엔터프라이즈 수준에서는 Linux, Hadoop, Java, Scala, Python, Spark, Hadoop 및 HIVE 외에도 MATLAB, SPSS, SAS 및 Congnos와 같은 도구가 중요합니다.
객관적인 질문 :
Q # 4) 아래 주어진 데이터베이스 중 NoSQL 데이터베이스가 아닌 것은 무엇입니까?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
대답: PostgreSQL
Q # 5) Cassandra는 NoSQL입니까?
- 진실
- 그릇된
대답: 진실
Q # 6) 다음 중 Hadoop의 속성이 아닌 것은 무엇입니까?
처음부터 방화벽을 만드는 방법
- 오픈 소스
- Java 기반
- 분산 처리
- 실시간
대답: 실시간
Q # 7) 데이터 과학자가 수행하지 않는 모든 활동을 선택하십시오.
- 기계 학습 모델을 구축하고 성능을 향상시킵니다.
- 분석을 검증하기위한 통계 모델 평가
- 데이터 시각화 도구를 사용하여 고급 분석 요약
- 내부 팀 및 비즈니스 고객에게 기술 분석 결과 발표
대답: 내부 팀 및 비즈니스 고객에게 기술 분석 결과 발표
추가 읽기 = >> 데이터 분석가와 데이터 과학자의 주요 차이점
Q # 8) 데이터 분석가는 어떤 활동을 수행합니까?
- 원시 데이터 정리 및 구성
- 데이터에서 흥미로운 트렌드 찾기
- 쉬운 해석을위한 대시 보드 및 시각화 생성
- 무엇보다도
대답: 무엇보다도
Q # 9) 다음 중 데이터 엔지니어가 수행하는 작업은 무엇입니까?
- 새 데이터 소스를 기존 데이터 분석 파이프 라인에 통합
- 데이터 소비를위한 API 개발
- 지속적인 성능을위한 시스템 모니터링 및 테스트
- 무엇보다도
대답: 무엇보다도
Q # 10) 분석을위한 올바른 데이터 흐름 순서는
- 데이터 소스, 데이터 준비, 데이터 변환, 알고리즘 설계, 데이터 분석
- 데이터 소스, 데이터 변환, 알고리즘 설계, 데이터 준비, 데이터 분석
- 데이터 소스, 알고리즘 설계, 데이터 준비, 데이터 변환, 데이터 분석
- 데이터 소스, 데이터 준비, 알고리즘 설계, 데이터 변환, 데이터 분석
대답: 데이터 소스, 데이터 준비, 데이터 변환, 알고리즘 설계, 데이터 분석
Q # 11) 데이터 분석은 선형 프로세스입니다.
- 진실
- 그릇된
대답: 그릇된
Q # 12) 탐색 적 분석은
- 대답 자세한 초기 데이터 분석 질문
- 데이터 세트의 문제 확인
- 질문에 대한 답을 스케치하기
- 데이터가 질문에 답하기에 올바른지 확인
대답: 대답자세한 초기 데이터 분석 질문
Q # 13) 예측 질문은 추론 질문에 주어진 또 다른 이름입니다.
- 진실
- 그릇된
대답: 그릇된
결론
빅 데이터 분석의 가장 중요한 측면을 다루었습니다. 빅 데이터 분석 업계에서 가장 널리 사용되는 사용 사례와 트렌드를 설명하여 최대한의 이점을 얻었습니다.