data mart tutorial types
이 자습서에서는 데이터 마트 구현, 유형, 구조 및 데이터웨어 하우스 대 데이터 마트의 차이점을 포함한 데이터 마트 개념을 설명합니다.
이것에 완전한 데이터웨어 하우스 교육 시리즈 , 우리는 다양한 데이터웨어 하우스 스키마 상세히.
이 튜토리얼은 간단한 예제와 함께 데이터 마트 개념을 자세히 배우는 데 도움이됩니다.
데이터 마트 란 무엇입니까? 데이터 마트는 언제 필요합니까? 비용 효율적인 데이터 마팅, 데이터 마트 비용, 데이터 마트 유형, 데이터 마트 구현 단계, 데이터 마트 구조, 파일럿 데이터 마트는 언제 유용합니까? 데이터 마트의 단점과 데이터웨어 하우스와 데이터 마트의 차이점.
대상 청중
- 데이터웨어 하우스 / ETL 개발자 및 테스터.
- 데이터베이스 개념에 대한 기본 지식이있는 데이터베이스 전문가.
- 데이터웨어 하우스 / ETL 개념을 이해하려는 데이터베이스 관리자 / 빅 데이터 전문가
- 데이터웨어 하우스 일자리를 찾고있는 대학 졸업자 / 신입생.
학습 내용 :
- 데이터 마트 란?
- 데이터웨어 하우스 대 데이터 마트 비교
- 데이터 마트의 유형
- 데이터 마트의 구현 단계
- 데이터 마트의 구조
- 파일럿 데이터 마트는 언제 유용합니까?
- 데이터 마트의 단점
- 결론
데이터 마트 란?
데이터 마트는 주로 마케팅 (또는) 판매 등과 같은 특정 비즈니스 도메인과 관련된 데이터웨어 하우스의 작은 부분입니다.
DW 시스템에 저장된 데이터는 방대하므로 데이터 마트는 개별 부서에 속한 데이터의 하위 집합으로 설계되었습니다. 따라서 특정 사용자 그룹은 분석을 위해이 데이터를 쉽게 활용할 수 있습니다.
많은 사용자 조합이있는 데이터웨어 하우스와 달리 각 데이터 마트에는 특정 최종 사용자 집합이 있습니다. 최종 사용자 수가 적을수록 응답 시간이 향상됩니다.
데이터 마트는 BI (비즈니스 인텔리전스) 도구에서도 액세스 할 수 있습니다. 데이터 마트에는 중복 된 (또는) 사용되지 않은 데이터가 포함되지 않습니다. 정기적으로 업데이트됩니다. 주제 지향적이고 유연한 데이터베이스입니다. 각 팀은 데이터웨어 하우스 (또는) 다른 데이터 마트의 데이터를 수정하지 않고 데이터 마트를 개발하고 유지할 권리가 있습니다.
데이터 마트는 데이터웨어 하우스 시스템보다 비용이 매우 적기 때문에 소규모 비즈니스에 더 적합합니다. 데이터 마트를 구축하는 데 필요한 시간도 데이터웨어 하우스 구축에 필요한 시간보다 적습니다.
여러 데이터 마트의 그림 표현 :
qa 테스트 인터뷰 질문 및 답변
데이터 마트는 언제 필요합니까?
데이터 마트의 운영 비용이 때때로 높을 수 있으므로 필요에 따라 이해 관계자를 참여시켜 부서의 데이터 마트를 계획하고 설계하십시오.
데이터 마트를 구축하는 아래 이유를 고려하십시오.
- 사용자 액세스 제어 전략 세트로 데이터를 분할하려는 경우.
- 특정 부서에서 방대한 DW 데이터를 스캔하는 대신 쿼리 결과를 훨씬 빠르게 확인하려는 경우.
- 부서에서 다른 하드웨어 (또는) 소프트웨어 플랫폼에 데이터를 구축하려는 경우.
- 부서에서 도구에 적합한 방식으로 데이터를 설계하려는 경우.
비용 효율적인 데이터 마트
비용 효율적인 데이터 마트는 다음 단계를 통해 구축 할 수 있습니다.
- 기능적 분할 식별 : 조직 데이터를 각 데이터 마트 (부서) 특정 데이터로 분할하여 추가 조직 종속성없이 요구 사항을 충족합니다.
- 사용자 액세스 도구 요구 사항 식별 : 시장에는 다른 데이터 구조를 필요로하는 다른 사용자 액세스 도구가있을 수 있습니다. 데이터 마트는 DW 데이터를 방해하지 않고 이러한 모든 내부 구조를 지원하는 데 사용됩니다. 사용자 요구에 따라 하나의 데이터 마트를 하나의 도구와 연관시킬 수 있습니다. 데이터 마트는 매일 이러한 도구에 업데이트 된 데이터를 제공 할 수도 있습니다.
- 액세스 제어 문제 식별 : DW 시스템의 서로 다른 데이터 세그먼트에 개인 정보가 필요하고 권한이있는 사용자 집합이 액세스해야하는 경우 이러한 모든 데이터를 데이터 마트로 이동할 수 있습니다.
데이터 마트 비용
데이터 마트의 비용은 다음과 같이 추정 할 수 있습니다.
- 하드웨어 및 소프트웨어 비용 : 새로 추가 된 데이터 마트는 최종 사용자가 요청한 쿼리를 처리하기 위해 추가 하드웨어, 소프트웨어, 처리 능력, 네트워크 및 디스크 저장 공간이 필요할 수 있습니다. 이것은 데이터 마팅을 값 비싼 전략으로 만듭니다. 따라서 예산은 정확하게 계획되어야합니다.
- 네트워크 액세스 : 데이터 마트의 위치가 데이터웨어 하우스의 위치와 다른 경우 모든 데이터는 데이터 마트로드 프로세스와 함께 전송되어야합니다. 따라서 비용이 많이들 수있는 방대한 양의 데이터를 전송할 수있는 네트워크가 제공되어야합니다.
- 시간 창 제약 : 데이터 마트 로딩 프로세스에 소요되는 시간은 데이터의 복잡성 및 볼륨, 네트워크 용량, 데이터 전송 메커니즘 등과 같은 다양한 요인에 따라 달라집니다.
데이터웨어 하우스 대 데이터 마트 비교
S. 아니 | 데이터웨어 하우스 | 데이터 마트 |
---|---|---|
하나 | 복잡하고 구현하는 데 더 많은 비용이 듭니다. | 구현이 간단하고 저렴합니다. |
두 | 전체 비즈니스를 위해 조직 수준에서 작동합니다. | 범위는 특정 부서로 제한됩니다. |
삼 | DW를 쿼리하는 것은 엄청난 데이터 종속성으로 인해 비즈니스 사용자에게 어렵습니다. | 데이터 마트 쿼리는 제한된 데이터로 인해 비즈니스 사용자에게 쉽습니다. |
4 | 구현 시간은 몇 개월 또는 몇 년이 더 걸릴 수 있습니다. | 구현 시간은 며칠, 몇 주 또는 몇 달이 될 수 있습니다. |
5 | 다양한 외부 소스 시스템에서 데이터를 수집합니다. | 몇 개의 중앙 집중식 DW (또는) 내부 (또는) 외부 소스 시스템에서 데이터를 수집합니다. |
6 | 전략적 결정을 내릴 수 있습니다. | 비즈니스 결정을 내릴 수 있습니다. |
데이터 마트의 유형
데이터 마트는 종속, 독립 및 하이브리드의 세 가지 유형으로 분류됩니다. 이 분류는 데이터웨어 하우스 (또는 다른 데이터 소스)에서 채워지는 방식을 기반으로합니다.
ETT (추출, 변환 및 운송)는 모든 소스 시스템에서 데이터 마트의 데이터를 채우는 데 사용되는 프로세스입니다.
각 유형을 자세히 살펴 보겠습니다 !!
# 1) 종속 데이터 마트
종속 데이터 마트에서 데이터는 기존 데이터웨어 하우스 자체에서 제공됩니다. 이는 데이터 마트로 재구성 된 데이터의 일부가 중앙 집중식 데이터웨어 하우스에서 추출되기 때문에 하향식 접근 방식입니다.
데이터 마트는 아래와 같이 논리적 또는 물리적으로 DW 데이터를 사용할 수 있습니다.
- 논리적보기 : 이 시나리오에서 데이터 마트의 데이터는 DW에서 물리적으로 분리되지 않습니다. 논리적으로 가상 뷰 (또는) 테이블을 통해 DW 데이터를 참조합니다.
- 물리적 하위 집합 : 이 시나리오에서 데이터 마트의 데이터는 DW에서 물리적으로 분리됩니다.
하나 이상의 데이터 마트가 개발되면 사용자가 데이터 마트에만 액세스 (또는)하여 데이터 마트와 데이터웨어 하우스 모두에 액세스하도록 허용 할 수 있습니다.
ETT는 사용 가능한 데이터가 이미 중앙 집중식 DW에 존재하기 때문에 종속 데이터 마트의 경우 단순화 된 프로세스입니다. 요약 된 데이터의 정확한 세트는 해당 데이터 마트로 이동해야합니다.
종속 데이터 마트의 이미지는 다음과 같습니다. :
# 2) 독립 데이터 마트
독립 데이터 마트는 조직의 소규모 부서에 가장 적합합니다. 여기서 데이터는 기존 데이터웨어 하우스에서 가져온 것이 아닙니다. 독립 데이터 마트는 엔터프라이즈 DW 나 다른 데이터 마트에 종속되지 않습니다.
독립 데이터 마트는 외부 (또는) 내부 데이터 소스에서 데이터를 추출, 변환 및로드하는 독립형 시스템입니다. 단순한 부서별 비즈니스 요구를 지원할 때까지 설계 및 유지 관리가 쉽습니다.
Java에서 double은 무엇을 의미합니까?
독립적 인 데이터 마트의 경우 데이터가 중앙 집중식 DW로 처리되는 방식과 유사한 방식으로 ETT 프로세스의 각 단계에서 작업해야합니다. 그러나 데이터 마트에 채워지는 소스 및 데이터의 수는 더 적을 수 있습니다.
독립 데이터 마트의 그림 표현 :
# 3) 하이브리드 데이터 마트
하이브리드 데이터 마트에서 데이터는 DW 및 기타 운영 시스템 모두에서 통합됩니다. 하이브리드 데이터 마트는 대규모 스토리지 구조로 유연합니다. 다른 데이터 마트 데이터를 참조 할 수도 있습니다.
하이브리드 데이터 마트의 그림 표현 :
데이터 마트의 구현 단계
약간 복잡한 것으로 간주되는 데이터 마트의 구현은 아래 단계에서 설명됩니다.
- 설계: 비즈니스 사용자가 데이터 마트를 요청할 때부터 설계 단계에는 요구 사항 수집, 각 데이터 소스에서 적절한 데이터 생성, 논리적 및 물리적 데이터 구조 및 ER 다이어그램 생성이 포함됩니다.
- 구성 : 팀은 데이터 마트 시스템의 모든 테이블, 뷰, 인덱스 등을 디자인합니다.
- 채우기 : 데이터는 메타 데이터와 함께 추출, 변환 및 데이터 마트에로드됩니다.
- 액세스 : 데이터 마트 데이터는 최종 사용자가 액세스 할 수 있습니다. 분석 및 보고서를 위해 데이터를 쿼리 할 수 있습니다.
- 관리 : 여기에는 사용자 액세스 제어, 데이터 마트 성능 미세 조정, 기존 데이터 마트 유지 관리 및 시스템 장애시 데이터 마트 복구 시나리오 생성과 같은 다양한 관리 작업이 포함됩니다.
데이터 마트의 구조
각 데이터 마트의 구조는 요구 사항에 따라 생성됩니다. 데이터 마트 구조를 스타 조인이라고합니다. 이 구조는 데이터 마트마다 다릅니다.
스타 조인은 많은 양의 데이터를 지원하기 위해 팩트 및 차원 테이블로 구성된 다차원 구조입니다. 스타 조인은 차원 테이블로 둘러싸인 가운데에 팩트 테이블이 있습니다.
각 사실 테이블 데이터는 외래 키 참조가있는 차원 테이블 데이터와 연관됩니다. 팩트 테이블은 20-30 개의 차원 테이블로 둘러싸 일 수 있습니다.
DW 시스템과 유사하게 스타 조인에서도 팩트 테이블에는 숫자 데이터 만 포함되며 각 텍스트 데이터는 차원 테이블에 설명 될 수 있습니다. 이 구조는 DW의 스타 스키마와 유사합니다.
스타 조인 구조의 그림 표현.
그러나 중앙 집중식 DW의 세분화 된 데이터는 모든 데이터 마트 데이터의 기반입니다. 정규화 된 DW 데이터에 대해 많은 계산이 수행되어 큐브 형태로 저장된 다차원 데이터 마트 데이터로 변환됩니다.
이는 레거시 소스 시스템의 데이터가 정규화 된 DW 데이터로 변환되는 방식과 유사하게 작동합니다.
파일럿 데이터 마트는 언제 유용합니까?
본격적인 배포 전에 배포가 성공했는지 확인하기 위해 제한된 수의 사용자가있는 소규모 환경에 파일럿을 배포 할 수 있습니다. 그러나 이것이 항상 필수적인 것은 아닙니다. 목적이 충족되면 파일럿 배포는 소용이 없습니다.
파일럿 배포에 권장되는 아래 시나리오를 고려해야합니다.
- 최종 사용자가 데이터웨어 하우스 시스템을 처음 사용하는 경우.
- 최종 사용자가 프로덕션으로 이동하기 전에 데이터 / 보고서를 스스로 검색하는 것을 편하게 느끼기를 원하는 경우.
- 최종 사용자가 최신 도구 (또는) 기술을 직접 사용하려는 경우.
- 경영진이 큰 릴리스로 만들기 전에 개념 증명으로 이점을 확인하려는 경우.
- 팀이 릴리스 전에 모든 ETL 구성 요소 (또는) 인프라 구성 요소가 제대로 작동하는지 확인하려는 경우.
데이터 마트의 단점
데이터 마트는 DW에 비해 몇 가지 이점이 있지만 아래에 설명 된 몇 가지 단점도 있습니다.
- 생성 된 원치 않는 데이터 마트는 유지 관리가 어렵습니다.
- 데이터 마트는 소규모 비즈니스 요구를위한 것입니다. 데이터 마트의 크기를 늘리면 성능이 저하됩니다.
- 더 많은 수의 데이터 마트를 생성하는 경우 관리자는 버전 관리, 보안 및 성능을 적절히 관리해야합니다.
- 데이터 마트에는 내역 (또는) 요약 (또는) 세부 데이터가 포함될 수 있습니다. 그러나 DW 데이터와 데이터 마트 데이터에 대한 업데이트는 데이터 불일치 문제로 인해 동시에 발생하지 않을 수 있습니다.
결론
많은 조직이 비용 절감 관점에서 데이터 마트를 지향하고 있습니다. 따라서이 튜토리얼은 데이터웨어 하우스 시스템에서 데이터 마트의 기술적 측면에 초점을 맞추 었습니다.
ETL의 메타 데이터는 다음 자습서에서 자세히 설명합니다.
=> 모두를위한 데이터웨어 하우징 교육 시리즈를 보려면 여기를 방문하십시오.