metadata data warehouse explained with examples
이 자습서에서는 ETL에서 메타 데이터의 역할, 메타 데이터의 예 및 유형, 메타 데이터 저장소 및 메타 데이터 관리의 과제를 설명합니다.
ETL의 데이터 마트 이전 튜토리얼에서 자세히 설명했습니다.
메타 데이터의 개념은 ETL에서 매우 중요하며이 자습서에서는 메타 데이터에 대한 모든 것을 설명합니다.
메타 데이터의 역할, 메타 데이터의 예, 유형, 메타 데이터 저장소, 데이터웨어 하우징 메타 데이터 관리 방법, 메타 데이터 관리 과제를 다룹니다.
또한 메타 데이터 기반 ETL이 무엇인지, 그리고 데이터와 메타 데이터의 차이점을 알게됩니다.
=> 여기에서 무료 데이터웨어 하우스 교육 시리즈를 읽어보십시오.
대상 청중
- 데이터웨어 하우스 / ETL 개발자 및 테스터.
- 데이터베이스 개념에 대한 기본 지식이있는 데이터베이스 전문가.
- 데이터웨어 하우스 / ETL 영역을 이해하고자하는 데이터베이스 관리자 / 빅 데이터 전문가.
- 데이터웨어 하우스 일자리를 찾고있는 대학 졸업생 / 신입생.
학습 내용 :
빅 데이터 서비스 기업
ETL의 메타 데이터
데이터웨어 하우스 팀 (또는) 사용자는 다양한 상황에서 메타 데이터를 사용하여 시스템을 구축, 유지 및 관리 할 수 있습니다. 데이터웨어 하우스에서 메타 데이터의 기본 정의는 다음과 같습니다. '데이터에 대한 데이터' .
메타 데이터는 다음과 같은 DW 데이터에 대한 모든 종류의 정보를 보유 할 수 있습니다.
- 추출 된 데이터의 소스입니다.
- 해당 DW 데이터 사용.
- 모든 종류의 데이터와 그 값.
- 데이터의 특징.
- 추출 된 데이터에 대한 변환 논리.
- DW 테이블과 그 속성.
- DW 개체
- 타임 스탬프
메타 데이터는 DW 시스템의 데이터에 대한 목차 역할을하여 해당 데이터에 대한 자세한 정보와 함께 기술을 보여줍니다. 간단히 말해서, 그 책의 내용에 대해 메타 데이터 역할을하는 책의 색인을 생각할 수 있습니다.
마찬가지로 메타 데이터는 DW 콘텐츠에 대한 색인 역할을합니다. 이러한 모든 메타 데이터는 저장소에 저장됩니다. 메타 데이터를 통해 최종 사용자는 DW 시스템 분석을 시작할 수있는 위치를 알게됩니다. 그렇지 않으면 최종 사용자가 거대한 DW 시스템에서 데이터 분석을 시작할 위치를 알기가 어렵습니다.
데이터웨어 하우스에서 메타 데이터의 역할
초기에는 메타 데이터가 문서로 생성되고 유지되었습니다. 그러나 오늘날의 디지털 세계에서는 다양한 도구가 DW 프로세스의 각 수준에서 메타 데이터를 기록하여이 작업을 더 쉽게 만들어줍니다.
하나의 도구로 생성 된 메타 데이터를 표준화 할 수 있으며 (즉, 데이터를 하나의 고유 한 형식으로 가져올 수 있음) DW 시스템의 다른 도구에서 재사용 할 수 있습니다.
운영 체제가 현재 데이터를 유지한다는 것을 알고 있으므로 DW 시스템은 과거 및 현재 데이터를 유지합니다.
메타 데이터는 소스 시스템, 데이터 추출 / 변환 방법 및이 프로세스에서 발생할 데이터의 구조 (또는) 콘텐츠에서 발생하는 모든 변경 사항을 추적해야합니다. 메타 데이터는 여러 버전을 유지하여 몇 년 동안 이러한 모든 변경 사항을 추적합니다.
저장소에 제공되는 충분한 메타 데이터는 모든 사용자가 시스템을보다 효율적이고 독립적으로 분석하는 데 도움이됩니다. 메타 데이터를 이해하면 최상의 결과를 위해 DW 데이터에 대해 모든 종류의 쿼리를 실행할 수 있습니다.
메타 데이터 역할의 그림 표현 :
간단한 용어로 된 메타 데이터의 예
다음은 메타 데이터의 몇 가지 예입니다.
- 웹 페이지의 메타 데이터에는 코딩 된 언어,이를 빌드하는 데 사용되는 도구, 지원 브라우저 등이 포함될 수 있습니다.
- 디지털 이미지의 메타 데이터에는 사진의 크기, 해상도, 색상 강도, 이미지 생성 날짜 등이 포함될 수 있습니다.
- 문서의 메타 데이터에는 문서 작성 날짜, 마지막 수정 날짜, 크기, 작성자, 설명 등이 포함될 수 있습니다.
데이터와 메타 데이터 비교
S. 아니 | 데이터 | 메타 데이터 |
---|---|---|
1 | 데이터는 정보의 집합입니다. | 메타 데이터는 데이터에 대한 정보입니다. |
두 | 데이터가 처리되지 않을 수 있습니다. | 메타 데이터는 항상 처리 된 데이터입니다. |
메타 데이터 유형
메타 데이터를 다양한 유형으로 분류하면 메타 데이터를 더 잘 이해하는 데 도움이됩니다. 이 분류는 사용 (또는) 사용자 등을 기반으로 할 수 있습니다.
유닉스에서 grep 명령은 무엇입니까
아래에서 다양한 유형의 메타 데이터를 살펴 보겠습니다.
# 1) 백룸 메타 데이터 : DBA (또는) 최종 사용자에게 추출, 정리 및로드 프로세스를 지시합니다.
# 2) 프론트 룸 메타 데이터 : 최종 사용자에게 BI 도구 및 보고서를 사용하도록 지시합니다.
# 3) 프로세스 메타 데이터 : 여기에는로드, 거부, 처리 된 행 수, DW 시스템에로드하는 데 걸린 시간 등과 같은 ETL 프로세스 메타 데이터가 저장됩니다.이 정보는 최종 사용자도 액세스 할 수 있습니다.
동시에 스테이징 테이블의 통계는 ETL 팀에게도 중요합니다. 이 메타 데이터는로드, 거부, 처리 된 행 수 및 각 스테이징 테이블로로드하는 데 걸린 시간과 같은 스테이징 테이블 프로세스 데이터를 저장합니다.
# 4) 데이터 계보 : 이것은 각 소스 시스템 요소에 대한 논리적 변환을 DW 대상 요소에 저장합니다.
# 5) 비즈니스 정의 : DW 테이블의 컨텍스트는 비즈니스 정의에서 파생되었습니다. 테이블의 모든 속성은 비즈니스 정의와 연관됩니다. 따라서 나중에 참조 할 수 있도록 메타 데이터 (또는 다른 문서)로 저장해야합니다. 최종 사용자와 ETL 팀은 모두 이러한 비즈니스 정의에 의존합니다.
# 6) 기술적 정의 : 기술 정의는 비즈니스 정의보다 데이터 스테이징 영역에서 독점적으로 사용됩니다. 주요 목적은 스테이징 테이블을 작성하는 동안 모호성을 줄이고 기존 테이블을 재사용하는 것입니다. 기술 정의에는 위치 및 구조와 같은 각 준비 테이블의 세부 정보가 저장됩니다.
각 스테이징 테이블은 여기에 기술적으로 문서화되어 있지만 문서화되지 않은 경우 스테이징 테이블이 존재하지 않음을 의미합니다. 이렇게하면 동일한 스테이징 테이블이 다시 생성되지 않습니다.
# 7) 비즈니스 메타 데이터 : 데이터는 최종 사용자 / 분석가 / 관리자 / 모든 사용자의 이익을 위해 비즈니스 용어로 저장됩니다. 비즈니스 메타 데이터는 소스 시스템 데이터에 대한 프록시입니다. 즉, 데이터 조작이 수행되지 않습니다. 모든 비즈니스 문서 및 비즈니스 규칙에서 파생 될 수 있습니다.
# 8) 기술 메타 데이터 : 이것은 테이블 속성, 데이터 유형, 크기, 기본 키 속성, 외래 키 속성 및 모든 인덱스와 같은 기술 데이터를 저장합니다. 이것은 비즈니스 메타 데이터와 비교할 때 더 구조적입니다.
기술 메타 데이터는 주로 개발자 / 테스터 / 분석가 / DBA와 같은 DW 팀이 시스템을 구축 (또는 유지)하는 데 사용됩니다. 이것은 또한 관리자가 데이터베이스로드 및 데이터 백업 등을 모니터링하는 데 크게 사용됩니다.
# 9) 운영 메타 데이터 : 우리가 알고 있듯이 DW 시스템으로 들어가는 데이터는 다양한 데이터 유형과 필드를 가진 많은 운영 시스템에서 가져온 것입니다. DW 추출은 이러한 데이터를 고유 한 유형으로 변환하고이 모든 데이터를 시스템에로드합니다.
동시에 데이터를 소스 시스템 데이터에 다시 연결할 수 있어야합니다. 이러한 모든 운영 데이터 소스 정보를 저장하는 메타 데이터를 운영 메타 데이터라고합니다.
# 10) 소스 시스템 정보 :
다양한 소스 시스템에서 다음 메타 데이터를 수집 할 수 있습니다.
- 데이터베이스 (또는) 파일 시스템 : 소스 시스템 데이터베이스 (또는) 파일의 이름이 저장됩니다.
- 테이블 사양 : 이것은 테이블 이름, 용도, 크기, 속성, 기본 키 및 외래 키와 같은 테이블에 대한 모든 세부 정보를 저장합니다.
- 예외 처리 규칙 : 시스템 장애시 시스템을 복구하는 다양한 방법이 저장됩니다.
- 비즈니스 정의 : 이것은 데이터에 대한 간략한 이해를 위해 비즈니스 정의를 저장합니다.
- 비즈니스 규칙 : 이것은 데이터를 이해하고 불일치를 피하기 위해 각 테이블에 대한 일련의 규칙을 저장합니다.
소스 시스템 메타 데이터는 데이터를 분석하는 동안 DW 팀에 많은 시간을 절약합니다.
# 11) ETL 작업 메타 데이터 : ETL 작업 메타 데이터는 ETL 시스템을로드하기 위해 일정에서 처리 할 모든 작업의 세부 정보를 저장하므로 매우 중요합니다.
이 메타 데이터는 다음 정보를 저장합니다.
- 직업 이름: ETL 작업 이름.
- 직무 목적 : 작업 실행 목적.
- 소스 테이블 / 파일 : 이 ETL 작업에서 데이터를 제공하는 모든 테이블 및 파일의 이름과 위치를 제공합니다. 이것은 둘 이상의 테이블 (또는) 파일 이름을 가질 수 있습니다.
- 대상 테이블 / 파일 : 이 ETL 작업에 의해 데이터가 변환되는 모든 테이블 및 파일의 이름과 위치를 제공합니다. 이것은 둘 이상의 테이블 (또는) 파일 이름을 가질 수 있습니다.
- 거부 된 데이터 : 의도 한 소스 데이터가 대상에로드되지 않은 모든 테이블 및 파일의 이름과 위치를 제공합니다.
- 사전 프로세스 : 현재 작업이 종속 된 작업 (또는) 스크립트 이름을 제공합니다. 이는 현재 작업을 실행하기 전에 성공적으로 실행되어야 함을 의미합니다.
- 포스트 프로세스 : 프로세스를 완료하기 위해 현재 작업 직후에 실행해야하는 작업 (또는) 스크립트 이름을 제공합니다.
- 회수: 작업 실행 빈도 (예 : 매일, 매주 (또는) 매월)에 대한 정보를 제공합니다.
# 12) 변환 메타 데이터 : 변환 메타 데이터는 모든 ETL 프로세스 관련 구성 정보를 저장합니다. ETL 프로세스의 모든 데이터 조작을 데이터 변환이라고합니다.
ETL 프로세스의 모든 함수, 저장 프로 시저, 커서, 변수 및 루프 집합을 변환으로 간주 할 수 있습니다. 그러나 이러한 변환은 메타 데이터로 별도로 문서화 할 수 없습니다.
전체 ETL 프로세스는 데이터 변환으로 구축됩니다. ETL의 변환은 DW 시스템에서 미리 정의하고 사용할 수 있습니다. ETL 개발자는 모든 데이터 변환을 구축 (또는) 재 처리하는 데 시간을 보냅니다. ETL 프로세스 개발 중에 사전 정의 된 변환을 재사용하면 작업 속도가 빨라집니다.
ETL에서 찾을 수있는 아래 데이터 변환을 읽어보십시오.
- 소스 데이터 추출 : 여기에는 SQL Select 쿼리 (또는) FTP (또는) XML / 메인 프레임 데이터 읽기와 같은 소스 시스템 데이터에서 읽기위한 데이터 변환이 포함됩니다.
- 대리 키 생성기 : 모든 데이터베이스 테이블 행에 대해 생성되어야하는 새 시퀀스 번호는 메타 데이터로 저장됩니다.
- 조회 : 모든 IN 문, 내부 조인 및 외부 조인을 사용하여 조회를 구성 할 수 있습니다. 이들은 주로 팩트를로드하는 동안 모든 각 차원 테이블에서 서로 게이트 키를 보유하는 데 사용됩니다.
- 필터 : ETL 프로세스에서 추출,로드 및 거부해야하는 데이터를 정렬하려면 필터를 사용하는 것이 좋습니다. ETL 시스템의 초기 단계에서 데이터를 필터링하는 것이 좋습니다. 필터는 비즈니스 규칙 (또는) 제약 조건에 따라 적용됩니다.
- 집계 : 데이터 세분화 수준에 따라 합계, 개수, 평균 등 집계 함수와 관련된 메타 데이터를 사용할 수 있습니다.
- 업데이트 전략 : 데이터를 업데이트하는 동안 레코드에 적용되는 규칙입니다. 기존 데이터에 수정 사항이있는 경우 레코드를 추가, 삭제 (또는) 업데이트해야하는지 여부를 나타냅니다.
- 타겟 로더 : 대상 로더는 ETL 프로세스를 통해 데이터를로드해야하는 데이터베이스, 테이블 이름 및 열 이름의 세부 사항을 저장합니다. 또한 ETL 시스템으로 데이터를로드하는 동안 수행되는 벌크로드 유틸리티의 세부 사항도 저장합니다.
모든 변환은 목적에 대한 간단한 메모와 함께 고유하게 이름을 지정할 수 있습니다.
위의 변환 목록에 대한 명명 규칙의 몇 가지 예가 여기에 인라인되어 있습니다.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
ETL의 메타 데이터 저장소
메타 데이터 저장소는 모든 유형의 메타 데이터가 로컬 데이터베이스 (또는 가상 데이터베이스)에 저장되는 장소입니다. 비즈니스 메타 데이터 (또는) 기술 메타 데이터와 같은 각 유형의 메타 데이터는 저장소에서 논리적으로 분리 될 수 있습니다.
위의 두 가지 유형 외에도 저장소에는 Information navigator라는 구성 요소가 하나 더 있습니다.
정보 탐색기를 사용하여 다음 작업을 수행 할 수 있습니다.
- 검색어 도구의 인터페이스 : 이는 DW 메타 데이터에 액세스 할 수있는 쿼리 도구에 대한 인터페이스를 제공합니다.
- 세부 정보 드릴 다운 : 이를 통해 사용자는 메타 데이터를 드릴 다운하여 더 자세한 정보를 얻을 수 있습니다. 예를 들어, 첫 번째 수준에서 사용자는 데이터 테이블 정의를 가져올 수 있습니다. 드릴 다운하여 다음 레벨에서 테이블 속성을 가져올 수 있습니다. 데이터를 더 드릴 다운하면 각 속성 등에 대한 세부 정보를 얻을 수 있습니다.
- 사전 정의 된 쿼리 및 보고서 검토 : 이를 통해 사용자는 미리 정의 된 쿼리 및 보고서를 검토 할 수 있습니다. 이는 적절한 매개 변수 등을 사용하여 자체적으로 프레임 쿼리에 대한 참조 역할을합니다.
메타 데이터 저장소의 그림 표현 :
자바와 C ++의 차이점
데이터웨어 하우징 메타 데이터를 어떻게 관리 할 수 있습니까?
사람, 프로세스 및 도구는 메타 데이터를 관리하는 핵심 소스입니다.
- 사람들은 적절한 사용을 위해 메타 데이터를 이해해야합니다.
- 이 프로세스는 향후 사용을 위해 DW 수명주기의 진행과 함께 메타 데이터를 도구 (또는) 저장소에 통합합니다.
- 이후 메타 데이터는 도구로 관리 할 수 있습니다.
메타 데이터 관리의 과제
메타 데이터가 생성되면 시스템에서 메타 데이터를 통합하고 관리하는 동안 다음과 같은 문제에 직면 할 수 있습니다.
- 다양한 형식의 메타 데이터를 표준 형식으로 가져 오려면 DW 시스템에서 다양한 도구를 사용하는 경우 더 많은 노력이 필요할 수 있습니다. 메타 데이터는 스프레드 시트, 응용 프로그램 (또는) 데이터베이스에 저장할 수 있기 때문입니다.
- 메타 데이터 형식에는 확립 된 업계 표준이 없습니다. 이러한 표준화 된 프로세스의 부재로 인해 다양한 수준의 DW 시스템 및 도구를 통해 메타 데이터를 전달하기가 어렵습니다.
- 다양한 버전의 기록 메타 데이터를 일관되게 유지 관리하는 것은 복잡한 작업입니다.
메타 데이터 기반 ETL이란?
메타 데이터 기반 ETL은 DW 시스템으로의 데이터로드 프로세스를 단순화하는 계층을 설정합니다. 메타 데이터에 의존하지 않고 데이터를 시스템으로 처리할지 여부를 결정할 수 있습니다. 따라서이를 메타 데이터 기반 ETL이라고 부를 수 있습니다.
결론
DW 시스템의 성공 (또는) 실패를 결정하는 데있어 메타 데이터의 중요한 역할은이 자습서에서 자세히 설명했습니다.
또한 관련 그림 표현과 함께 메타 데이터의 의미, 역할, 예, 유형, 문제를 자세히 살펴 보았습니다.
이 데이터웨어 하우스 시리즈의 유익한 튜토리얼이 데이터웨어 하우징 및 관련 개념에 대한 지식을 풍부하게 해주기를 바랍니다 !!!
행복한 독서 !!
=> 처음부터 데이터웨어 하우징에 대해 알아 보려면 여기를 방문하십시오.