oracle data warehouse
혜택, 아키텍처, 위험 및 OLTP (온라인 트랜잭션 처리) 시스템과의 비교가 포함 된 Oracle 데이터웨어 하우스 가이드 :
의 이전 튜토리얼에서 Oracle에 대한 포괄적 인 가이드 , 우리는 애플리케이션, 데이터베이스, OS 등과 같은 다양한 도메인에서 Oracle 제품 및 서비스에 대해 배웠습니다.이 기사에서는 Oracle Data Warehousing에 대한 심층적 인 지식을 제공합니다. 그러나 그 전에 먼저 BI (비즈니스 인텔리전스)의 개념을 이해하겠습니다.
비즈니스 인텔리전스
비즈니스 인텔리전스는 고객이 맞춤형 보고서를 생성하고 비즈니스를 수행하는 데 사용할 수있는 지능적이고 이해하기 쉬운 형식으로 대량 데이터를 구조화, 정제 및 변환하는 데 도움이되는 특정 방법, 기술, 도구 및 응용 프로그램을 구현하는 소프트웨어 도메인입니다. 결정.
데이터웨어 하우징, OLAP (온라인 트랜잭션 처리), 데이터 마이닝, 데이터 통합, 의사 결정 엔지니어링, 스프레드 시트 등과 같이 이러한 요구를 충족하기 위해 다양한 옵션을 사용할 수 있습니다.
EDW (Enterprise Data Warehousing)는 기업의 분석 및보고 요구 사항을 충족하는 BI의 핵심 구성 요소 중 하나입니다. 데이터웨어 하우스는 관계형 데이터베이스 관리 시스템 (RDBMS)으로, 나중에 사용하기 위해 여러 소스에서 수신 한 통합 데이터를 보유합니다.
Windows 7을위한 최고의 DVD 리퍼
학습 내용 :
Oracle Data Warehouse 개요
'데이터웨어 하우스'라고하는 이유는 무엇입니까?
'데이터웨어 하우스'라는 용어와 관련하여 '창고'라는 단어의 의미를 다시 생각해 보겠습니다.
물리적 창고는 다양한 출처에서받은 상품을 저장하는 데 사용되는 저장소로, 나중에 필요에 따라 고객에게 공급할 수 있습니다.
(영상 출처 )
마찬가지로 데이터웨어 하우스는 다양한 소스 시스템에서받은 데이터의 저장소입니다. 이러한 소스는 데이터 마트, 플랫 파일과 같은 스토리지 시스템 또는 HR, 영업, 운영, 리소스 관리 및 마케팅 등과 같은 다양한 엔터프라이즈 도메인에 대한 데이터를 보유하는 미디어 스토리지 장치 일 수 있습니다.
데이터웨어 하우스를 갖는 목적
기업은 데이터웨어 하우스의 개념에 대해 들어봤을 지 모르지만이를 기업에 포함시켜야하는지 확실하지 않을 수 있습니다. 그래도 트랜잭션 시스템에서 저장 공간을 해제 할 수 있도록 항상 서로 다른 소스의 데이터를 공통 기반에 덤프하고 보관해야 할 필요가 있습니다. 데이터웨어 하우징 시스템이 비즈니스 요구 사항이되는 곳입니다.
시장에서 성장하기 위해서는 경영진이 조직의 과거 동향을 철저히 조사한 후에야 할 수있는 의사 결정에 능숙해야합니다. 따라서이 아카이브 된 데이터는 잘 구성되고 계산 된 형식으로 데이터웨어 하우스에 유지되므로 향후 비즈니스 분석에 참조 할 수 있습니다.
데이터웨어 하우징의 이점
성공적으로 구현 된 경우 데이터웨어 하우스는 다음과 같은 이점이 있습니다.
#1) 향상된 버전의 비즈니스 인텔리전스 솔루션을 제공하여 분석가의 업무를 단순화했습니다. 여러 소스 시스템에서 데이터를 추출하고 변환하고이를 저장하여 분석을 위해 비즈니스에서 직접 쿼리 할 수 있습니다.
또한 다음을 지원하는 다양한 도구를 제공합니다.
- 맞춤형 비즈니스 보고서 생성.
- 필요한 정보를 표시하는 대화 형 대시 보드.
- 세부 정보를 얻기 위해서만 대시 보드를 드릴 다운하는 기능.
- 데이터 마이닝 및 추세 분석.
#두) 다양한 소스 시스템에서 데이터를 수신 한 후에도 데이터웨어 하우스 내의 데이터는 ETL 프로세스 중에 발생한 변환의 결과로 일관성을 유지합니다. 일관된 데이터는 정확성 측면에서 의사 결정자에게 확신을줍니다.
#삼) 데이터웨어 하우스는 이해 관계자가 비즈니스 의사 결정을 내리는 데 필요한 중요한 데이터를 단일 위치에서 사용할 수 있고 쉽게 검색 할 수 있기 때문에 시간 절약으로 정의됩니다.
# 4) 이들은 과거 데이터를 보유하도록 설계되었으므로 다른 기간 동안의 추세를 연구하기 위해 쿼리 할 수 있습니다. 또한 이해 관계자가 미래 성장 경로를 도출하는 데 도움이됩니다.
데이터웨어 하우스 사용과 관련된 위험
이점과 함께 모든 새로운 구현에는 처리해야 할 위험도 포함됩니다.
다음은 관련된 위험 중 일부입니다.
- 소스 시스템과 데이터웨어 하우징 시스템의 비 호환성으로 인해 많은 수동 작업이 수행 될 수 있습니다.
- ETL 프로세스의 잘못된 시간 추정으로 인해 작업이 중단 될 수 있습니다.
- 이들은 매우 하이 엔드 스토리지 시스템이므로 높은 유지 관리가 필요합니다. 워크 플로 또는 비즈니스 변경은 비용이 매우 많이들 수 있습니다.
- 데이터웨어 하우스를 설정하는 것은 비즈니스 흐름을 이해하고웨어 하우스를 설계하기위한 통합 기능을 식별하는 데 많은 시간이 필요하므로 시간이 걸리는 프로세스입니다.
- 데이터 보안은 유출 될 경우 비즈니스에 영향을 미칠 수있는 오래된 기록 데이터를 보유하기 때문에 항상 위험합니다.
OLTP 대 데이터웨어 하우스 비교
OLTP와 데이터웨어 하우스의 차이점은 아래 표에서 이해할 수 있습니다.
OLTP | 데이터웨어 하우징 |
---|---|
삽입 및 업데이트는 OLTP 시스템에서 최종 사용자가 수행하는 주요 작업입니다. | 데이터웨어 하우스는 주로 SELECT 문을 사용하여 쿼리되며 ETL 서비스를 통해서만 업데이트 할 수 있습니다. |
OLTP 시스템은 비즈니스 트랜잭션을 지원합니다. | 데이터웨어 하우스는 완료된 비즈니스 트랜잭션을 분석 한 후 내린 비즈니스 결정을 지원합니다. |
데이터는 휘발성을 유지합니다. | 데이터는 변경되지 않아야합니다. |
그들은 가장 최근 데이터를 보유합니다. | 그들은 과거 데이터를 보유하고 있습니다. |
계산없이 원시 데이터를 보유합니다. | 요약되고 잘 계산 된 데이터를 보관합니다. |
데이터가 정규화됩니다. | 데이터는 비정규 화 상태로 유지됩니다. |
Oracle 데이터베이스의 크기는 50MB에서 100GB까지 다양합니다. | Oracle 데이터베이스의 크기는 100GB에서 2TB까지 다양합니다. |
대조되는 데이터웨어 하우스 및 데이터 마트
데이터웨어 하우스와 DataMart는 둘 다 용어가 비슷하게 들리지 않으며 데이터 스토리지와 관련이있는 것 같습니다.
예, 그들은 관련이 있으며 둘 다 데이터 저장에 사용됩니다. 둘 다의 주요 차이점은 데이터를 보관할 수있는 용량이며이 차이는 최종 사용자가 시스템에 적합한 저장 장치를 선택하는 데 도움이됩니다.
데이터 마트는 데이터웨어 하우스에 비해 데이터 보유 용량이 적으므로 일부로 간주 할 수 있습니다. 데이터 마트는 일반적으로 특정 부서 또는 비즈니스 라인의 제한된 데이터를 저장하도록 식별되는 반면 데이터웨어 하우스는 모두를위한 통합 데이터를 보관하는 데 사용할 수 있습니다.
패션, 악세사리, 생활 용품, 책과 학용품, 전자 제품 등 다양한 상품 카테고리가있는 전자 상거래 웹 사이트의 예를 들어 보겠습니다.
Windows에서 dat 파일을 여는 방법
따라서 데이터 마트는 제품 데이터 범주를 현명하게 저장하도록 설계 될 수 있으며 데이터웨어 하우스는 기록을 포함한 전체 웹 사이트 데이터를 한 곳에 저장하는 데 사용될 수 있습니다.
데이터 마트는 크기가 더 작기 때문에 데이터웨어 하우스 설계에 필요한 많은 분석없이 훨씬 빠르게 생성 할 수 있습니다. 그러나 데이터 일관성을 유지하기 위해 여러 데이터 마트를 동기화 상태로 유지하려면 많은 노력이 필요합니다.
ETL 프로세스 개요
ETL (추출, 변환 및로드)은 서로 다른 소스 시스템에서 데이터를 추출하여 변환하여 데이터웨어 하우스 시스템에로드하는 프로세스입니다. 데이터 추출을 위해 다양한 소스 시스템과 상호 작용해야하는 복잡한 프로세스이므로 기술적으로도 어렵습니다.
변환에는 소스 시스템의 형식을 이해하고 데이터를 공통 형식으로 가져와 동일한 데이터를 데이터웨어 하우스에 저장할 수 있도록 많은 분석이 필요합니다.
ETL 프로세스는 비즈니스 요구 사항에 따라 매일, 매주 또는 매월 실행할 수있는 반복 작업입니다.
데이터웨어 하우스 아키텍처
미리 정의 된 비즈니스 요구 사항에 맞게 정제 된 데이터를 저장하도록 주로 설계된 데이터웨어 하우스의 아키텍처를 이해하겠습니다. 아키텍처는 위에서 아래로 데이터 흐름이있는 5 개의 구성 요소로 구성됩니다.
구성 요소는 다음과 같습니다.
- 데이터 소스
- 데이터 스테이징
- 데이터웨어 하우스 (데이터 저장)
- 데이터 3 월 (데이터 저장)
- 데이터 프레젠테이션
위에 나열된 모든 단계를 하나씩 이해합시다.
# 1) 데이터 소스
데이터웨어 하우스 시스템에 대한 입력 역할을하는 여러 소스 시스템이 있습니다.
이러한 소스 시스템은 다음과 같습니다.
- Oracle, DB2, MySQL, MS Access 등과 같은 관계형 데이터베이스는 모든 조직의 일일 트랜잭션을 기록하는 데 사용할 수 있습니다. 이러한 일일 비즈니스 거래는 ERP, CRM, 판매, 재무 및 마케팅 등과 관련 될 수 있습니다.
- 플랫 파일
- 웹 서비스
- RSS 피드 및 유사한 소스.
# 2) 데이터 스테이징
데이터 소스가 제자리에 있으면 다음 단계는 소스 시스템에서이 데이터를웨어 하우스 스테이징 영역으로 추출하는 것입니다.
서로 다른 스토리지 형식을 따르는 서로 다른 시스템에서 데이터가 검색되었으므로 데이터를 공통 형식으로 가져 오도록 재구성해야합니다. 따라서 데이터 변환은 다음 단계로 진행됩니다.
변환 중에 비즈니스 규칙 적용, 데이터 필터링, 중복 제거, 데이터 형식 지정, 데이터 정렬 등을 포함하는 데이터 정리가 발생합니다.
# 3) 데이터웨어 하우스 (데이터 스토리지)
데이터가 추출 및 변환되면 데이터웨어 하우스와 같은 다차원 환경에로드됩니다. 이제이 처리 된 데이터는 최종 사용자가 분석 및 기타 목적으로 사용할 수 있습니다.
# 4) 데이터 마트 (데이터 스토리지)
위에서 언급했듯이 데이터는 이제 최종 사용자가 사용할 준비가되었으므로 다음 단계로 데이터 마트를 만드는 선택적 프로세스가 있습니다. 이러한 데이터 마트는 전용 사용을 위해 특정 부서 또는 비즈니스 라인의 요약 데이터를 저장하는 데 사용할 수 있습니다.
예를 들어, 영업, 재무, 마케팅 등과 같은 부서에 대해 별도의 데이터 마트를 추가 할 수 있습니다. 다음 단계로 특정 데이터를 보유하고 분석가가 비즈니스 요구에 대한 자세한 쿼리를 수행 할 수 있습니다. 또한 다른 모든 최종 사용자가 전체웨어 하우스에 액세스하지 못하도록하여 데이터를 안전하게 보호합니다.
# 5) 데이터 액세스 도구 (데이터 프레젠테이션)
사용자가 데이터웨어 하우스 또는 데이터 마트에 액세스하는 데 사용할 수있는 사전 정의 된 비즈니스 인텔리전스 도구가 많이 있습니다. 이러한 프런트 엔드 도구는 사용자에게 데이터에 액세스 할 수있는 다양한 옵션을 제공하여 매우 사용자 친화적 인 방식으로 설계되었습니다.
옵션은 다음과 같습니다.
- SQL을 통해 직접 Oracle 또는 기타 데이터베이스에 쿼리를 적용합니다.
- 보고서 생성.
- 응용 프로그램 개발.
- 데이터 마이닝 도구 등 사용
시장에서 사용 가능한 인기있는 창고 도구는 다음과 같습니다.
- Analytix DS
- Amazon Redshift
- Ab Initio 소프트웨어
- 코드 선물
- 전체적인 데이터 관리
- 정보학 공사
클라우드 데이터웨어 하우징
데이터웨어 하우스는 세계에서 과도하게 인식되고 있습니다. 발생하는 다음 질문 : 최적화 된 접근 방식을 사용하여 데이터웨어 하우스를 배포하고 있습니까?
그런 다음 엔터프라이즈 데이터웨어 하우징 (EDW)에서 우위를 차지하는 클라우드 데이터웨어 하우징이 도입되었습니다. 클라우드 기반 데이터웨어 하우스의 개념은 다양한 이점을 제공합니다.
다음과 같습니다.
(i) 확장 성 : 클라우드 시스템의 데이터는 번거 로움없이 쉽게 확장 및 축소 할 수 있으며 기존 데이터웨어 하우스에서 확장을 수행하는 데 많은 시간과 리소스를 소비합니다.
(ii) 비용 절감 : 클라우드 기반 데이터웨어 하우스는웨어 하우스 설정에 필요한 투자에 상당한 차이를 가져 왔습니다. 비용을 제거하여 대량 초기 비용을 줄였습니다.
숙련 된 PDF에 대한 SQL 인터뷰 질문 및 답변
-
- 하드웨어 / 서버 실 유지.
- 유지 보수에 필요한 직원.
- 기타 운영 비용.
(iii) 성능 : 성능은 클라우드 기반 시스템이 기존 시스템을 압도 할 수있는 또 다른 요소입니다. 비즈니스가 전 세계적으로 확장되고 더 빠른 처리 시간으로 전 세계 여러 지역에서 데이터에 액세스해야하는 경우 클라우드 기반웨어 하우스를 사용하는 것이 가장 좋습니다.
대량 병렬 처리 (MPP)는 창고에서 동일한 작업을 수행하기 위해 사용하는 협업 처리 방법 중 하나입니다.
(iv) 연결성 : 위에서 언급했듯이 여러 지리적 위치에서 데이터에 액세스해야하는 경우 사용자는 이러한웨어 하우스에 대한 우수한 연결성이 필요하며 클라우드 기반웨어 하우스는 동일한 기능을 제공합니다.
결론
위의 기사를 읽은 후 모두가 Oracle Data Warehousing 시스템에 대한 공정한 아이디어를 얻었기를 바랍니다. 데이터웨어 하우징과 관련된 특정 주제에 대한 통찰력이 필요한 경우 알려 주시면 다음 자습서에서 동일한 내용을 다룰 수 있습니다.