apache hadoop yarn tutorial
Hadoop 구성 요소 – Hadoop YARN을 사용한 MapReduce :
Hadoop 구성 요소에 대한 이전 자습서에서 Hadoop MapReduce 및 INPUT, SPLITTING, MAPPING, SHUFFLING, REDUCING 및 FINAL RESULT와 같은 처리 메커니즘에 대해 배웠습니다.
이 자습서에서는 다음을 살펴 봅니다.
- Map Reduce는 YARN과 어떻게 작동합니까?
- Hadoop YARN의 애플리케이션 워크 플로.
=> 여기에서 BigData 초보자 가이드를 살펴보십시오.
학습 내용 :
Hadoop YARN으로 맵 축소
MapReduce가 YARN을 사용하여 Hadoop 클러스터에서 작업을 실행하는 방법을 이해하겠습니다. 하지만 진행하기 전에 가장 먼저 떠오르는 질문은 YARN의 전체 형태는 무엇입니까? 아니면 YARN은 무엇을 의미합니까?
실 방법 또 다른 자원 협상가.
하둡 클러스터를 통해 실행해야하는 다양한 작업에 리소스를 할당하는 것입니다. Hadoop 2.0에서 도입되었습니다.
Till Hadoop 1.0 MapReduce는 Hadoop 클러스터를 통해 실행할 수있는 유일한 프레임 워크 또는 유일한 처리 장치였습니다. 그러나 Hadoop 2.0에서는 YARN이 도입되어이를 사용하여 MapReduce를 넘어 설 수 있습니다.
다이어그램에서 볼 수 있듯이 하단에는 HDFS가 있고, YARN이 있고 YARN을 사용하여 많은 프레임 워크가 HDFS를 연결하고 활용할 수 있습니다. 따라서 MapReduce도 리소스를 요청하기 위해 YARN을 사용하여 연결하는 데 사용되며 HDFS 즉, Hadoop 클러스터를 통해 작업을 실행할 수 있습니다.
비슷하게; SPARK, STORM 및 기타 검색 엔진은 HDFS에 연결할 수 있습니다. No SQL 데이터베이스 인 HBase도 연결할 수 있습니다. 따라서 YARN이 다른 프레임 워크 및 기타 빅 데이터 분석 도구에 대한 게이트를 열 수 있었기 때문에 HDFS의 애플리케이션이 거대해졌습니다.
MapReduce Version1 (MRv1)과 MapReduce Version2 (MRv2)의 차이점은 무엇입니까?
MRv1은 본질적으로 Hadoop 프레임 워크 1의 일부였으며 Hadoop 2를 통해 YARN이 등장했으며 MapReduce는 몇 가지 클래스 변경을 통해 MRv2로 업그레이드되었습니다. 클래스가 업데이트되었지만 MapReduce 프로그램 작성 구문은 동일하게 유지됩니다.
이 시나리오에서 MapReduce는 이제 YARN과 연결하여 HDFS를 축으로합니다.
YARN과 함께 Resource Manager 및 Node Manager는 Hadoop 클러스터에 도입 된 새로운 데몬입니다.
이전에는 Job Tracker와 Task Tracker였습니다. 그러나 Hadoop 2.0에서 제거되었으며 Resource Manager 및 Node Manager가 YARN과 함께 Hadoop 프레임 워크에 도입되었습니다.
Hadoop 2.x 데몬
구성 요소 (예 : 스토리지 및 처리)를 실행하는 Hadoop 2.0에 새로 도입 된 데몬을 간략히 살펴 보겠습니다.
json 파일을 실행하는 방법
HDFS 튜토리얼에서 우리는 Daemon, 즉 NameNode 및 DataNode를 자세히 이해했습니다. 이 자습서에서는 리소스 관리자 및 노드 관리자가 Hadoop 2.x 클러스터에서 작동하여 Hadoop 클러스터에서 실행해야하는 처리 및 작업을 관리하는 방법을 이해합니다.
그렇다면 Resource Manager는 무엇입니까? Resource Manager는 마스터 머신 또는 고급 머신 인 NameNode에서 실행되는 마스터 데몬입니다. 반면 노드 관리자는 슬레이브 머신 또는 데이터 노드에서 또는 데이터 노드 프로세스와 함께 실행되는 데몬입니다.
Hadoop 2.x MapReduce YARN 구성 요소
아래에서 YARN의 다른 구성 요소를 살펴 보겠습니다.
- 고객: Job-like Command Line Interface (CLI)를 제출하는 단위이며 클라이언트는 JAVA 애플리케이션이 될 수 있습니다.
- 리소스 관리자 : Client로부터 모든 Job이 제출되는 Master Daemon이며, 특정 Job을 수행하기 위해 모든 Cluster 레벨 자원을 할당하는 데몬입니다. 클러스터를 통해 모든 것을 관리해야하는 마스터 머신이기 때문에 양질의 하드웨어와 좋은 구성을 갖춘 고급 머신에서 실행됩니다.
- 노드 관리자 : Slave Machine 또는 DataNode에서 실행되는 Slave Daemon이므로 모든 Slave Machine에는 Node Manager가 실행됩니다. 특정 DataNode의 리소스를 모니터링하고 Resource Manager는 클러스터 리소스를 관리하며 Node Manager는 DataNode 리소스를 관리합니다.
- 작업 기록 서버 : 클러스터를 통해 실행되었거나 클러스터에 제출 된 모든 작업을 추적하는 단위입니다. 또한 상태를 추적하고 Hadoop 클러스터를 통해 발생한 모든 실행의 로그 파일을 유지합니다.
- 응용 프로그램 마스터 : Node Machine, Slave Machine을 통해 실행되는 Component로 Resource Manager가 생성하여 Job을 실행하고 관리합니다. Resource Manager에서 리소스를 협상하고 마지막으로 Node Manager와 협력하여 작업을 실행하는 것입니다.
- 컨테이너: Resource Manager에 의해 할당 된 Node Manager 자체에 의해 생성되며 모든 작업은 컨테이너 내에서 최종적으로 실행됩니다.
YARN 워크 플로우
위의 다이어그램에서 볼 수 있듯이 리소스 관리자 모든 작업이 제출되고 슬레이브 머신이있는 클러스터가 있으며 모든 슬레이브 머신에는 노드 관리자 달리는.
리소스 관리자 두 가지 구성 요소가 있습니다. 스케줄러 과 응용 프로그램 관리자.
Application Master와 Application Manager의 차이점은 무엇입니까?
응용 프로그램 관리자 의 구성 요소입니다 리소스 관리자 모든 작업이 실행되고 응용 프로그램 마스터 그것을 위해 만들어집니다. 응용 프로그램 마스터, 반면에, 작업을 실행하고 실행에 필요한 모든 리소스를 요청하는 사람입니다.
작업이 리소스 관리자 , 작업이 제출되는 즉시 스케줄러 작업을 예약합니다. 일단 스케줄러 실행할 작업을 예약합니다. 응용 프로그램 관리자 만들 것이다 컨테이너 중 하나에서 데이터 노드 , 그리고이 안에 컨테이너, 그만큼 응용 프로그램 마스터 시작됩니다.
이 응용 프로그램 마스터 그런 다음 리소스 관리자 및 요청 컨테이너 작업을 실행합니다. 즉시 컨테이너 할당되면 응용 프로그램 마스터 이제 연결됩니다 노드 관리자 시작을 요청 컨테이너 .
우리가 볼 수 있듯이 응용 프로그램 마스터 할당되었다 데이터 노드 D 과 IS , 그리고 이제 응용 프로그램 마스터 요청 노드 관리자 시작하려면 컨테이너 의 데이터 노드 D 과 데이터 노드 E .
즉시 컨테이너 출시되었습니다. 응용 프로그램 마스터 내에서 작업을 실행합니다 컨테이너 결과는 다시 고객 .
신청 흐름
이것을 조금 순차적으로 이해합시다.
아래 다이어그램에는 네 가지 구성 요소가 있습니다. 첫 번째는 고객, 두 번째는 리소스 관리자 , 세 번째는 노드 관리자 네 번째 줄에는 응용 프로그램 마스터 .
이제이 단계가 어떻게 실행되는지 살펴 보겠습니다.
첫 번째 단계는 고객 작업을 제출하는 사람 리소스 관리자 , 두 번째 단계에서 리소스 관리자 할당 컨테이너 시작하려면 응용 프로그램 마스터 에 슬레이브 머신 ; 세 번째 단계는 응용 프로그램 마스터 에 등록 리소스 관리자 .
등록하자마자 컨테이너 작업, 즉 네 번째 단계를 실행합니다. 5 단계에서 응용 프로그램 마스터 알립니다 노드 관리자 어느 컨테이너 시작해야합니다.
6 단계에서 노드 관리자 시작했습니다 컨테이너, 그만큼 응용 프로그램 마스터 이들 내에서 코드를 실행합니다. 컨테이너 .
마지막으로 일곱 번째 단계에서 고객 연락처 리소스 관리자 아니면 그 응용 프로그램 마스터 응용 프로그램 상태를 모니터링합니다.
결국 응용 프로그램 마스터 에서 등록을 취소합니다. 리소스 관리자 결과는 다시 고객 . 따라서 이것은 YARN 프레임 워크를 사용하여 MapReduce 프로그램이 실행되는 방법에 대한 간단한 순차적 흐름입니다.
결론
따라서이 튜토리얼에서는 다음과 같은 사항을 배웠습니다.
- 실 방법 또 다른 자원 협상가.
- YARN은 Hadoop 2.0에 도입되었습니다.
- Resource Manager 및 Node Manager는 YARN과 함께 Hadoop 프레임 워크에 도입되었습니다.
- 클라이언트, 리소스 관리자, 노드 관리자, 작업 기록 서버, 애플리케이션 마스터 및 컨테이너와 같은 YARN 구성 요소.
다음 튜토리얼에서는 BigData의 테스트 기술과 BigData Testing에서 직면 한 과제에 대해 논의 할 것입니다. 또한 이러한 문제를 극복하는 방법과 BigData 테스팅을 쉽게 만드는 우회 방법도 알게 될 것입니다.
=> 처음부터 빅 데이터를 배우려면 여기를 방문하십시오.