HDFS (Hadoop Distributed File System)

1. IT Story/Basic Studies 2019. 2. 18. 20:14

HDFS (Hadoop Distributed File System)

1. HDFS (Hadoop Distributed File System)의 개요

1-1. 정의

- 저비용의 수백 내지 수천 노드를 가지는 클러스터를 이용하여 기가 바이트 또는 테라 바이트의 대용량 데이터 집합을 처리하는 응용 프로그램에 적합하도록 설계한 분산 파일 시스템

1-2. 특징

1) 빅데이터 처리 : 대용량 데이터 처리를 위한 경제성, 유연성, 확장성 제공

2) TCO 절감 : Linux 및 저가형 서버 구성에도 신뢰성 있는 파일 시스텔 제공

3) Fault Tolearance : 디스크 I/O 장애에도 Replication 기법 등을 통해 높은 가용성 제공

4) 효율적인 분산 파일 시스템 : 메타데이터 활용을 통해 SAN과 같은 별도 장비 없이 구현 가능

2. HDFS (Hadoop Distributed File System) 구성도, 구성요소, 처리절차

2-1. HDFS (Hadoop Distributed File System) 구성도

2-2. HDFS (Hadoop Distributed File System) 구성요소

- Name Node : 파일 시스템의 Metadata을 관리하는 서버

- Data Node : 실제 데이터를 저장 유지하는 서버

- Secondary Name Node : Name Node의 Metadata 로드가 실패시 Backup Node로써 사용

- Job Tracker : 분산 환경에서 작업을 분산시키는 스케쥴작업

- Task Tracker : Data Node에서 Map-Reduce 역할을 수행

3. HDFS (Hadoop Distributed File System) 동작

1) Data Read

- 클라이언트는 Name Node로 해당 파일의 블록 위치를 요청

- Name Node는 복제 블록이 저장된 곳을 확인후, 클라이언트에게 가까운 순서로 정렬해서 반환

- 클라이언트는 Data Node에게 블록 데이터 요청

2) Data Write

- 클라이언트는 Name-Node로 해당 파일 생성요청

- Name Node는 해당 파일 블록을 저장할 Data Node의 목록으로 전달

- 클라이언트는 첫번째 Data Node에게 데이터 전송

- 데이터 복제는 Data Node간 파이프 라인을 통해 이루어짐

3D 프린팅 (제조업의 혁신) (0)	2019.02.24
빅데이터 (Big Data) (0)	2019.02.21
OR_MAPPING (Object Relational Mapping) (0)	2019.02.20
드론 (Drone) (0)	2019.02.19
데이터사이언티스트 (0)	2019.02.16
R (빅데이터 분석 소프트웨어) (0)	2019.02.15
스마트 데이터 (Smart Data) (0)	2019.02.14
CQL (Continuous Query Language) (0)	2019.02.12