HDFS (Hadoop Distributed File System)
1. HDFS (Hadoop Distributed File System)의 개요
1-1. 정의
- 저비용의 수백 내지 수천 노드를 가지는 클러스터를 이용하여 기가 바이트 또는 테라 바이트의 대용량 데이터 집합을 처리하는 응용 프로그램에 적합하도록 설계한 분산 파일 시스템
1-2. 특징
1) 빅데이터 처리 : 대용량 데이터 처리를 위한 경제성, 유연성, 확장성 제공
2) TCO 절감 : Linux 및 저가형 서버 구성에도 신뢰성 있는 파일 시스텔 제공
3) Fault Tolearance : 디스크 I/O 장애에도 Replication 기법 등을 통해 높은 가용성 제공
4) 효율적인 분산 파일 시스템 : 메타데이터 활용을 통해 SAN과 같은 별도 장비 없이 구현 가능
2. HDFS (Hadoop Distributed File System) 구성도, 구성요소, 처리절차
2-1. HDFS (Hadoop Distributed File System) 구성도
2-2. HDFS (Hadoop Distributed File System) 구성요소
- Name Node : 파일 시스템의 Metadata을 관리하는 서버
- Data Node : 실제 데이터를 저장 유지하는 서버
- Secondary Name Node : Name Node의 Metadata 로드가 실패시 Backup Node로써 사용
- Job Tracker : 분산 환경에서 작업을 분산시키는 스케쥴작업
- Task Tracker : Data Node에서 Map-Reduce 역할을 수행
3. HDFS (Hadoop Distributed File System) 동작
1) Data Read
- 클라이언트는 Name Node로 해당 파일의 블록 위치를 요청
- Name Node는 복제 블록이 저장된 곳을 확인후, 클라이언트에게 가까운 순서로 정렬해서 반환
- 클라이언트는 Data Node에게 블록 데이터 요청
2) Data Write
- 클라이언트는 Name-Node로 해당 파일 생성요청
- Name Node는 해당 파일 블록을 저장할 Data Node의 목록으로 전달
- 클라이언트는 첫번째 Data Node에게 데이터 전송
- 데이터 복제는 Data Node간 파이프 라인을 통해 이루어짐
'1. IT Story > Basic Studies' 카테고리의 다른 글
3D 프린팅 (제조업의 혁신) (0) | 2019.02.24 |
---|---|
빅데이터 (Big Data) (0) | 2019.02.21 |
OR_MAPPING (Object Relational Mapping) (0) | 2019.02.20 |
드론 (Drone) (0) | 2019.02.19 |
데이터사이언티스트 (0) | 2019.02.16 |
R (빅데이터 분석 소프트웨어) (0) | 2019.02.15 |
스마트 데이터 (Smart Data) (0) | 2019.02.14 |
CQL (Continuous Query Language) (0) | 2019.02.12 |