HDFS (Hadoop Distributed File System)



1. HDFS (Hadoop Distributed File System)의 개요

 1-1. 정의

   - 저비용의 수백 내지 수천 노드를 가지는 클러스터를 이용하여 기가 바이트 또는 테라 바이트의 대용량 데이터 집합을 처리하는 응용 프로그램에 적합하도록 설계한 분산 파일 시스템

 

 1-2. 특징

    1) 빅데이터 처리 : 대용량 데이터 처리를 위한 경제성, 유연성, 확장성 제공 

    2) TCO 절감 : Linux 및 저가형 서버 구성에도 신뢰성 있는 파일 시스텔 제공

    3) Fault Tolearance : 디스크 I/O 장애에도 Replication 기법 등을 통해 높은 가용성 제공

    4) 효율적인 분산 파일 시스템 : 메타데이터 활용을 통해 SAN과 같은 별도 장비 없이 구현 가능


2. HDFS (Hadoop Distributed File System) 구성도, 구성요소, 처리절차

  2-1. HDFS (Hadoop Distributed File System) 구성도


  2-2. HDFS (Hadoop Distributed File System) 구성요소

    - Name Node : 파일 시스템의 Metadata을 관리하는 서버

    - Data Node : 실제 데이터를 저장 유지하는 서버

    - Secondary Name Node : Name Node의 Metadata 로드가 실패시 Backup Node로써 사용

    - Job Tracker : 분산 환경에서 작업을 분산시키는 스케쥴작업

    - Task Tracker : Data Node에서 Map-Reduce 역할을 수행


3. HDFS (Hadoop Distributed File System) 동작

  1) Data Read

    - 클라이언트는 Name Node로 해당 파일의 블록 위치를 요청

    - Name Node는 복제 블록이 저장된 곳을 확인후, 클라이언트에게 가까운 순서로 정렬해서 반환

    - 클라이언트는 Data Node에게 블록 데이터 요청


   2) Data Write

     - 클라이언트는 Name-Node로 해당 파일 생성요청

     - Name Node는 해당 파일 블록을 저장할 Data Node의 목록으로 전달

     - 클라이언트는 첫번째 Data Node에게 데이터 전송

     - 데이터 복제는 Data Node간 파이프 라인을 통해 이루어짐


'1. IT Story > Basic Studies' 카테고리의 다른 글

3D 프린팅 (제조업의 혁신)  (0) 2019.02.24
빅데이터 (Big Data)  (0) 2019.02.21
OR_MAPPING (Object Relational Mapping)  (0) 2019.02.20
드론 (Drone)  (0) 2019.02.19
데이터사이언티스트  (0) 2019.02.16
R (빅데이터 분석 소프트웨어)  (0) 2019.02.15
스마트 데이터 (Smart Data)  (0) 2019.02.14
CQL (Continuous Query Language)  (0) 2019.02.12
블로그 이미지

운명을바꾸는자

IT와 함께 살아가는 삶

,