'hdfs'에 해당되는 글 2건

1. 빅데이터의 개요

 1-1. 빅데이터의 정의

   - 대량의 흩어진 데이터를 수집, 저장, 발굴, 분석 하여 2차 데이터로 만들어 내고 이를 비즈니스화 하는 일련의 과정

 

 1-2. 빅데이터의 특성

   - 데이터의 규모가 방대하고(Volume), 데이터의 종류가 다양하며(Variety), 데이터 처리 및 분석을 적시에 해결해야 하는(Velocity) 특성을 가지고 있음

 

2. 빅데이터의 분석 플랫폼, 관리기술

 2-1. 빅데이터의 분석 플랫폼

 

 2-2. 빅데이터의 관리기술

기술 구분 설명 필요 기술
원본 데이터 저장 - 대용량 분산 파일 저장
- 로그 기반 데이터 포함
- Hadoop File System
- MapReduce
구조적 데이터 저장 - 대용량 분산 데이터 저장소
- DBMS의 처리 한계 대체 기술
-NoSQL, HBase
-Cassandra, MongoDB
배치 분산 병렬 처리 - 분산 데이터 처리 기술
- 결과 그래프 분석 기술
- MapReduce (Hadoop)
- Pregel, GlodenORB
데이터 스트리밍 프로세싱 - 스트리밍 데이터 프로세싱 기술 - Streaming DBMS
- DW Appliance
데이터 마이닝 - 빅 데이터의 패턴 분석 및
고객 분석을 위한 알고리즘
- 군집화, 분류화
- 기계학습(Neural Net)
데이터 분석 알고리즘 - 데이터 분석을 위한 세부 기술
- Social Network Anaylsys
- Clique 분석
- Centrality 분석
분산처리 기술 - 관리 기술, 분산 큐 기술
- 분산 캐시 기능
- ZooKeeper, kafka
- Memcached, Redis

 

'1. IT Story > Basic Studies' 카테고리의 다른 글

DB 샤딩(Sharding)  (0) 2020.12.24
CI(Continuous Integration)  (0) 2019.11.21
테스트자동화  (0) 2019.09.22
V&V(Verification & Validation)  (0) 2019.09.20
3D프린팅  (0) 2019.09.17
인메모리컴퓨팅  (0) 2019.09.16
WoT(Web of Things)  (0) 2019.09.08
oneM2M  (0) 2019.09.07
블로그 이미지

운명을바꾸는자

IT와 함께 살아가는 삶

,

HDFS (Hadoop Distributed File System)



1. HDFS (Hadoop Distributed File System)의 개요

 1-1. 정의

   - 저비용의 수백 내지 수천 노드를 가지는 클러스터를 이용하여 기가 바이트 또는 테라 바이트의 대용량 데이터 집합을 처리하는 응용 프로그램에 적합하도록 설계한 분산 파일 시스템

 

 1-2. 특징

    1) 빅데이터 처리 : 대용량 데이터 처리를 위한 경제성, 유연성, 확장성 제공 

    2) TCO 절감 : Linux 및 저가형 서버 구성에도 신뢰성 있는 파일 시스텔 제공

    3) Fault Tolearance : 디스크 I/O 장애에도 Replication 기법 등을 통해 높은 가용성 제공

    4) 효율적인 분산 파일 시스템 : 메타데이터 활용을 통해 SAN과 같은 별도 장비 없이 구현 가능


2. HDFS (Hadoop Distributed File System) 구성도, 구성요소, 처리절차

  2-1. HDFS (Hadoop Distributed File System) 구성도


  2-2. HDFS (Hadoop Distributed File System) 구성요소

    - Name Node : 파일 시스템의 Metadata을 관리하는 서버

    - Data Node : 실제 데이터를 저장 유지하는 서버

    - Secondary Name Node : Name Node의 Metadata 로드가 실패시 Backup Node로써 사용

    - Job Tracker : 분산 환경에서 작업을 분산시키는 스케쥴작업

    - Task Tracker : Data Node에서 Map-Reduce 역할을 수행


3. HDFS (Hadoop Distributed File System) 동작

  1) Data Read

    - 클라이언트는 Name Node로 해당 파일의 블록 위치를 요청

    - Name Node는 복제 블록이 저장된 곳을 확인후, 클라이언트에게 가까운 순서로 정렬해서 반환

    - 클라이언트는 Data Node에게 블록 데이터 요청


   2) Data Write

     - 클라이언트는 Name-Node로 해당 파일 생성요청

     - Name Node는 해당 파일 블록을 저장할 Data Node의 목록으로 전달

     - 클라이언트는 첫번째 Data Node에게 데이터 전송

     - 데이터 복제는 Data Node간 파이프 라인을 통해 이루어짐


'1. IT Story > Basic Studies' 카테고리의 다른 글

3D 프린팅 (제조업의 혁신)  (0) 2019.02.24
빅데이터 (Big Data)  (0) 2019.02.21
OR_MAPPING (Object Relational Mapping)  (0) 2019.02.20
드론 (Drone)  (0) 2019.02.19
데이터사이언티스트  (0) 2019.02.16
R (빅데이터 분석 소프트웨어)  (0) 2019.02.15
스마트 데이터 (Smart Data)  (0) 2019.02.14
CQL (Continuous Query Language)  (0) 2019.02.12
블로그 이미지

운명을바꾸는자

IT와 함께 살아가는 삶

,