HDFS (Hadoop Distributed File System)



1. HDFS (Hadoop Distributed File System)의 개요

 1-1. 정의

   - 저비용의 수백 내지 수천 노드를 가지는 클러스터를 이용하여 기가 바이트 또는 테라 바이트의 대용량 데이터 집합을 처리하는 응용 프로그램에 적합하도록 설계한 분산 파일 시스템

 

 1-2. 특징

    1) 빅데이터 처리 : 대용량 데이터 처리를 위한 경제성, 유연성, 확장성 제공 

    2) TCO 절감 : Linux 및 저가형 서버 구성에도 신뢰성 있는 파일 시스텔 제공

    3) Fault Tolearance : 디스크 I/O 장애에도 Replication 기법 등을 통해 높은 가용성 제공

    4) 효율적인 분산 파일 시스템 : 메타데이터 활용을 통해 SAN과 같은 별도 장비 없이 구현 가능


2. HDFS (Hadoop Distributed File System) 구성도, 구성요소, 처리절차

  2-1. HDFS (Hadoop Distributed File System) 구성도


  2-2. HDFS (Hadoop Distributed File System) 구성요소

    - Name Node : 파일 시스템의 Metadata을 관리하는 서버

    - Data Node : 실제 데이터를 저장 유지하는 서버

    - Secondary Name Node : Name Node의 Metadata 로드가 실패시 Backup Node로써 사용

    - Job Tracker : 분산 환경에서 작업을 분산시키는 스케쥴작업

    - Task Tracker : Data Node에서 Map-Reduce 역할을 수행


3. HDFS (Hadoop Distributed File System) 동작

  1) Data Read

    - 클라이언트는 Name Node로 해당 파일의 블록 위치를 요청

    - Name Node는 복제 블록이 저장된 곳을 확인후, 클라이언트에게 가까운 순서로 정렬해서 반환

    - 클라이언트는 Data Node에게 블록 데이터 요청


   2) Data Write

     - 클라이언트는 Name-Node로 해당 파일 생성요청

     - Name Node는 해당 파일 블록을 저장할 Data Node의 목록으로 전달

     - 클라이언트는 첫번째 Data Node에게 데이터 전송

     - 데이터 복제는 Data Node간 파이프 라인을 통해 이루어짐


'1. IT Story > Basic Studies' 카테고리의 다른 글

3D 프린팅 (제조업의 혁신)  (0) 2019.02.24
빅데이터 (Big Data)  (0) 2019.02.21
OR_MAPPING (Object Relational Mapping)  (0) 2019.02.20
드론 (Drone)  (0) 2019.02.19
데이터사이언티스트  (0) 2019.02.16
R (빅데이터 분석 소프트웨어)  (0) 2019.02.15
스마트 데이터 (Smart Data)  (0) 2019.02.14
CQL (Continuous Query Language)  (0) 2019.02.12
블로그 이미지

운명을바꾸는자

IT와 함께 살아가는 삶

,

위메프 반값특가, SSG 블랙쓱데이 할인행사



1. 위메프 반값특가

 - 2월 18일부터 24일까지, 단 7일

 - 매일 오전/오후 11시에 선착순 한정수량


[할인 상품]

- 매일 00시에 반값 특가 상품 오픈


위메프 반값특가 바로가기


2. SSG 블랙쓱데이즈

 - 2월 18일부터 22일까지, 단 5일

 - 오전 9시, 오후 2시에 선착순 한정수량


[할인 상품]

2.18 월 : 소고기(오전 9시), 다이슨(오후 2시)

2.19 화 : 플레이스테이션(오전 9시), 의성쌀(오후 2시)

2.20 수 : 크리넥스 화장지(오전 9시), Blanche(오후 2시)

2.21 목 : 쿠션(오전 9시), 다우니(오후 2시)

2.22 금 : 맥심(오전 9시), 커피머신(오후 2시)


SSG 블랙쓱데이즈 바로가기


블로그 이미지

운명을바꾸는자

IT와 함께 살아가는 삶

,


ORACLE SCN HELTH CHECK


define LOWTHRESHOLD=10

define MIDTHRESHOLD=62

define VERBOSE=FALSE


set veri off;

set feedback off;


set serverout on

DECLARE

 verbose boolean:=&&VERBOSE;

BEGIN

 For C in (

  select 

   version, 

   date_time,

   dbms_flashback.get_system_change_number current_scn,

   indicator

  from

  (

   select

   version,

   to_char(SYSDATE,'YYYY/MM/DD HH24:MI:SS') DATE_TIME,

   ((((

    ((to_number(to_char(sysdate,'YYYY'))-1988)*12*31*24*60*60) +

    ((to_number(to_char(sysdate,'MM'))-1)*31*24*60*60) +

    (((to_number(to_char(sysdate,'DD'))-1))*24*60*60) +

    (to_number(to_char(sysdate,'HH24'))*60*60) +

    (to_number(to_char(sysdate,'MI'))*60) +

    (to_number(to_char(sysdate,'SS')))

    ) * (16*1024)) - dbms_flashback.get_system_change_number)

   / (16*1024*60*60*24)

   ) indicator

   from v$instance

  ) 

 ) LOOP

  dbms_output.put_line( '-----------------------------------------------------'

                        || '---------' );

  dbms_output.put_line( 'ScnHealthCheck' );

  dbms_output.put_line( '-----------------------------------------------------'

                        || '---------' );

  dbms_output.put_line( 'Current Date: '||C.date_time );

  dbms_output.put_line( 'Current SCN:  '||C.current_scn );

  if (verbose) then

    dbms_output.put_line( 'SCN Headroom: '||round(C.indicator,2) );

  end if;

  dbms_output.put_line( 'Version:      '||C.version );

  dbms_output.put_line( '-----------------------------------------------------'

                        || '---------' );


  IF C.version > '10.2.0.5.0' and 

     C.version NOT LIKE '9.2%' THEN

    IF C.indicator>&MIDTHRESHOLD THEN 

      dbms_output.put_line('Result: A - SCN Headroom is good');

      dbms_output.put_line('Apply the latest recommended patches');

      dbms_output.put_line('based on your maintenance schedule');

      IF (C.version < '11.2.0.2') THEN

        dbms_output.put_line('AND set _external_scn_rejection_threshold_hours='

                             || '24 after apply.');

      END IF;

    ELSIF C.indicator<=&LOWTHRESHOLD THEN

      dbms_output.put_line('Result: C - SCN Headroom is low');

      dbms_output.put_line('If you have not already done so apply' );

      dbms_output.put_line('the latest recommended patches right now' );

      IF (C.version < '11.2.0.2') THEN

        dbms_output.put_line('set _external_scn_rejection_threshold_hours=24 '

                             || 'after apply');

      END IF;

      dbms_output.put_line('AND contact Oracle support immediately.' );

    ELSE

      dbms_output.put_line('Result: B - SCN Headroom is low');

      dbms_output.put_line('If you have not already done so apply' );

      dbms_output.put_line('the latest recommended patches right now');

      IF (C.version < '11.2.0.2') THEN

        dbms_output.put_line('AND set _external_scn_rejection_threshold_hours='

                             ||'24 after apply.');

      END IF;

    END IF;

  ELSE

    IF C.indicator<=&MIDTHRESHOLD THEN

      dbms_output.put_line('Result: C - SCN Headroom is low');

      dbms_output.put_line('If you have not already done so apply' );

      dbms_output.put_line('the latest recommended patches right now' );

      IF (C.version >= '10.1.0.5.0' and 

          C.version <= '10.2.0.5.0' and 

          C.version NOT LIKE '9.2%') THEN

        dbms_output.put_line(', set _external_scn_rejection_threshold_hours=24'

                             || ' after apply');

      END IF;

      dbms_output.put_line('AND contact Oracle support immediately.' );

    ELSE

      dbms_output.put_line('Result: A - SCN Headroom is good');

      dbms_output.put_line('Apply the latest recommended patches');

      dbms_output.put_line('based on your maintenance schedule ');

      IF (C.version >= '10.1.0.5.0' and

          C.version <= '10.2.0.5.0' and

          C.version NOT LIKE '9.2%') THEN

       dbms_output.put_line('AND set _external_scn_rejection_threshold_hours=24'

                             || ' after apply.');

      END IF;

    END IF;

  END IF;

  dbms_output.put_line(

    'For further information review MOS document id 1393363.1');

  dbms_output.put_line( '-----------------------------------------------------'

                        || '---------' );

 END LOOP;

end;

/


블로그 이미지

운명을바꾸는자

IT와 함께 살아가는 삶

,

데이터사이언티스트



1. 데이터사이언티스트의 개요

  1-1. 정의

    - 기하급수적으로 늘어가는 데이터를 효과적으로 관리, 예측, 의사결정 위한 전문가 요구 데이터를 분석하여 비즈니스 속성 이해 통한 미래 예측 수행


2. 데이터사이언티스트의 수행 역할도 및 역량

 2-1. 데이터사이언티스트의 수행 역할도

 - 다양한 플랫폼 기반, 분석 인프라를 이용하여 데이터를 수집, 분석 및 가치를 발견하여 기업/조직의 의사결정에 필요한 정보를 제공



 2-2. 데이터사이언티스트의 역량

   1) 관리수행

      - 비즈니스의 이해

      - 데이터관리

      - 데이터 분석

      - 변관관리


   2) 기술역량

       - 통계분석 도구 이해

       - 프로그래밍 언어

       - RDBMS 기술

       - 분산 컴퓨팅

       - 수리적 지식


   3) Hard Skill

        - 빅데이터에 대한 이론적 지식

        - 분석기술에 대한 숙련


   4) Soft Skill

          - 통찰력 있는 분석

          - 설득력 있는 전달

          - 다분야간 협력


3. 데이터사이언티스트 육성방안

  1) 비즈니스

      - 비즈니스 목표 명확화

      - 데이터 관리 프로세스 혁신


  2) 조직

      - 전담 조직 구성

      - CDMO 영입

'1. IT Story > Basic Studies' 카테고리의 다른 글

빅데이터 (Big Data)  (0) 2019.02.21
OR_MAPPING (Object Relational Mapping)  (0) 2019.02.20
드론 (Drone)  (0) 2019.02.19
HDFS (Hadoop Distributed File System)  (0) 2019.02.18
R (빅데이터 분석 소프트웨어)  (0) 2019.02.15
스마트 데이터 (Smart Data)  (0) 2019.02.14
CQL (Continuous Query Language)  (0) 2019.02.12
디지털큐레이션 (Digital Curation)  (0) 2019.02.12
블로그 이미지

운명을바꾸는자

IT와 함께 살아가는 삶

,

R (빅데이터 분석 소프트웨어)



1. R (빅데이터 분석 소프트웨어)의 개요

  1-1. 정의

    - 통계분석 및 그래프 분석 프로그램을 포함하는 개방형 소프트웨어 기반 패키지

    - 데이터 입출력, 데이터 처리, 데이터 분석, 그래프 작성 등을 위한 수많은 알고리즘 및 방법론 제공하는 분석 SW


  1-2. 특징

    1) In-Memory Computing : 빠른 처리속도, H/W메모리 크기에 영향을 받음

    2) Obejct-Oriented Programming : 클래스 & method, 데이터, 함수가 object로 관리되어 짐

    3) package : 최신의 알고리즘 및 방법론을 적용, 다양한 함수 및 데이터 내장, Help의 Examples 바로 사용 가능 


2. R (빅데이터 분석 소프트웨어)의 구성도, 구성요소

 2-1. R (빅데이터 분석 소프트웨어)의 구성도

참고자료: https://statkclee.github.io/data-science/rstudio.html


  2-2. R (빅데이터 분석 소프트웨어)의 구성요소

    1) R Project : R Development Core Team 멤버들로 구성된 비영리 단체로 R의 배포와 수정 담당

    2) R CRAN SIte : 자유롭게 다운로드 받아 설치 할 수 있는 39개국 87개 Mirror 사이트 운영

    3) R Manual : R과 관련된 메뉴얼을 HTML 및 PDF 파일로 지원

    4) R Studio : 워크스페이스 사용하는 명령어 입력, 스크립트 저장, 명령 이력 보기, 시각화 보기 구조를 지원하는 개발 도구

    5) R Package : 패키지들은 새로운 통계분석 알고리즘이나 새로운 IT 기술의 응용에 관한 것을 포함된 라이브러리 패키지



블로그 이미지

운명을바꾸는자

IT와 함께 살아가는 삶

,

스마트 데이터 (Smart Data)



1. 스마트 데이터의 개요

 1-1. 정의

   - 3VC (Volume, Velocity, Variety, Complexity)의 빅데이터에 비해 빠르고, 실시간 분석 서비스가 가능한 데이터 품질요소를 갖춘 정확성, 행동성, 민첩성의 특징을 가진 데이터


 1-2. 필요성

   1) 데이터 측면

      - 데이터 품질 : 데이터 품질의 문제의 발생 방지

      - 데이터 범위 : 데이터기반의 설득력 있는 근거의 확보

      - 데이터 객관성 : 제 3자 혹은 중립적 시각에서 지속적으로 데이터의 정확함을 평가

   2) 활용 측면

      - 실시간성 판단 : 빅데이터와 달리 분석 결과에 대한 실시간성 제공

      - 행동성 : 매일 데이터가 어떠한 비즈니스 행동의 근거 혹은 원동력으로 작동되는지 설명

      - 실행자원 구축 : 전략 성취를 위한 실행 자원의 단순성 제공

      - 유연성 확보 : 데이터를 새로운 플랫폼 적용 및 변화하는 비즈니스 조건의 변화 순응


2. 스마트데이터의 개념도, 특징

 2-1. 스마트데이터의 개념도

 2-2. 스마트 데이터의 특징

   - Accurate(정확성) : 스마트 데이터는 빅데이터의 노이즈로부터 정확하고 양질의 정보를 전달

   - Actionable(행동성) : 스마트 데이터는 조직이 바로 행동으로 옮길 수 있는 특성을 보유함으로써 가치를 창출하는 원동력으로 작동

   - Agile(민첩성) : 급변하는 비즈니스 환경에서 실시간으로 데이터 분석이 가능하도록 민첩성이 요구됨


3. 스마트 데이터 품질을 높이기 위한 방안

  - 데이터 품질 평가

  - 데이터 범위

  - 실시간성 판단

  - 데이터의 객관적 유효성 입증

  - 행동성

  - 실행 자원 구축

  - 유연성 확보

블로그 이미지

운명을바꾸는자

IT와 함께 살아가는 삶

,

한국투자증권 비대면 계좌개설시, 2만원 즉시지급



한국 투자증권에서 앱런칭 기념으로  '현금2만원' 즉시 지급 이벤트를 진행중에 있다.

기간 : 2019년 2월 15일 금요일까지(기간한정)


1) 한국투자증권 앱 다운로드

https://manjaron.launchaco.com/


2) 비대면 계좌개설 (24시간 가능)

3) 비대면 계좌 개설 완료와 동시에 2만원 지급

4) 한국투자증권 홈페이지 접속하여 ID 발급( 비대면 계좌개설 완료시 뜨는 계좌번호 / 계좌 패스워드 필요) 및 지급 내역 확인

블로그 이미지

운명을바꾸는자

IT와 함께 살아가는 삶

,

CQL (Continuous Query Language) 



1. CQL (Continuous Query Language)의 개요

 1-1. 정의

   - SQL '99를 기반으로 한 ANSI 표준언어로써, 연속적인 스트림 데이터를 처리하기 위한 최상의 개발 언어


 1-2. 주요기능

   1) 필터링: SQL Where 조건을 통한 필요 정보 필터링

   2) 집합 : 집합 함수를 사용가능, 이때 스트림에 대한 질의이므로 질의 단위를 시간, 또는 이벤트 개수 단위 수행 가능

   3) 패턴매칭 : Parttern(X+, Y+) 의 기본 패턴 매칭 구문을 통해 스트림에 대한 패턴 매칭 가능

   4) Corrleation : 복수의 이벤트 소스 존재시, 각 소스로 서로 다른 유형의 정보가 오는 경우 둘을 조합하여 데이터를 생성가능

   5) 신규 이벤트 감지 : 중복데이터가 많은 데이터 중에서 의미 있는 새로운 이벤트 데이터 만을 추출


2. CQL (Continuous Query Language)과 스마트 데이터간의 관계도

 - 초기데이터 확보 : CQL 기능 중 필터링 사용

 - 규모확장 : CQL 기능 중 Aggregation 사용

 - 비즈니스 적용 : CQL 기능 중 패턴 매칭 사용


3. CQL (Continuous Query Language)의 발전방향

  - 스마트 데이터 비즈니스 적용시 최적화된 정책 방향 수립하여 효과 극대화 필요

  - 빅데이터에서 발생한 빅노이즈를 제거하고 데이터의 품질이 확보된 스마트 데이터로 이행하는 과정에서 CQL은 필수적인 Query Language로 사용될 것으로 예상됨


블로그 이미지

운명을바꾸는자

IT와 함께 살아가는 삶

,