1. 정합성 체크를 통한 데이터 품질향상, 데이터 프로파일링의 개요

가. 데이터 프로파일링(Profiling)의 정의
 - 데이터에 기반한 정합성을 체크하여 데이터를 구조화하고 보정하는 분석 기법

나. 데이터 프로파일링의 목적

  - 데이터정확성 : 비즈니스 사용자에게 정확한 데이터 제공

  - 데이터 제어 : 이름, 주소 등 비즈니스 데이터에 대한 정제, 표준화, 보강 및 중복제거

  - 데이터 모니터링 : 분석기능을 통한 지속적인 데이터 품질평가 및 변경 내역에 대한 모니터링 제공

2. 데이터 프로파일링 개념도 및 기법

가. 데이터 프로파일링 개념도

- 소스데이터를 효과적으로 분석하기 위해서 데이터 프로파일을 통해서 데이터 오류를 식별
- 데이터 크린싱(Cleansing)을 통해서 검출된 오류 데이터를 변경 및 수정 실행

 

나. 데이터 프로파일링 절차 및 기능요소

 - 대상선정 : 데이터 프로파일링에 필요한 데이터를 선정

 - 데이터 탐색 : 데이터의 값이 업무 규칙과 정합성을 유지하는지 확인

 - 구조 탐색 : 테이블 사이의 무결성과 데이터 레코드 내의 구조적 이상확인

 - 관계 탐색 : 컬럼과 테이블간 관계(Relation)의 관계분석

 - 결과 리포트 : 발견된 데이터 오류정보를 사용자 및 Cleansing모듈에 전달

 

다. 데이터 프로파일링 기법

 - 컬럼속성분석 :  하나의 컬럼에 저장된 값 분석

 - 구조 분석  : 테이블을 서로 어떤 관련인지를 정의한 룰 사용

 - 단순데이터 룰 분석 : 값의 결합이 가능한 비즈니스 객체의 여러 컬럼에 걸친 값을 다루는 룰을 분석하여 보다 유용한 것을 찾는 것

 - 복잡한 데이터 룰 분석 : 여러 비즈니스 객체에 연관된 데이터 룰에 부합하는 값을 요구하는 것 보다 복잡한 룰

 - 값 룰 분석 : 합당하지 않는 집계 값에서 부정확한 데이터의 존재를 찾는 것

 

'1. IT Story > Basic Studies' 카테고리의 다른 글

CAP(Consistency, Availability, Partitioning) 이론  (0) 2020.12.24
MMDB(Main Memory Data Base)  (0) 2020.12.24
DB 샤딩(Sharding)  (0) 2020.12.24
CI(Continuous Integration)  (0) 2019.11.21
테스트자동화  (0) 2019.09.22
V&V(Verification & Validation)  (0) 2019.09.20
빅데이터(Big Data)  (0) 2019.09.19
3D프린팅  (0) 2019.09.17
블로그 이미지

운명을바꾸는자

IT와 함께 살아가는 삶

,