[ADsP] 데이터분석 준전문가 #1 데이터의 이해 #2 분석 기획
[ADsP] 데이터분석 준전문가 시험준비
1. 데이터와 정보
- 암묵지 : 자전거 타기 , 형식지 : 교과서
- 데이터 정보 관계
데이터 | A마트에는 100원에, B마트에는 200원에 사과를 판다 |
정보 | A마트가 B마트보다 사과를 싸게 판다 (패턴 및 의미부여) |
지식 | 저렴하게 파는 A마트에서 사과를 사야겠다 (예측결과) |
지혜 | 다른 물건도 A마트가 쌀 것이다. (창의적) |
- 기업내부 데이터베이스
1) OLTP(On-Line Transaction Processing) : 서버 컴퓨터가 DB를 접근 및 처리하여 결과 반환
2) OLAP(On-Line Analytical Processing) : 비즈니스 의사결정에 활용 가능한 다차원적 데이터 정보 제공 기술
- SCM (Supply Chain Management)
'공급망관리' 의미하고, 기업에서 원재료의 생산, 유통 등 모든 공급망 단계를 최적화해 수요자가 원하는 제품을 원하는시간과 장소에 제공
- 데이터웨어하우스
기억의 의사결정 과정을 지원하기 위한 주제 중심적으로 통합적이며 시간선을 가지는 비휘발성의 데이터 집합
2. 데이터 가치와 미래
Volume (양) |
Variety (다양성) |
Velocity (속도) |
+ | Value(가치) Visualisation(시각화) Veraccity(정확성) |
- 빅데이터가 만든 변화
사전처리 | 사후처리 | 가능한 많은 데이터 수집 |
표본조사 | 전수조사 | 샘플링이 주지 못하는 정보 발견 |
질 | 양 | 지속적 양이 많아지면 전체적으로 좋은 결과 산출 |
인과관계 | 상관관계 | 상관관계에 의한 추천 케이스 확장 |
- 빅데이터 시기 위기 요인
1) 사행활 침해
[ 개인정보 제공자의 동의 → 개인정보 사용자의 책임]
2) 책임원칙 훼손(마이너리티 리포트)
[ 예측 자료에 의한 불이익 가능성 최소화 장치 마련]
3) 데이터 오용
[ 알고리즘에 대한 접근권 제공을 통해 부당함 반증 ]
- 빅데이터 활용 3요소
[ 데이터 ] 모든 것의 데이터화
[ 기 술 ] 진화하는 알고리즘, 인공지능
[ 인 력 ] 데이터 사이언티스트, 분석전문가
3. 가치창조를 위한 데이터 사이언스와 전략 인사이트
- 데이터 사이언티스트 요구역량
1) Hard Skill : 빅데이터 이론적 지식, 분석 기술에 대한 숙련
2) Soft Skill : 통찰력 있는 분석, 설득력있는 전달, 다분야간 협력
- 데이터 레이크
대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모의 저장소 의미
하둡, Teradata Big Data Platform 1700 등과 같은 플랫폼으로 구성된 솔루션 제공
- 데이터 분석기술
1) 하둡(Hadoop) : 여러개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터 처리 기술
분산파일시스템(HDFS)에 저장된 대용량의 데이터들을 SQL활용 사용자 질의 실시간 처리
2) Apache Apark: 실시간 분산형 컴퓨터 플랫폼으로 스칼라로 작성이 되어 있지만, 스칼라, 자바, Rk 파이썬 API제공
In-Memory 방식으로 처리 ( 하둡에 비해 처리 속도 빠름 )
3) Machince Learning & Deep Learning
√ 머신러닝은 인간의 학습능격과 같은 기능을 컴퓨터에서 실현하고자 하는 기술
√ 딥러닝은 인공신경망 등의 기술을 기반하여 구축한 기계학습 기술
- 데이터의 양
바이트 | 2 ^ 0 Byte |
킬로바이트 | 2 ^ 10 Byte |
메가바이트 | 2 ^ 20 Byte |
기가바이트 | 2 ^ 30 Byte |
테라바이트 | 2 ^ 40 Byte |
페타바이트 | 2 ^ 50 Byte |
엑사바이트 | 2 ^ 60 Byte |
제타바이트 | 2 ^ 70 Byte |
요다바이트 | 2 ^ 80 Byte |
- 데이터 유형
정형 | 관계형 데이터 베이스 |
반정형 | XML, HTML, JSON, Log |
비정형 | 소셜데이터, 영상, 이미지, 음성, 텍스트 |
4. 데이터 분석 기획 이해
▲ 어떻게 ▲ |
최적화 | 통찰 |
솔루션 | 발견 | |
◀◀◀◀ 무 엇◀◀◀◀ |
- 목표시점 별 분석 기획
당면한 분석주제 해결 (과제단위) |
지속적 분석문화 내재화 (마스터 플랜) |
|
Speed & Test | 1차 목표 | Accuracy & Deploy |
Quick & Win | 과제의 유형 | Long Term View |
Problem Solving | 접근 방식 | Problem Definition |
- 분석 기획 시 고려사항
1) 가용 데이터 고려
2) 활용방안 및 유즈케이스
3) 장애요소에 대한 사전계획 수립
- 데이터 기반 합리적 의사결정 장애요소
√고정관념, √편향된 생각, √프레이밍 효과
- KDD 분석 방법론 (Knowledge Discovery in Database)
1) 데이터 셋 선택 | 2) 데이터 전처리 | 3) 데이터 변환 | 4) 데이터 마이닝 | 5) 데이터 결과평가 |
목표데이터 구성 | 잡음, 이상치, 결측치, 추가 | 차원축소, 학습/검증 분리 | 기법 선택 | 결과 해석 |
- CRISP - DM 방법론 (Cross Industry Process for Data Mining)
4레벨 [ Phases - Generic Tasks(일반화) - Specialized Tasks(세분화) - Process Instances(실행) ]
1) 업무이해 | 2) 데이터 이해 | 3) 데이터 준비 | 4) 모델링 | 5) 평가 | 6) 전개 |
- 분석과제 발굴 방법론
- 하향식 접근법
1) 문제탐색
(A) 비즈니스 모델 기반 문제 탐색
(1) 업무 (2) 제품 (3) 고객 (4) 규제 & 감사 (5) 지원 인프라
(B) 분석기회 발굴의 범위확장
(1) 거시적관점 (2) 경쟁자확대 (3)시장니즈 탐색 (4)역량의 재해석
(C) 외부참조 모델기반 문제탐색
(D) 분석 유즈 케이스
2) 문제정의
비즈니스 문제를 데이터의 문제로 변환
3) 해결방안 탐색
4) 타당성 검토
경제성, 데이터, 기술적 타당성
- 상향식 접근법
- 분석과제 정의서
소스데이터, 분석방법, 데이터 입수 및 분석 난이도, 분석 수행주기, 분석결과 검증 오너쉽, 상세 분서과정, 난위도
- 분석과제관리
Data Size | Data Complexity | Speed | Analytic Complexity | Accuracy & Precision |
- 분석 준비도
분석업무 파악, 인력 및 조직, 분석 기법, 분석데이터, 분석 문화, IT인프라
- 분석거버넌스
과제기획 및 운영 프로세스
분석관련 시스템
데이터
분석교육 /마인드 육성체계
분석기획 및 관리 수행 조직
- 분석 인력 구성
1) 집중구조: 분석업무 별도 전담 부서
2) 기능구조: 조직 없이 업무부서에서 수행
3) 분산구조: 전담 부서인을 업무부서에 배치
- 데이터 거버넌스 체계
1) 데이터 표준화
데이터 표준용어 설정, 명명규칙, 메타데이터 구축, 데이터 사전
2) 데이터 관리 쳬계
메타데이터와 데이터 사전의 관리 원칙 수립, 데이터 생명주기
3) 데이터 저장소 관리
전사차원 저장소, 워크플로우, 응용소프트웨어 지원
4) 표준화 활동
데이터 거버넌스 체계 구축 후 표준 준수여부 주기적 점검 모니터링 실시
- 분석과제 관리 프로세스
과제발굴 | 과제후보 Pool → 전사분석 조직 → 분석 과제 → 과제 제안자 | |||
1) 분석 Idea 발굴 | 2) 분석과제 후보제안 | 3) 분석과제 확정 | ||
과제수행 | 과제결과 Pool ← 전사분석조직 ← 과제수행지원 ← 과제 추진팀 | |||
7) 결과 공유/개선 | 6) 분석과제 진행관리 | 5) 분석과제 실행 | 4) 팀구성 |