보초의 코딩일기장

데이터 청년 캠퍼스 사전 강의 본문

데이터청년캠퍼스

데이터 청년 캠퍼스 사전 강의

장보비 2019. 7. 5. 13:55

데이터 청년 캠퍼스 사이버 강의


 

KDD

Selection - Preprocessing - Transformation - Data mining - Interpretation/Evaluation

  • Selection: 분석을 위해 데이터셋을 만든다.
  • Pre processing: 일관성 있는 데이터 분석을 위해 데이터를 정재 하거나 선처리.
  • Transformation: 데이터의 차원을 축소
  • Data mining: 다양한 분석기법을 사용하여 데이터의 패턴을 찾음

DRISP-DM Analysis Guide

  • Business understanding : 프로젝트 계획 수립
  • Data understanding : 분석을 위한 데이터 수집
  • Data preparation: 수집된 데이터에 분석툴에 적합한 데이터 셋을 편성, 많은 시간이 소요될 수 있음.
  • Modeling: 모델을 최적화 한다. 데이터 셋이 추가로 필요한 경우 data preparation 단계를 반복한다. 데이터셋을 테스트 하여 overfitting 문제를 발견 한다.
  • Evalution: 데이터를 평가하고, 기준에 맞지 않으면 Business understanding 단계로 과감하게 돌아간다. 평가한 데이터를 수용할 것인지 판단하는 것.
  • Deployment : 모델링과 평가를 통해 완성된 모델을 실 운영환경에 적용

<Data preparation, Modeling이 반복적으로 수행된다.>

<Business, Data understanding이 반복적으로 수행된다.>

EDA의 이해

  1. Resistance
  2. Residual
  3. Re-ecpression
  4. Visualization
  • Box Plot
    • The "whiskers" extend to the smallest and largest observations that are not outliers.
    • Observations that are smaller than the lower fence or larger than the upper fence are identified as dots.

Data Governance

전사 차원의 모든 데이터에 대한 정책, 지침, 표준화, 전략을 수집하고 데이터를 관리하는 조직과 프로세스를 구축함으로써 고품질의 데이터를 활용하여 기업의 가치를 창출하는 체계.

Data analyzing Phase

Prescriptive > Predictive > Diagnostic > Descriptive

Machine Learning

  1. Supervised Learning : Label을 갖고있는 데이터를 입력으로 받아 출력으로 사상하는 함수를 학습
  • Input, target data가 짝을 이루고 있을 때 함수 y=f(x)를 만들 수 있음. y가 이산형으로 표현이 가능하면 classification 이고 연속형으로 표현이 가능하면 Regression이다.
  • Classification : SVM, K-NN, Decision Tree, ...
  • Regression: Linear Regression, K-NN, SVN, Random Forest,...
  1. Unsupervised Learning: Label이 없는 데이터에서 패턴을 학습
  • Data에 의한 결과값만 존재하면 된다 (Label X)
  • Cluster & Dimension Reduce: K-Means, PCA, Hierachical clustering,...
  1. Reinforcement Learning: Reward와 Penalty를 부여함으로써 학습, 강화 이전의 동작 중 그 강화에 가장 관련이 있는 것을 결정하는 것이 핵심
  2. Semi-Supervised Learning: Label이 있는 작은 표본을 기초로 Label이 주어지지 않은 다수의 표본으로부터 학습

Image Recognition & Image Generation

CNN로 이미지를 인식.

사람은 쉽게 물체를 인식하고 분류할 수 있지만 기계는 각도가 조금이라도 변하면 다른 물체로 인식하게 된다.

사례 )

  1. 유명 화가의 그림을 학습시키는 경우 학습된 이미지를 바탕으로 변형이 가능함.
  2. 사진을 입력하면 그 사진에 대한 설명이 입력이 되는 사례도 있음.

Classification

  • inputs are divided into two or. ore classes

Regression

  • outputs are continuous rather than discrete.

Under/Overfitting

Training Data에 지나칙 적합화 모델링 복잡도 증가.

  • Dicision Tree(Pruning)
  • Regression(Variable Reduction)
  • Neural Network(Hidden Layer Reduction)

괄호에 있는 방법을 활용하여서 언더피팅, 오버피팅을 줄여나가면 된다.

Validation data: 학습을 위한 파라메타를 찾는 것. 하이퍼 파라미터를 찾아내는 과정.

Test data set을 이용해 우리가 원하는 파라메타를 찾는다.

  • 학습에 참여하지 않는 데이터에 대한 오류 bias
  • 학습에 참여한 데이터에 대한 오류 variance
  • 계속 학습하는 것이 아니라 bias , variance가 적절하게 된 곳에서 학습을 멈추어야 한다(optimum)

Bias, variance가 둘다 낮은것이 가장 최적의 상태이다.

  • Model validation: TCO,ROI, IRR, NPV, PP,..

     

  Actual Y Actual N
Predicted Y True Positive(TP)  False Positive(FP)
Predicted N False Negative(FN) True Negative(TN)
  • True/false: 예측의 정확 유무

  • Positive/Negative: 예측값

 

Type1 Error: FP,H0 기각 오류 , you're pregnant

Type2 Error:FN,H0 채택 오류, you're not pregnant

  1. Precision/ 정밀도: Y로 예측된 것 중 실제로 Y인 비율 TP/(TP+FP)
  2. Accuracy/ 정확도: 전체 예측에서 옳은 예측 비율 (TP+TN)/전체
  3. Sensitivity/Recall/TP rate/민감도/재현율: 실제 Y인 것중에 Y로 예측한 비율 TP/(TP+FN)
  4. Specificity/특이도: 실제 N인 것 중에서 N으로 예측한 비율 FP/(FP+TN)

 

 

강의 중 필요한 내용만 필기하였음!

Buy me a coffeeBuy me a coffee
Comments