1. 데이터 사이언스 (Data Science)

  • 정의
    • 데이터를 수집하고 분석하여 호라용하기 위한 모든 기술의 집합
    • 컴퓨터 사이언스, 수학, 통계학, 머신러닝, 영상 및 신호처리 등
  • 활용
    • 추천 서비스 ex) 유튜브, 넷플릭스, 쇼핑몰 등
    • 이미지/영상/음성 처리
    • 마케팅, 금융, 이커머스 등



2. 데이터 분석 과정

  • 문제 정의 : 어떤 데이터로 어떤 문제를 해결하거나 예측할 것인가
  • 데이터 수집 : ETL(Extraction Transport Load) 작업 필요, 크롤링
  • 데이터 분석 : EDA(Exploratory Data Analysis), 시각화 및 통계를 통해서 분포 파악, 결측치 파악
  • Feature engineering : 머신러닝 알고리즘을 작동하기 위해 데이터에 대한 도메인 지식을 활용하여 특징을 만들어내는 과정
    • Feature selection, Dimension reduction(PCA 등), Feature Generation
    • 모델 성능에 미치는 영향이 큼
  • Modeling : Feature engineering을 마친 데이터를 통해 만든 모델들을 Fitting하고, Validate
  • Validation
  • Testing(Evaluation) : 데이터를 학습 시킨 모델에 실제 데이터를 넣어서 결과 확인



3. 머신러닝 (Machine Learning)

  • 정의
    • 데이터를 학습할 수 있는 알고리즘을 주어서 컴퓨터가 어떤 경우에 대해서 예측할 수 있도록 하는 프로그래밍 방법
  • 분류
    • 지도학습 (Supervised Learning)
    • 비지도학습 (Unsupervised Learning)
    • 강화학습 (Reinforcement Learning)