[AI스쿨] 1주차-데이터 분석 기초
1. 데이터 사이언스 (Data Science)
- 정의
- 데이터를 수집하고 분석하여 호라용하기 위한 모든 기술의 집합
- 컴퓨터 사이언스, 수학, 통계학, 머신러닝, 영상 및 신호처리 등
- 활용
- 추천 서비스 ex) 유튜브, 넷플릭스, 쇼핑몰 등
- 이미지/영상/음성 처리
- 마케팅, 금융, 이커머스 등
2. 데이터 분석 과정
- 문제 정의 : 어떤 데이터로 어떤 문제를 해결하거나 예측할 것인가
- 데이터 수집 : ETL(Extraction Transport Load) 작업 필요, 크롤링
- 데이터 분석 : EDA(Exploratory Data Analysis), 시각화 및 통계를 통해서 분포 파악, 결측치 파악
- Feature engineering : 머신러닝 알고리즘을 작동하기 위해 데이터에 대한 도메인 지식을 활용하여 특징을 만들어내는 과정
- Feature selection, Dimension reduction(PCA 등), Feature Generation
- 모델 성능에 미치는 영향이 큼
- Modeling : Feature engineering을 마친 데이터를 통해 만든 모델들을 Fitting하고, Validate
- Validation
- Testing(Evaluation) : 데이터를 학습 시킨 모델에 실제 데이터를 넣어서 결과 확인
3. 머신러닝 (Machine Learning)
- 정의
- 데이터를 학습할 수 있는 알고리즘을 주어서 컴퓨터가 어떤 경우에 대해서 예측할 수 있도록 하는 프로그래밍 방법
- 분류
- 지도학습 (Supervised Learning)
- 비지도학습 (Unsupervised Learning)
- 강화학습 (Reinforcement Learning)
Subscribe via RSS