- 분석 문제 정의 → 데이터 수집 → 탐색적 데이터 분석 → 피처 엔지니어링 → 예측 모델 개발 → 서비스 적용 순서로 진행됩니다.
- 각 단계별로 어떤 점들을 중요하게 생각해야 하는지, Chapter.03 Machine Learning Workflow-00. Machine Learning Workflow 을 다시 확인해보세요!
- 우리는 Kaggle에서 이미 문제 정의가 되어있는 것들을 가져와서 모델링 하는 연습을 진행해봅니다.
- 첫번째 Mini PJT인 타이타닉을 예시로 흐름을 따라가 봅시다.
Titanic - Machine Learning from Disaster
Titanic - Machine Learning from Disaster | Kaggle
www.kaggle.com
- 어떤 머신러닝 문제를 풀어야 하나요? → 분류(classification)
- 데이터는 어떻게 정의되어 있나요? → 891 rows x 12 columns
- 생존자의 남녀 성비가 어떻게 되나요? → EDA : pivot_table or indexing
- 어떤 머신러닝 모델을 사용하여 학습을 수행할 생각인가요? → Random Forest / XGBoost
- 성능 평가 지표는 어떤건가요? → Accuracy
- 어느 정도의 성능이 나오면 학습이 잘되었다고 판단하나요? → top 5% public LB
반응형
'Machine_Learning > 이론' 카테고리의 다른 글
Classification-01. 분류의 정의 (0) | 2022.11.03 |
---|---|
Machine Learning Workflow-02. ML Framework : Scikit-Learn (0) | 2022.11.02 |
머신러닝 기초 개념-07. evaluation metric (0) | 2022.10.28 |
머신러닝 기초 개념-06. loss function (0) | 2022.10.28 |
머신러닝 기초 개념-05. feature engineering (0) | 2022.10.27 |