1. Maximum Likelihood Estimation
- What?
- Observation을 가장 잘 설명하는 $\theta$ 를 찾아내는 과정
2. Reminder: Optimization via Gradient Descent
- 기울기를 이용해, 최대가되는 지점 탐색
- 기울기에 따라 $\theta$ 를 증가시키거나 감소시키는 방향으로 업데이트
3. Reminder: Overfitting and Regularization
- Overfitting
- 데이터에 과도하게 fitting 된 상태
- To avoid
- Observation을 훈련셋, 검증셋, 평가셋으로 분할해 사용
- 3개의 묶음이 “구성이 비슷할 것이다” 라는 믿음…필요
- More Data
- Less features
- Regularization
- Early Stopping: val loss가 더이상 낮아지지 않을때 학습 종료
- Reducing Network Size
- Weight Decay: 파라미터 크기 제한
- Dropout
- Batch Normalization
- Observation을 훈련셋, 검증셋, 평가셋으로 분할해 사용