하이퍼파라미터 최적화(Optimization)
- 하이퍼파라미터는 학습 과정에서 조정할 수 없는 파라미터로, 모델 성능에 중요한 영향을 미침
- 자주 조정하는 하이퍼파라미터로는 학습률, 배치 크기, 가중치 초기화 방법등이 있음
미니배치 경사하강법(Mini-Batch Gradient Descent)
- 전체 데이터 셋을 사용하는 배치 경사하강법과 달리, 미니 배치 크기만큼의 데이터를 사용하여 효율적으로 학습을 진행함
- 보통 2의 제곱수인 배치 크기를 사용하는 것이 성능에 유리
모맨텀(Momentum) 및 Adam 옵티마이저
- 모맨텀은 이전 기울기를 이용해 학습 속도를 높이며, Adam은 모멘텀과 RMSProp을 결합하여 빠르고 안정적인 학습을 제공
하이퍼파라미터 검색 방법
- Grid Search : 설정된 모든 하이퍼파라미터 조합을 시도해 최적값을 찾는 방법, 매우 많은 계산이 필요함
- Random Search : 랜덤한 조합을 시도해 효율적으로 최적의 하이퍼파라미터를 탐색
- Successive Halving : 점진적으로 성능이 낮은 조합을 제거하며 최적의 하이퍼파라미터 조합을 찾음
배치 정규화(Batch Normalization)
- 각 배치에 대해 평균과 분산을 조정하여 학습 속도를 높이고 과적합을 방지
학습률 감소(Learning Rate Decay)
- 학습이 진행됨에 따라 학습률을 점진적으로 낮추어 안정적인 수렴을 유도
예제)
1. True/False: 미니배치 경사하강법은 모든 데이터를 사용하여 경사를 계산하는 방법이다.
- 정답: False. 미니배치 경사하강법은 일부 데이터만 사용해 경사를 계산하여 학습 효율성을 높입니다.
2. 모멘텀(Momentum)이 학습 속도를 높이는 데 도움을 주는 이유는 무엇인가요?
- 정답: 이전 기울기를 반영하여, 경사의 방향성을 유지하고 진동을 줄여 학습 속도를 높입니다.
3. Adam 옵티마이저의 장점은 무엇인가요?
- 정답: 모멘텀과 RMSProp을 결합하여 빠르고 안정적인 학습을 제공합니다.
4. Grid Search와 Random Search의 주요 차이점은 무엇인가요?
- 정답: Grid Search는 모든 조합을 시도하고, Random Search는 일부 랜덤 조합만 시도하여 효율성을 높입니다.
5. True/False: 배치 정규화는 입력 데이터의 평균과 분산을 조정하여 과적합을 줄이고 학습 속도를 높입니다.
- 정답: True. 배치 정규화는 배치마다 정규화를 수행해 학습을 안정화합니다.
6. Successive Halving 방법의 주요 목적은 무엇인가요?
- 정답: 점진적으로 성능이 낮은 하이퍼파라미터 조합을 제거하여 효율적으로 최적의 조합을 찾는 것입니다.
7. 학습률 감소의 주요 목적은 무엇인가요?
- 정답: 학습이 진행됨에 따라 학습률을 줄여 안정적으로 수렴시키기 위함입니다.
8. True/False: 하이퍼파라미터 조정 시, 동일한 설정을 재사용하기보다는 각 데이터셋에 맞춰 새롭게 탐색하는 것이 좋습니다.
- 정답: True. 데이터셋이 다르면 최적의 하이퍼파라미터도 달라질 수 있습니다.
9. Adam 옵티마이저의 두 가지 주요 하이퍼파라미터는 무엇인가요?
- 정답: 학습률(Learning Rate)과 모멘텀 계수입니다.
10. Batch Normalization이 주로 해결하는 문제는 무엇인가요?
- 정답: 내부 공변량 변화 문제를 해결하여 학습 속도와 안정성을 높입니다.
'theory 📓 > 딥러닝' 카테고리의 다른 글
CNN (0) | 2024.11.06 |
---|---|
Unsupervised learning (0) | 2024.11.06 |
Setup and regularization (0) | 2024.11.06 |
Deep neural network (0) | 2024.11.06 |
Shallow neural network (0) | 2024.11.06 |
댓글