본문 바로가기
theory 📓/딥러닝

Hyperparameter tuning

by 고돌한 데이터 사이언스 2024. 11. 6.
반응형

하이퍼파라미터 최적화(Optimization)

-       하이퍼파라미터는 학습 과정에서 조정할 수 없는 파라미터로, 모델 성능에 중요한 영향을 미침

-       자주 조정하는 하이퍼파라미터로는 학습률, 배치 크기, 가중치 초기화 방법등이 있음

 

미니배치 경사하강법(Mini-Batch Gradient Descent)

-       전체 데이터 셋을 사용하는 배치 경사하강법과 달리, 미니 배치 크기만큼의 데이터를 사용하여 효율적으로 학습을 진행함

-       보통 2의 제곱수인 배치 크기를 사용하는 것이 성능에 유리

 

모맨텀(Momentum) Adam 옵티마이저

-       모맨텀은 이전 기울기를 이용해 학습 속도를 높이며, Adam은 모멘텀과 RMSProp을 결합하여 빠르고 안정적인 학습을 제공

 

하이퍼파라미터 검색 방법

-       Grid Search : 설정된 모든 하이퍼파라미터 조합을 시도해 최적값을 찾는 방법, 매우 많은 계산이 필요함

-       Random Search : 랜덤한 조합을 시도해 효율적으로 최적의 하이퍼파라미터를 탐색

-       Successive Halving : 점진적으로 성능이 낮은 조합을 제거하며 최적의 하이퍼파라미터 조합을 찾음

 

배치 정규화(Batch Normalization)

-       각 배치에 대해 평균과 분산을 조정하여 학습 속도를 높이고 과적합을 방지

 

학습률 감소(Learning Rate Decay)

-       학습이 진행됨에 따라 학습률을 점진적으로 낮추어 안정적인 수렴을 유도

 

예제)

1. True/False: 미니배치 경사하강법은 모든 데이터를 사용하여 경사를 계산하는 방법이다.

  • 정답: False. 미니배치 경사하강법은 일부 데이터만 사용해 경사를 계산하여 학습 효율성을 높입니다.

2. 모멘텀(Momentum)이 학습 속도를 높이는 데 도움을 주는 이유는 무엇인가요?

  • 정답: 이전 기울기를 반영하여, 경사의 방향성을 유지하고 진동을 줄여 학습 속도를 높입니다.

3. Adam 옵티마이저의 장점은 무엇인가요?

  • 정답: 모멘텀과 RMSProp을 결합하여 빠르고 안정적인 학습을 제공합니다.

4. Grid Search Random Search의 주요 차이점은 무엇인가요?

  • 정답: Grid Search는 모든 조합을 시도하고, Random Search는 일부 랜덤 조합만 시도하여 효율성을 높입니다.

5. True/False: 배치 정규화는 입력 데이터의 평균과 분산을 조정하여 과적합을 줄이고 학습 속도를 높입니다.

  • 정답: True. 배치 정규화는 배치마다 정규화를 수행해 학습을 안정화합니다.

6. Successive Halving 방법의 주요 목적은 무엇인가요?

  • 정답: 점진적으로 성능이 낮은 하이퍼파라미터 조합을 제거하여 효율적으로 최적의 조합을 찾는 것입니다.

7. 학습률 감소의 주요 목적은 무엇인가요?

  • 정답: 학습이 진행됨에 따라 학습률을 줄여 안정적으로 수렴시키기 위함입니다.

8. True/False: 하이퍼파라미터 조정 시, 동일한 설정을 재사용하기보다는 각 데이터셋에 맞춰 새롭게 탐색하는 것이 좋습니다.

  • 정답: True. 데이터셋이 다르면 최적의 하이퍼파라미터도 달라질 수 있습니다.

9. Adam 옵티마이저의 두 가지 주요 하이퍼파라미터는 무엇인가요?

  • 정답: 학습률(Learning Rate)과 모멘텀 계수입니다.

10. Batch Normalization이 주로 해결하는 문제는 무엇인가요?

  • 정답: 내부 공변량 변화 문제를 해결하여 학습 속도와 안정성을 높입니다.
반응형

'theory 📓 > 딥러닝' 카테고리의 다른 글

CNN  (0) 2024.11.06
Unsupervised learning  (0) 2024.11.06
Setup and regularization  (0) 2024.11.06
Deep neural network  (0) 2024.11.06
Shallow neural network  (0) 2024.11.06

댓글