Setup and regularization

데이터 분할 (Train/Dev/Test sets)

- 학습/검증/테스트 데이터로 나누어 모델의 성능을 효과적으로 평가할 수 있음

- 빅데이터 시대에는 99%를 학습에 1%씩을 검즘과 테스트에 사용하는것이 일반적

편향(Bias)과 분산(Varience)

- 고편향(High Bias) : 모델이 지나치게 단순하여 학습 데이터와 검증 데이터 모두에서 성능이 낮음

- 고분산(High Variance) : 모델이 학습 데이터에서는 잘 맞지만, 검증 데이터에서 성능이 떨어지는 경우

정규화(Regularization)

- L2 정규화 : 가중치 크기를 줄여 과적합을 방지함. 학습 시 가중치에 L2 패널티를 추가함

- L1 정규화 : 가중치를 희소하게 만들어 모델의 복잡도를 줄임

- 드롭아웃(Dropout) : 학습 시 일부 뉴런을 랜덤으로 비활성화하여 특정 뉴런에 과도하게 의존하는 것을 막음

데이터 증강(Data Augmentation)과 초기화 (Initialization)

- 학습 데이터를 증강하여 모델이 더 다양한 패턴을 학습하도록 도움

- 초기화기법(Xavier, He 등)을 사용하여 가중치가 적절한 크기로 시작하게 하여 기울기 소실이나 폭주 문제를 줄임

평가지표 (Evaluation Metrics)

- 정확도(Accuracy) : 전체 예측 중 정답의 비율을 의미

- 정밀도(Precision), 재현율(Recall), F1 Score : 불균형 데이터 셋에서 중요한 평가 지표

- Roc 곡선과 Auc : 분류기의 성능을 시각화하고 평가

예제)

1. L2 정규화의 주요 목적은 무엇인가요?

2. True/False: L1 정규화는 모델의 가중치를 희소하게 만들어 복잡도를 줄입니다.

3. True/False: 드롭아웃은 모델이 특정 뉴런에 과도하게 의존하지 않도록 일부 뉴런을 비활성화하는 기법입니다.

4. 다음 중 불균형 데이터 셋에서 유용한 평가 지표가 아닌 것은? (a) 정확도 (b) 정밀도 (c) 재현율 (d) F1 점수

5. True/False: 데이터 증강은 새로운 데이터를 생성하여 모델이 다양한 패턴을 학습하도록 돕는 기법입니다.

6. ROC 곡선에서 AUC 값이 높을수록 모델의 성능이 좋은 것을 의미하나요?

7. 편향(Bias)과 분산(Variance) 문제를 확인하기 위한 도구는 무엇인가요?

8. 정규화를 통해 기울기 소실 문제를 줄일 수 있는 방법은 무엇인가요?

고돌한 데이터사이언스