6.3 배치 정규화
2024. 11. 24. 16:51ㆍ스터디/24-2 스터디 _ 밑바닥부터 시작하는 딥러닝
# 배치 정규화의 삽입 위치
: 배치 정규화 계층이 데이터 흐름에서 위치하는 곳을 의미하며,
위치는 신경망의 학습 및 출력에 영향을 미친다.
앞에 삽입: 입력 분포를 정규화하여 학습 안정성과 수렴 속도를 개선하는 데 효과적.
뒤에 삽입: 출력 분포를 정규화하여 층 간 연결과 출력 스케일을 일정하게 유지.
1. 활성화 함수의 '앞'에 삽입 : 배치 정규화 -> 활성화 함수
(1) 구조
- 가중치 곱(또는 합성곱 연산): Wx + b
- 배치 정규화: BN(Wx + b)
- 활성화 함수: ReLU(BN(Wx + b))
(2) 활성화 함수가 적용되기 전에 배치 정규화를 수행
(3) 장점
- 배치 정규화가 활성화 함수의 입력 분포를 정규화하여 학습 과정에서 안정성을 더 높여줌
- 네트워크가 깊어지더라도 입력 분포의 변화(Internal Covariate Shift)가 줄어듦
- 수렴이 빠름
(4) 단점
- 활성화 함수 전에 정규화하므로, 활성화 함수의 출력 분포가 변할 수는 있음
(4) 원래 '정석대로'의 위치는 활성화 함수의 '앞' 임
2. 활성화 함수의 '뒤'에 삽입 : 활성화 함수 -> 배치 정규화
(1) 구조
- 가중치 곱(또는 합성곱 연산): Wx + b
- 활성화 함수: ReLU(Wx + b)
- 배치 정규화: BN(ReLU(Wx + b))
(2) 활성화 함수 적용 후 배치 정규화를 수행
(3) 장점
- 활성화 함수가 적용된 출력 분포를 정규화하므로, 출력 값의 분포가 일정하게 유지됨
- 네트워크가 매우 깊거나 활성화 함수의 출력 스케일이 중요한 경우 더 나은 선택지가 될 수 있음
(4) 단점
- 활성화 함수 이전에 있는 입력 분포는 조정되지 않으므로, 학습 안정성이 떨어질 수 있음
- 학습 속도가 느림
(4) 원래 '정석대로'의 위치는 활성화 함수의 '앞' 임
'스터디 > 24-2 스터디 _ 밑바닥부터 시작하는 딥러닝' 카테고리의 다른 글
8.1 더 깊게 (0) | 2024.12.08 |
---|---|
6.5 적절한 하이퍼파라미터 값 찾기 (0) | 2024.11.24 |
5.6 Affine/Softmax 계층 구현하기 + 5.7 오차역전파법 구현하기 (0) | 2024.11.17 |
5.5 활성화 함수 계층 구현하기 (0) | 2024.11.17 |
4.6 정리 (0) | 2024.11.10 |