6.3 배치 정규화

2024. 11. 24. 16:51스터디/24-2 스터디 _ 밑바닥부터 시작하는 딥러닝

 

 

# 배치 정규화의 삽입 위치

: 배치 정규화 계층이 데이터 흐름에서 위치하는 곳을 의미하며,

위치는 신경망의 학습 및 출력에 영향을 미친다.

앞에 삽입: 입력 분포를 정규화하여 학습 안정성과 수렴 속도를 개선하는 데 효과적.
뒤에 삽입: 출력 분포를 정규화하여 층 간 연결과 출력 스케일을 일정하게 유지.

 

 

1. 활성화 함수의 '앞'에 삽입 : 배치 정규화 -> 활성화 함수

(1) 구조

  • 가중치 곱(또는 합성곱 연산): Wx + b
  • 배치 정규화: BN(Wx + b)
  • 활성화 함수: ReLU(BN(Wx + b))

(2) 활성화 함수가 적용되기 전에 배치 정규화를 수행

 

(3) 장점

  • 배치 정규화가 활성화 함수의 입력 분포를 정규화하여 학습 과정에서 안정성을 더 높여줌
  • 네트워크가 깊어지더라도 입력 분포의 변화(Internal Covariate Shift)가 줄어듦
  • 수렴이 빠름

(4) 단점

  • 활성화 함수 전에 정규화하므로, 활성화 함수의 출력 분포가 변할 수는 있음

(4) 원래 '정석대로'의 위치는 활성화 함수의 '앞' 임

 

 

2. 활성화 함수의 '뒤'에 삽입 : 활성화 함수 -> 배치 정규화

(1) 구조

  • 가중치 곱(또는 합성곱 연산): Wx + b
  • 활성화 함수: ReLU(Wx + b)
  • 배치 정규화: BN(ReLU(Wx + b))

(2) 활성화 함수 적용 후 배치 정규화를 수행

 

(3) 장점

  • 활성화 함수가 적용된 출력 분포를 정규화하므로, 출력 값의 분포가 일정하게 유지됨
  • 네트워크가 매우 깊거나 활성화 함수의 출력 스케일이 중요한 경우 더 나은 선택지가 될 수 있음 

(4) 단점

  • 활성화 함수 이전에 있는 입력 분포는 조정되지 않으므로, 학습 안정성이 떨어질 수 있음
  • 학습 속도가 느림

(4) 원래 '정석대로'의 위치는 활성화 함수의 '앞' 임