Search
🤔

Batch Normalization이 별로일 때도 있어?: High-Performance Large-Scale Image Recognition Without Normalization

작성일
2021/02/15
태그
머신러닝
TIL
Deep Learning
Statistics
작성자
Empty
1 more property
NFNets의 기본적인 아이디어를 쉽게 잘 풀어 설명한 영상

논문이 주장하는 Batch Normalization의 단점

1.
연산에 굉장히 많은 비용이 든다. 메모리 오버헤드도 초래한다.
2.
학습할 때는 batch 속 데이터의 mean variance 통계를 활용하는데, 추론할 때는 여태껏 학습한 데이터의 누적을 통해 조절된 mean variance 정보를 활용해야 한다. 이 때 정보의 불일치가 일어난다.
3.
가장 중요한 점이, batch normalization을 활용하는 순간 학습 예제의 독립성이 무너진다.

논문이 주장하는 Batch Normalization의 장점

Batch normalization downscales the residual branch
Batch normalization eliminates mean-shift
Batch normalization has a regularizing effect
Batch normalization allows efficient large-batch training

논문의 주장

Batch Normalization의 장점을 채워줄 다른 장치들 (Adaptive Gradient Clipping 등)을 모델에 집어넣으므로써 Batch Normalization의 단점만을 극복할 수 있다

아쉬운 점

Batch Normalization이 training stage와 inference stage에서 다르게 동작하는 점을 지적했으나, 동일하게 training stage와 inference stage에서 다르게 동작하는 Dropout 방법론을 regularization을 위해 사용하였음
하나의 논문 내에서 성능의 개선을 주장하는 building block들이 많고, 개별적인 변경점에 대한 ablation study로서는 부족한 부분이 있을 수 있음