Reference: Keras Exponential Decay API
Learning rate decay
โข
ํ์ต์ phase (epoch, training steps)๊ฐ ์ฆ๊ฐํ ๋ optimization์ ํ๋ผ๋ฏธํฐ์ธ learning rate๋ฅผ ์ ์ฐจ ๊ฐ์์์ผ ๋์ learning rate์์๋ ์ฐพ์ ์ ์๋ global optima๋ฅผ ์ฐพ๊ณ ์ ํ๋ ์ ๋ต
staircasing
โข
learning rate๋ฅผ ํน์ epoch ํน์ step์ ๊ณ๋จ์ฒ๋ผ ๋๋ ๋์ด ๋จ์ด๋จ๋ฆฌ๋ ๊ธฐ๋ฒ
โข
staircase๊ฐ ์ ์ฉ๋์ง ์๋๋ค๋ฉด, learning rate์ ๋งค step๋ง๋ค ์ผ์ ๋ decay๋๋ฉด์ ์๋งํ ๊ณก์ ์ ํํ๋ก ๋ด๋ ค๊ฐ๊ฒ ๋จ
โข
staircase=True์ธ ๊ฒฝ์ฐ, ์๋งํ๊ฒ ํ๊ฐํ๋ learning rate๋ณด๋ค๋ ์ด๋ก ์ ์ผ๋ก ๋ ๋ง์ gradient๋ฅผ ์ด๋ํ๊ฒ ๋จ
โฆ
decay ์์ (์: ๋งค 1 epoch)์ ๋๋ฌํ์ ๋์ learning rate๋ ๋์ผํ์ง๋ง, decay ์์ ์ ๋์ผํ๊ธฐ ์ ๊น์ง์ learning rate๊ฐ staircase์ธ ๊ฒฝ์ฐ์๋ ์ ์ง๋๊ณ ์๋ ๊ฒฝ์ฐ ๊ณ์ํด์ ํ๊ฐํ๊ธฐ ๋๋ฌธ
โข
staircase=True์ธ ๊ฒฝ์ฐ, objective function์ด ์์๋๋ก ์๋์น๋ ํ์(oscillation)์ด ๋ ๋์ ๋๊ฒ ๋ฐ์ํจ
โข
โฆ
'๋ง์ฝ ์ํฅ์ ์ฃผ๋ ๊ฒฝ์ฐ, learning rate๋ฑ ํ๋ผ๋ฏธํฐ์ ๋ํ fine-tuning์ด ํ์ํ ์ ์๋ค' ๋ผ๊ณ ์ฃผ์ฅ
Pose Estimation, staircase decay vs linear decay
โข
staircase decay์ linear decay๊ฐ์ ํฐ loss / accuracy ์ฐจ์ด๋ ์์๋ณด๊ธฐ ํ๋ฆ,
โข
์์๊ณผ๋ ๋ฌ๋ฆฌ staircase learning rate decay ๋ฟ๋ง ์๋๋ผ linear decay์๋ validation ์ fluctuation์ด ์์