ゼロから作るDeep Learning ~L2正規化~
L2正規化
L2正規化について,あまり詳しく書かれていなかったので
6.4.2 Weight decay
Weight decay 荷重減衰とは 学習の過程において、大きな重みを持つことに対してペ ナルティを課すことで、過学習を抑制すること.
L2正則化,L1正規化とは
機械学習でよく用いられる正則化には、L1正則化とL2正則化がある
ノルムとは
n 次元ベクトル x→=(x1,x2,⋯,xn) および 1≤p<∞ なる p に対して $\sqrt[p]{|x_1|^p+|x_2|^p+\cdots +|x_n|^p}$ を x→ の Lp ノルムと言い,||x||p と書く.
定義
$\lambda$は正則化パラメータ(regularization parameter)
$L2=\lambda ||w||^{2}{2}=\lambda \sum ^{n}{j=1}w^{2}_{j}$ 各成分の自乗の和, 2乗ノルム
$L1=\lambda \left| w\right| ^{1}{1}=\lambda \sum ^{n}{j=1}\left| w_{j}\right|$ 各成分の絶対値の和
以上をペナルティ項として加える.
改めてL2正則化,L1正規化正規化とは
正規化したい対象E(w)にペナルティ項λE_1(w)を加えて, E(w)+λE_1(w)を最小化するように最適化問題を解く問題に置き換えることで,過学習を避けること.
グラフで見る
L2ノルム L2 =$\sqrt[2]{|x_1|^2+|x_2|^2+\cdots +|x_n|^2}$
ペナルティ項を付けておくことでw1,w2の定まり方が変わるというお話です。左側のL1ノルム正則化であれば尖った形の領域に接するようにしなければならないため自ずとw2の軸上に最適点が定まってw1=0となり、右側のL2ノルム正則化であれば円状の領域に接するようにしなければならないためw1,w2ともにnon-zeroな値が入る、という感じになるわけです。
グラフから分かること
重みwは正規化により円状の領域にのみ制限される. よってwを項に含む関数E(D)はある程度制限される. wの値に制約を付け加えることで,意図しない域までパラメータが行くことを防ぐことができる.
制度の比較
図より,学習済みデータとテストデータとの差が狭まっている.つまり過学習が抑制されている.
正規化のないグラフ
正規化したグラフ
参考
六本木で働くデータサイエンティストのブログ(https://tjo.hatenablog.com/entry/2015/03/03/190000)
過学習を防ぐ正則化 (https://www.techcrowd.jp/machinelearning/regularization/)
ゼロから作るDeepLearning