L2正規化

L2正規化について,あまり詳しく書かれていなかったので

6.4.2 Weight decay

Weight decay 荷重減衰とは学習の過程において、大きな重みを持つことに対してペナルティを課すことで、過学習を抑制すること.

L2正則化,L1正規化とは

機械学習でよく用いられる正則化には、L1正則化とL2正則化がある

ノルムとは

n 次元ベクトル x→=(x1,x2,⋯,xn) および 1≤p<∞ なる p に対して $\sqrt[p]{|x_1|^p+|x_2|^p+\cdots +|x_n|^p}$ を x→ の Lp ノルムと言い，||x||p と書く.

定義

$\lambda$は正則化パラメータ（regularization parameter）

$L2=\lambda ||w||^{2}{2}=\lambda \sum ^{n}{j=1}w^{2}_{j}$ 各成分の自乗の和,　2乗ノルム　　　

　 $L1=\lambda \left| w\right| ^{1}{1}=\lambda \sum ^{n}{j=1}\left| w_{j}\right|$ 各成分の絶対値の和

以上をペナルティ項として加える.

改めてL2正則化,L1正規化正規化とは

正規化したい対象E(w)にペナルティ項λE_1(w)を加えて, E(w)+λE_1(w)を最小化するように最適化問題を解く問題に置き換えることで,過学習を避けること.

グラフで見る

L2ノルム L2 =$\sqrt[2]{|x_1|^2+|x_2|^2+\cdots +|x_n|^2}$ norm f:id:forhighlow:20180611231329j:plain

f:id:forhighlow:20180611231326p:plain 六本木で働くデータサイエンティストのブログより

ペナルティ項を付けておくことでw1,w2の定まり方が変わるというお話です。左側のL1ノルム正則化であれば尖った形の領域に接するようにしなければならないため自ずとw2の軸上に最適点が定まってw1=0となり、右側のL2ノルム正則化であれば円状の領域に接するようにしなければならないためw1,w2ともにnon-zeroな値が入る、という感じになるわけです。