主成分分析PCA
主成分分析と固有値問題の関係
主成分分析PCAは固有値問題を用いる。どんな関係があるのだろうと疑問に思った。
主成分分析PCAとは
データ分析において面倒な変数が多い状況を解消するために、情報量を減らさずに次元圧縮(変数の削除)をする手法。
固有値問題とは
線形代数でよくある、行列の固有値と固有値ベクトルを求めよ系の問題のこと。
関係は?
共分散
次元圧縮において、情報量を減らしたくない。よって、次元圧縮した結果、変数は減っていてなおかつ共分散を取って一番バラけている状態が理想である。
(引用)
分散を計算するのに、行列計算が便利だから行列を使う。
固有値問題
結論から言うと、共分散行列に対し固有値問題を解くと固有値と固有値ベクトルが得られ、その固有値はすなわち分散である。 よって、固有値問題を解くだけ分散の最大が得られる。
ラグランジュの未定乗数法は制約条件がある固有値問題の解法の一つ。
主成分分析PCAの主なアルゴリズム
- 分散の最大値が大きいベクトルを見つけ、第一成分とラベル付けする
- 第一成分と直交する方角のうち、最大の分散があるベクトルを見つけるこれを第二成分とする