主成分分析PCA
主成分分析と固有値問題の関係
主成分分析PCAは固有値問題を用いる。どんな関係があるのだろうと疑問に思った。
主成分分析PCAとは
データ分析において面倒な変数が多い状況を解消するために、情報量を減らさずに次元圧縮(変数の削除)をする手法。
固有値問題とは
線形代数でよくある、行列の固有値と固有値ベクトルを求めよ系の問題のこと。
関係は?
共分散
次元圧縮において、情報量を減らしたくない。よって、次元圧縮した結果、変数は減っていてなおかつ共分散を取って一番バラけている状態が理想である。
(引用)
分散を計算するのに、行列計算が便利だから行列を使う。
固有値問題
データを共分散行列で表し、それに対し分散が最大となる方向を求める式が途中で固有方程式になるためである。 (ラグランジュの未定乗数法は制約条件がある固有値問題の解法の一つ。)
固有方程式が現れて、それを解く固有値問題に落とし込むことができるのは、固有値ベクトルの性質として固有値ベクトル同士直交することと、単位ベクトルがノルムである条件からだと思うが、よくわからない。
この問題においては、固有値はすなわち分散である。 結果として、固有値問題を解くだけ分散の最大が得られる。
主成分分析PCAの主なアルゴリズム
- 分散の最大値が大きいベクトルを見つけ、第一成分とラベル付けする
- 第一成分と直交する方角のうち、最大の分散があるベクトルを見つけるこれを第二成分とする
この方向を見つけるという行為が固有値ベクトルを求めるということと同義である。