主成分分析と固有値問題の関係

主成分分析PCAは固有値問題を用いる。どんな関係があるのだろうと疑問に思った。

主成分分析PCAとは

データ分析において面倒な変数が多い状況を解消するために、情報量を減らさずに次元圧縮(変数の削除)をする手法。

線形代数でよくある、行列の固有値と固有値ベクトルを求めよ系の問題のこと。

次元圧縮において、情報量を減らしたくない。よって、次元圧縮した結果、変数は減っていてなおかつ共分散を取って一番バラけている状態が理想である。

(引用)

分散を計算するのに、行列計算が便利だから行列を使う。

データを共分散行列で表し、それに対し分散が最大となる方向を求める式が途中で固有方程式になるためである。 (ラグランジュの未定乗数法は制約条件がある固有値問題の解法の一つ。)

固有方程式が現れて、それを解く固有値問題に落とし込むことができるのは、固有値ベクトルの性質として固有値ベクトル同士直交することと、単位ベクトルがノルムである条件からだと思うが、よくわからない。

この問題においては、固有値はすなわち分散である。結果として、固有値問題を解くだけ分散の最大が得られる。

この方向を見つけるという行為が固有値ベクトルを求めるということと同義である。