請問利用FA和PCR預估的迴歸模型兩者差異/相同之處？

Question

在nxp matrix的X中，FA取p個factor，PCA取p個pc，兩者進行預測模型後有什麼差異(對beta matrix的預測結果)？

? · Answer

都是在做資料的 dimension reduction.
FA  用從 correlation matrix 找 eigenvector 的方法
抽因素, 與 PCA 用 correlation matrix 來做, 且又加
上對 PC 做轉軸的實務做法, 混淆了兩種統計方法.

從理論假設來說, PCA 是以資料為整體, 只是對資
料做正交變換, 加上去除不重要成分以縮減資料的
維度, 由 n 變量轉成 p 主成分. 因此, 在理論的基礎
上個人是認為不應對擷取的主成分再做轉軸.

FA 則在理論基礎上假設 n 變數就是由 p 個共同因
子加上各自的特殊因子以線性關係合成的. 因此,
並不能由資料確定 p 個因子各自的方向, 所以在抽
出因子後自然是可以任意轉軸. 而實用上也必須轉
軸來賦與各因子實務上的意義.

PCA 本質是 n 維度資料做線性變換, 找出資料的
第一主要變動方向, 第二主要方向, 以至第 p 主方
向. 因此, 如果再對這些主成分做轉軸 (也就是再
做一次線性變換), 等於再次打亂了 "主成分", 那麼
最後的結果新變數只是把原先 n 變數縮減為 p 變
數罷了. 雖然由於轉軸使得資料分析者可以賦予新
變數實務意義, 但哪比得原變數定義明確、意思清
楚?

FA 需要轉軸, 因為所謂的 "共同因子" 是想像中的
隱藏概念, 根本沒有具體定義. 而把它們做任意線
性變換並不會改變資料(原始變數), 只是與原始變
數間關聯的係數改變而已. 因為資料不能確定因子
的方向, 也因為因子本就是抽象而無法具體界定,
無法實際觀測的, 因此轉軸以便利解釋是必要的.

PCA 所丟掉的成分 (擷取 p 個主成分, 則第 p+1
個成分以後的成分就是被丟掉的) 並不能說是 誤
差, 只是被認為可以不考慮的、不重要的成分而已.
就像在蒐集資料時蒐集了許多變數的資料, 事後發
現某些變項對研究目的而言不重要, 就忽略了, 或
說是被丟棄了.PCA 中的誤差只有樣本與群體間的
差異.

FA 中屬於各原始變數的特殊因子也不是誤差. 因
此在 FA 首先要做的就是估計 "共通性" 和 "特殊
性" (二者合起來是 1.) FA 中的誤差有兩項, 一是
樣本與群體間的差異, 另一是樣本中確定了各變
數的共通性之後, 採用某種方法抽取共同因子, 
最後由這些因子所計算出的變數共通性和相關矩
陣與原設的共通性及原來的相關矩陣之間的差異.

PCA 由於是資料(變數)的線性變換, 因此可以用
變異數共變異矩陣為基礎(以原變數量測單位為基
礎), 或以相關矩陣為基礎(以標準化、無單位變數
為基礎. FA 則本質上從標準化變數去考慮變數與
因子之間的關係, 因此從相關矩陣出發.

FA 認定特殊因子的存在, 因此先要估計共通性.
PCA 是對資料做線性變換, 當然沒有共通性之說.
但 FA 的共通性怎麼估計是個問題, 而 PCA 之主
成分又無實用意義, 因此現在似乎流行一種做法:
不管是 FA 或 PCA 都做轉軸, FA 也不先估計共
通性而直接由相關矩陣去抽因子. 特別是用找特
徹向量的方法找共同因子, 等於把 FA 和 PCA
均一化了, 也等於把 FA 的特殊因子看成是愈小
愈好的 "殘差", 把 PCA 的主成分當做共同因子.

請問利用FA和PCR預估的迴歸模型兩者差異/相同之處？

1 個解答