Yahoo 知識+ 將於 2021 年 5 月 4 日 (美國東岸時間) 停止服務,而 Yahoo 知識+ 網站現已轉為僅限瀏覽模式。其他 Yahoo 資產或服務,或你的 Yahoo 帳戶將不會有任何變更。你可以在此服務中心網頁進一步了解 Yahoo 知識+ 停止服務的事宜,以及了解如何下載你的資料。

匿名

請問利用FA和PCR預估的迴歸模型兩者差異/相同之處?

在nxp matrix的X中,FA取p個factor,PCA取p個pc,兩者進行預測模型後有什麼差異(對beta matrix的預測結果)?

1 個解答

評分
  • ?
    Lv 7
    6 日前

    都是在做資料的 dimension reduction.

    FA  用從 correlation matrix 找 eigenvector 的方法

    抽因素, 與 PCA 用 correlation matrix 來做, 且又加

    上對 PC 做轉軸的實務做法, 混淆了兩種統計方法.

    從理論假設來說, PCA 是以資料為整體, 只是對資

    料做正交變換, 加上去除不重要成分以縮減資料的

    維度, 由 n 變量轉成 p 主成分. 因此, 在理論的基礎

    上個人是認為不應對擷取的主成分再做轉軸.

    FA 則在理論基礎上假設 n 變數就是由 p 個共同因

    子加上各自的特殊因子以線性關係合成的. 因此,

    並不能由資料確定 p 個因子各自的方向, 所以在抽

    出因子後自然是可以任意轉軸. 而實用上也必須轉

    軸來賦與各因子實務上的意義.

    PCA 本質是 n 維度資料做線性變換, 找出資料的

    第一主要變動方向, 第二主要方向, 以至第 p 主方

    向. 因此, 如果再對這些主成分做轉軸 (也就是再

    做一次線性變換), 等於再次打亂了 "主成分", 那麼

    最後的結果新變數只是把原先 n 變數縮減為 p 變

    數罷了. 雖然由於轉軸使得資料分析者可以賦予新

    變數實務意義, 但哪比得原變數定義明確、意思清

    楚?

    FA 需要轉軸, 因為所謂的 "共同因子" 是想像中的

    隱藏概念, 根本沒有具體定義. 而把它們做任意線

    性變換並不會改變資料(原始變數), 只是與原始變

    數間關聯的係數改變而已. 因為資料不能確定因子

    的方向, 也因為因子本就是抽象而無法具體界定,

    無法實際觀測的, 因此轉軸以便利解釋是必要的.

    PCA 所丟掉的成分 (擷取 p 個主成分, 則第 p+1

    個成分以後的成分就是被丟掉的) 並不能說是 誤

    差, 只是被認為可以不考慮的、不重要的成分而已.

    就像在蒐集資料時蒐集了許多變數的資料, 事後發

    現某些變項對研究目的而言不重要, 就忽略了, 或

    說是被丟棄了.PCA 中的誤差只有樣本與群體間的

    差異.

    FA 中屬於各原始變數的特殊因子也不是誤差. 因

    此在 FA 首先要做的就是估計 "共通性" 和 "特殊

    性" (二者合起來是 1.) FA 中的誤差有兩項, 一是

    樣本與群體間的差異, 另一是樣本中確定了各變

    數的共通性之後, 採用某種方法抽取共同因子, 

    最後由這些因子所計算出的變數共通性和相關矩

    陣與原設的共通性及原來的相關矩陣之間的差異.

     PCA 由於是資料(變數)的線性變換, 因此可以用

    變異數共變異矩陣為基礎(以原變數量測單位為基

    礎), 或以相關矩陣為基礎(以標準化、無單位變數

    為基礎. FA 則本質上從標準化變數去考慮變數與

    因子之間的關係, 因此從相關矩陣出發.

    FA 認定特殊因子的存在, 因此先要估計共通性.

    PCA 是對資料做線性變換, 當然沒有共通性之說.

    但 FA 的共通性怎麼估計是個問題, 而 PCA 之主

    成分又無實用意義, 因此現在似乎流行一種做法:

    不管是 FA 或 PCA 都做轉軸, FA 也不先估計共

    通性而直接由相關矩陣去抽因子. 特別是用找特

    徹向量的方法找共同因子, 等於把 FA 和 PCA

    均一化了, 也等於把 FA 的特殊因子看成是愈小

    愈好的 "殘差", 把 PCA 的主成分當做共同因子.

還有問題嗎?立即提問即可得到解答。