簡介
典型相關分析最早哈羅德·霍特林首次引入。他所提出的方法于 1936 年在《生物統計》期刊上發表的一篇論文《兩組變式之間的關系》經過多年的應用及發展,逐漸達到完善,在 70 年代臻于成熟。
由于典型相關分析涉及較大量的矩陣計算, 其方法的應用在早期曾受到相當的限制。但随着當代計算機技術及其軟件的迅速發展,彌補了應用典型相關分析中的困難,因此它的應用開始走向普及化。 典型相關分析是研究兩組變量之間相關關系的一種統計分析方法 。
為了研究兩組變量量X= (X1, ...,Xn) 和Y= (Y1, ...,Ym) 之間的相關關系,采用類似于主成分分析的方法,在兩組變量中,分别選取若幹有代表性的變量組成有代表性的綜合指标,通過研究這兩組綜合指标之間的相關關系,來代替這兩組變量間的相關關系,這些綜合指标稱為典型變量。
定義
給定兩個帶有限矩的随機變量的列向量 和 ,我們可以定義互協方差矩陣 為 的矩陣,其中 是協方差 。實際上,我們可以基于 和 的采樣數據來估計協方差矩陣。(如從一對數據矩陣)。
典型相關分析求出向量 和 使得随機變量 和 的相關性 最大。随機變量 和 是第一對典型變量。然後尋求一個依然最大化相關但與第一對典型變量不相關的向量;這樣就得到了第二對典型變量。 這個步驟會進行 次。
計算
1.求導
設 和 。需要最大化的參數為
第一步是定義一個基變更以及
因此有
根據柯西-施瓦茨不等式,我們有
如果向量 和 共線,那麼上式相等。此外,如果 是矩陣 最大特征值對應的特征向量,那麼就可以得到相關的最大值。随後的典型變量對可以通過減少特征值的量級來得到。正交性保證了相關矩陣的對稱性。
2.解法
因此解法是:
1) 是 的一個特征向量;
2) 是 的比例項。
相反地,也有:
1) 是 的一個特征向量;
2) 是 的比項。
把坐标反過來,我們有
1) 是 的一個特征向量;
2) 是 的一個特征向量;
3) 是的比例項;
4) 是 的比例項。
那麼相關變量定義為:
相關應用
典型相關分析的用途很廣。在實際分析問題中,當面臨兩組多變量數據,并希望研究兩組變量之間的關系時,就要用到典型相關分析。 例如,為了研究擴張性财政政策實施以後對宏觀經濟發展的影響,就需要考察有關财政政策的一系列指标如财政支出總額的增長率、财政赤字增長率、國債發行額的增長率、稅率降低率等與經濟發展的一系列指标如國内生産總值增長率、就業增長率、物價上漲率等兩組變量之間的相關程度。
又如,為了研究宏觀經濟走勢與股票市場走勢之間的關系,就需要考察各種宏觀經濟指标如經濟增長率、失業率、物價指數、進出口增長率等與各種反映股票市場狀況的指标如股票價格指數、股票市場融資金額等兩組變量之間的相關關系。再如,工廠要考察所使用的原料的質量對所生産的産品的質量的影響,就需要對所生産産品的各種質量指标與所使用的原料的各種質量指标之間的相關關系進行測度。
又如,在分析評估某種經濟投入與産出系統時,研究投入和産出情況之間的聯系時,投入情況面可以從人力、物力等多個方面反映,産出情況也可以從産值、利稅等方面反映 。
再如在分析影響居民消費因素時,我們可以将勞動者報酬、家庭經營收入、轉移性收入等變量構成反映居民收入的變量組,而将食品支出、醫療保健支出、交通和通訊支出等變量構成反映居民支出情況的變量組,然後通過研究兩變量組之間關系來分析影響居民消費因素情況。
典型相關分析有助于綜合地描述兩組變量之間的典型的相關關系。其條件是,兩組變量都是連續變量,其資料都必須服從多元正态分布。