多元統計分析:2010年科學出版社出版的圖書-中文百科頻道

簡介

多元統計分析

研究客觀事物中多個變量（或多個因素）之間相互依賴的統計規律性。它的重要基礎之一是多元正态分析。又稱多元分析。如果每個個體有多個觀測數據，或者從數學上說，如果個體的觀測數據能表為P維歐幾裡得空間的點，那麼這樣的數據叫做多元數據，而分析多元數據的統計方法就叫做多元統計分析。它是數理統計學中的一個重要的分支學科。20世紀30年代，R.A.費希爾，H.霍特林，許寶碌以及S.N.羅伊等人作出了一系列奠基性的工作，使多元統計分析在理論上得到迅速發展。50年代中期，随着電子計算機的發展和普及，多元統計分析在地質、氣象、生物、醫學、圖像處理、經濟分析等許多領域得到了廣泛的應用，同時也促進了理論的發展。

各種統計軟件包如SAS，SPSS等，使實際工作者利用多元統計分析方法解決實際問題更簡單方便。重要的多元統計分析方法有：多重回歸分析（簡稱回歸分析）、判别分析、聚類分析、主成分分析、對應分析、因子分析、典型相關分析、多元方差分析等。

早在19世紀就出現了處理二維正态總體（見正态分布）的一些方法，但系統地處理多維概率分布總體的統計分析問題，則開始于20世紀。人們常把1928年維夏特分布的導出作為多元分析成為一個獨立學科的标志。20世紀30年代，R.A.費希爾、H.霍特林、許寶?以及S.N.羅伊等人作出了一系列奠基性的工作，使多元統計分析在理論上得到了迅速的進展。40年代，多元分析在心理、教育、生物等方面獲得了一些應用。由于應用時常需要大量的計算，加上第二次世界大戰的影響，使其發展停滞了相當長的時間。50年代中期，随着電子計算機的發展和普及，它在地質、氣象、标準化、生物、圖像處理、經濟分析等許多領域得到了廣泛的應用，也促進了理論的發展。

多元分析發展的初期，主要讨論如何把一元正态總體的統計理論和方法推廣到多元正态總體。多元正态總體的分布由兩組參數，即均值向量μ（見數學期望）和協方差矩陣（簡稱協差陣）∑（見矩）所決定，記為Np(μ,∑)(p為分布的維數,故又稱p維正态分布或p維正态總體)。設X1,X2,…,Xn為來自正态總體Np(μ,∑)的樣本，則μ和∑的無偏估計（見點估計）分别稱之為樣本均值向量和樣本協差陣，它們是在各種多元分析問題中常用的統計量。樣本相關陣R也是一個重要的統計量，其中υij為樣本協差陣S的元素。S的分布是維夏特分布，它是一元統計中的Ⅹ2分布的推廣。

另一典型問題是：假定兩個多維正态分布協差陣相同,檢驗其均值向量是否相同。設樣本X1，X2，…，Xn抽自正态總體Np（μ1，∑）,而Y1，Y2，…，Ym抽自Np（μ2，∑），要檢驗假設H0:μ1=μ2(見假設檢驗)。在一元統計中使用t統計量（見統計量）作檢驗;在多元分析中則用T2統計量。T2的分布稱為T2分布。這是H.霍特林在1936年提出來的。

在上述問題中的多元與一元相應的統計量是類似的，但并非都是如此。例如,要檢驗k個正态總體的均值是否相等，在一元統計中是導緻F統計量,但在多元分析中可導出許多統計量，最著名的有威爾克斯Λ統計量和最大相對特征根統計量。研究這些統計量的精确分布和優良性是近幾十年來多元統計分析的重要理論課題。

多元統計分析有狹義與廣義之分，當假定總體分布是多元正态分布時，稱為狹義的，否則稱為廣義的。近年來，狹義多元分析的許多内容已被推廣到更廣的分布之中，特别是推廣到一種稱為橢球等高分布族之中。

多重回歸分析

簡稱回歸分析。其特點是同時處理多個因變量。回歸系數和常數的計算公式與通常的情況相仿，隻是由于因變量不止一個，原來的每個回歸系數在此都成為一個向量。因此，關于回歸系數的檢驗要用T2統計量；對回歸方程的顯着性檢驗要用Λ統計量。

回歸分析在地質勘探的應用中發展了一種特殊的形式，稱為趨勢面分析，它以各種元素的含量作為因變量，把它們對地理坐标進行回歸（選用一次、二次或高次的多項式）,回歸方程稱為趨勢面,反映了含量的趨勢。殘差分析是趨勢面分析的重點，找出正的殘差異常大的點，在這些點附近，元素的含量特别高，這就有可能形成可采的礦位。這一方法在其他領域也有應用。

判别分析

由k個不同總體的樣本來構造判别函數，利用它來決定新的未知類别的樣品屬于哪一類，這是判别分析所處理的問題。它在醫療診斷、天氣預報、圖像識别等方面有廣泛的應用。例如，為了判斷某人是否有心髒病，從健康的人和有心髒病的人這兩個總體中分别抽取樣本，對每人各測兩個指标X1和X2，點繪如圖。

可用直線A将平面分成g1和g2兩部分，落在g1的絕大部分為健康者，落在g2的絕大部分為心髒病人,利用A的垂線方向l=(l1,l2)來建立判别函數y=l1X1+l2X2,可以求得一常數с，使y<с等價于（X1，X2）落在g1，y>с等價于（X1，X2）落在g2。由此得判别規則：若，l1X1+l2X2即此人為健康者;若，l1X1+l2X2>C即此人為心髒病人;若，l1X1+l2X2=c則為待判。

此例的判别函數是線性函數,它簡單方便,在實際問題中經常使用。但有時也用非線性判别函數，特别是二次判别函數。建立判别函數和判别規則有不少準則和方法，常用的有貝葉斯準則、費希爾準則、距離判别、回歸方法和非參數方法等。

無論用哪一種準則或方法所建立的判别函數和判别規則，都可能産生錯判，錯判所占的比率用錯判概率來度量。當總體間區别明顯時，錯判概率較小；否則錯判概率較大。判别函數的選擇直接影響到錯判概率，故錯判概率可用來比較不同方法的優劣。

變量（如上例中的X1和X2）選擇的好壞是使用判别分析的最重要的問題，常用逐步判别的方法來篩選出一些确有判别作用的變量。利用序貫分析的思想又産生了序貫判别分析。例如醫生在診斷時,先确定是否有病,然後确定是哪個系統有病，再确定是什麼性質的病等等。

聚類分析

又稱數值分類。聚類分析和判别分析的區别在于，判别分析是已知有多少類和樣本來自哪一類，需要判别新抽取的樣本是來自哪一類；而聚類分析則既不知有幾類,也不知樣本中每一個來自哪一類。例如,為了制定服裝标準，對N個成年人，測量每人的身高(x1)、胸圍(x2)、肩寬(x3)、上體長(x4)、手臂長(x5)、前胸(x6)、後背(x7)、腰圍(x8)、臀圍(x9)、下體長(x10)等部位，要将這N個人進行分類,每一類代表一個号型；為了使用和裁剪的方便，還要對這些變量(x1,x2,…,x10)進行分類。聚類分析就是解決上述兩種分類問題。

設已知N個觀測值X1,X2,…,Xn,每個觀測值是一個p維向量（如上例中人的身高、胸圍等）。聚類分析的思想是将每個觀測值Xi看成p維空間的一個點,在p維空間中引入“距離”的概念，則可按各點間距離的遠近将各點（觀測值）歸類。若要對p個變量（即指标）進行分類，常定義一種“相似系數”來衡量變量之間的親密程度，按各變量之間相似系數的大小可将變量進行分類。根據實際問題的需要和變量的類型，對距離和相似系數有不同的定義方法。

按距離或相似系數分類,有下列方法。①凝聚法:它是先将每個觀察值{Xi}看成一類，逐步歸并，直至全部觀測值并成一類為止，然後将上述并類過程畫成一聚類圖（或稱譜系圖），利用這個圖可方便地得到分類。②分解法：它是先将全部觀測值看成一類，然後逐步将它們分解為2類、3類、…、N類,它是凝聚法的逆過程。③動态聚類法：它是将觀測值先粗糙地分類，然後按适當的目标函數和規定的程序逐步調整，直至不能再調為止。

若觀察值X1,X2,…,Xn之間的次序在分類時不允許打亂，則稱為有序分類。例如在地質學中将地層進行分類，隻能将互相鄰接的地層分成一類，不能打亂上下的次序，用于這一類問題中的重要方法是費希爾于1958年提出的最優分割法。

主成分分析

又稱主分量分析，是将多個變量通過線性變換以選出較少個數重要變量的一種方法。設原來有p個變量x1,x2,…,xp,為了簡化問題，選一個新變量z，要求z盡可能多地反映p個變量的信息，以此來選擇l1,l2,…,lp,當l1,l2,…,lp選定後,稱z為x1,x2,…,xp的主成分（或主分量）。

根據樣本進行主成分分析時又可分為R型分析與Q型分析。前者是用樣本協差陣（或相關陣）的特征向量作為線性函數的系數來求主成分；後者是由樣品之間的内積組成的内積陣來進行類似的處理，其目的是尋找出有代表性的“典型”樣品，這種方法在地質結構的分析中常使用。

對應分析

這是70年代地質學家提出的方法。對非負值指标的樣本資料矩陣作适當的處理後,同時進行R型與Q型的主成分分析,将結果綜合在圖上進行解釋，可以得到指标随時間、空間位置變化的規律。它的理論正在引起多方面的重視。

圖書信息

書名:多元統計分析

作者：張潤楚

出版社：科學出版社

出版時間：2010年8月2日

ISBN:9787030177797

開本：16開

定價:46.00元

内容簡介

本書講述多元統計的基礎理論和多元數據的分析方法。

作者簡介

張潤楚，南開大學數學科學學院教授，博士生導師，1966年畢業于南開大學數學系并留校任教至今，長期擔任概率信息統計教研室副任、統計學系主任、學校數學學科語言組委員等職。現兼任教育部數學與統計學教學指導委員會委員、天津市統計學副會長、中國現場統計研究會常務理事、中國統計學會理事等職。多元統計,數據分析,統計理論推斷以及概率統計在保險精算中的應用等。先後主持承擔國家自然科學基金項目5項,教育部博士點學科基金項目1項，天津市科學基金項目1項，現正在主持承擔國家自然科學基金項目“試驗設計若幹最新問題研究”。先後在“應用數學學報”和“科學通報”等國内外學術刊物發表論文50多篇。