聚類分析

聚類分析

對樣品或指标進行分類的多元統計分析方法
聚類分析(Cluster Analysis)又稱群分析,是根據“物以類聚”的道理,對樣品或指标進行分類的一種多元統計分析方法,它們讨論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。聚類源于很多領域,包括數學,計算機科學,統計學,生物學和經濟學。将數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。
    中文名:聚類分析 外文名:Cluster analysis 應用學科:心理學 主要應用:6類 主要步驟:4步

區别

聚類與分類的不同在于,聚類所要求劃分的類是未知的。

聚類是将數據分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。

從統計學的觀點看,聚類分析是通過數據建模簡化數據的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動态聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。采用k-均值、k-中心點等算法的聚類分析工具已被加入到許多著名的統計分析軟件包中,如SPSS、SAS等。

從機器學習的角度講,簇相當于隐藏模式。聚類是搜索簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類标記的訓練實例,需要由聚類學習算法自動确定标記,而分類學習的實例或數據對象有類别标記。聚類是觀察式學習,而不是示例式的學習。

聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的标準,聚類分析能夠從樣本數據出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數據進行聚類分析,所得到的聚類數未必一緻。

從實際應用的角度看,聚類分析是數據挖掘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得數據的分布狀況,觀察每一簇數據的特征,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他算法(如分類和定性歸納算法)的預處理步驟。

定義

綜述

依據研究對象(樣品或指标)的特征,對其進行分類的方法,減少研究對象的數目。

各類事物缺乏可靠的曆史資料,無法确定共有多少類别,目的是将性質相近事物歸入一類。

各指标之間具有一定的相關關系。

聚類分析(cluster analysis)是一組将研究對象分為相對同質的群組(clusters)的統計分析技術。 聚類分析區别于分類分析(classification analysis) ,後者是有監督的學習。

變量類型:定類變量、定量(離散和連續)變量

聚類方法

1,層次聚類(Hierarchical Clustering)

合并法、分解法、樹狀圖

2. 非層次聚類

劃分聚類、譜聚類

聚類方法特征:

聚類分析簡單、直觀。

聚類分析主要應用于探索性的研究,其分析的結果可以提供多個可能的解,選擇最終的解需要研究者的主觀判斷和後續的分析;

不管實際數據中是否真正存在不同的類别,利用聚類分析都能得到分成若幹類别的解;

聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或删除一些變量對最終的解都可能産生實質性的影響。

研究者在使用聚類分析時應特别注意可能影響結果的各個因素。

異常值和特殊的變量對聚類有較大影響

當分類變量的測量尺度不一緻時,需要事先做标準化處理。

當然,聚類分析不能做的事情是:

自動發現和告訴你應該分成多少個類——屬于非監督類分析方法

期望能很清楚的找到大緻相等的類或細分市場是不現實的;

樣本聚類,變量之間的關系需要研究者決定;

不會自動給出一個最佳聚類結果;

我這裡提到的聚類分析主要是譜系聚類(hierarchical clustering)和快速聚類(K-means)、兩階段聚類(Two-Step);

根據聚類變量得到的描述兩個個體間(或變量間)的對應程度或聯系緊密程度的度量。

可以用兩種方式來測量:

1、采用描述個體對(變量對)之間的接近程度的指标,例如“距離”,“距離”越小的個體(變量)越具有相似性。

2、采用表示相似程度的指标,例如“相關系數”,“相關系數”越大的個體(變量)越具有相似性。

計算聚類——距離指标D(distance)的方法非常多:按照數據的不同性質,可選用不同的距離指标。歐氏距離(Euclidean distance)、歐氏距離的平方(Squared Euclidean distance)、曼哈頓距離(Block)、切比雪夫距離(Chebychev distance)、卡方距離(Chi-Square measure) 等;相似性也有不少,主要是皮爾遜相關系數了!

聚類變量的測量尺度不同,需要事先對變量标準化;

聚類變量中如果有些變量非常相關,意味着這個變量的權重會更大

歐式距離的平方是最常用的距離測量方法;

聚類算法要比距離測量方法對聚類結果影響更大;

标準化方法影響聚類模式:

變量标準化傾向産生基于數量的聚類;

樣本标準化傾向産生基于模式的聚類;

一般聚類個數在4-6類,不易太多,或太少;

統計量

群重心

群中心

群間距離

分層步驟

定義問題與選擇分類變量

聚類方法

确定群組數目

聚類結果評估

結果的描述、解釋

K-means

屬于非層次聚類法的一種

(1)執行過程

初始化:選擇(或人為指定)某些記錄作為凝聚點

循環:

按就近原則将其餘記錄向凝聚點凝集

計算出各個初始分類的中心位置(均值)

用計算出的中心位置重新進行聚類

如此反複循環,直到凝聚點位置收斂為止

(2)方法特點

通常要求已知類别數

可人為指定初始位置

節省運算時間

樣本量大于100時有必要考慮

隻能使用連續性變量

過程

特點:

處理對象:分類變量和連續變量

自動決定最佳分類數

快速處理大數據集

前提假設:

變量間彼此獨立

分類變量服從多項分布,連續變量服從正态分布

模型穩健

算法原理

第一步:逐個掃描樣本,每個樣本依據其與已掃描過的樣本的距離,被歸為以前的類,或生成一個新類

第二步,對第一步中各類依據類間距離進行合并,按一定的标準,停止合并

判别分析 Discriminant Analysis

介紹: 判别分析

分類學是人類認識世界的基礎科學。聚類分析和判别分析是研究事物分類的基本方法,廣泛地應用于自然科學、社會科學、工農業生産的各個領域。

判别分析DA

概述

DA模型

DA有關的統計量

兩組DA

案例分析

判别分析

判别分析是根據表明事物特點的變量值和它們所屬的類,求出判别函數。根據判别函數對未知所屬類别的事物進行分類的一種分析方法。核心是考察類别之間的差異。

判别分析

不同:判别分析和聚類分析不同的在于判别分析要求已知一系列反映事物特征的數值變量的值,并且已知各個體的分類。

DA适用于定類變量(因)、任意變量(自)

兩類:一個判别函數;

多組:一個以上判别函數

DA目的

建立判别函數

檢查不同組之間在有關預測變量方面是否有顯着差異

決定哪個預測變量對組間差異的貢獻最大

根據預測變量對個體進行分類

判别分析模型

要先建立判别函數 Y=a1x1+a2x2+...anxn,其中:Y為判别分數(判别值),x1 x2...xn為反映研究對象特征的變量,a1 a2...an為系數

有關統計

典型相關系數

特征值

Wilk's (0, 1) = SSw/SSt for X

組重心

分類矩陣

兩組判别

定義問題

估計DA函數系數

确定DA函數的顯着性

解釋結果

評估有效性

定義問題

判别分析的第一步

第二步就是将樣本分為:

分析樣本

驗證樣本

估算判别函數系數

直接法(direct method)就是同時用所有的預測變量估計判别函數,此時每個自變量都包括在内,而不考慮其判别能力。這種方法适用于前期研究或理論模型顯示應包括哪些自變量的情況。

逐步判别分析(stepwise discriminant analysis),預測變量依據其對組别的判别能力被逐步引入。

确定顯着性

零假設:總體中各組所有判别函數的均值相等。

特征值

典型相關系數

Wilk‘s (0, 1) 轉換成卡方值檢驗

見travel.spo

解釋結果

系數的符号無關緊要,但能夠表示每個變量對判别函數值的影響,以及與特定組的聯系。

我們可以通過标準化判别函數系數的絕對值初步判斷變量的相對重要性。

通過考察結構相關系數,也可以對預測變量的相對重要性進行判斷。

組重心

評估判别分析的有效性

根據分析樣本估計出的判别權數,乘以保留樣本中的預測變量值,就得出保留樣本中每個樣本的判别分。

可以根據判别分及适當的規則劃分為不同的組别。

命中率(hit ratio)或稱樣本正确分類概率,就是分類矩陣對角線元素之和與總樣本數的比例。

比較樣本正确分類百分比與随機正确分類百分比。

因子分析模型

因子分析模型(FA)

基本思想

因子分析模型

FA的基本思想

“因子分析”于1931年由Thurstone提出,概念起源于Pearson和Spearmen的統計分析

FA用少數幾個因子來描述多個變量之間的關系,相關性較高的變量歸于同一個因子;

FA利用潛在變量或本質因子(基本特征)去解釋可觀測變量

FA模型

X1=a11F1+a12F2+ …+a1pFp+v1

X2=a21F1+a22F2+ …+a2pFp+v2 X=AF+V

Xi=ai1F1+ai2F2+ …+aipFp+vi

Xm=ap1F1+ap2F2+ …+ampFm+vm

Xi — 第i個标準化變量

aip — 第i個變量對第p個公因子的标準回歸系數

F — 公因子

Vi — 特殊因子

公因子模型

F1=W11X1+W12X2+ …+W1mXm

F2=W21X1+W22X2+ …+W2mXm

Fi=Wi1X1+Wi2X2+ …+WimXm

Fp=Wp1X1+Wp2X2+ …+WpmXm

Wi — 權重,因子得分系數

Fi — 第i個因子的估計值(因子得分)

有關統計量

Bartlett氏球體檢驗:各變量之間彼此獨立

KMO值:FA合适性

因子負荷:相關系數

因子負荷矩陣

公因子方差(共同度)

特征值

方差百分比(方差貢獻率)

累計方差貢獻率

因子負荷圖

碎石圖

FA步驟

定義問題

檢驗FA方法的适用性

确定因子分析方法

因子旋轉

解釋因子

計算因子得分

注意事項

樣本量不能太小

變量相關性

公因子有實際意義

主要應用

商業

聚類分析被用來發現不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征。

聚類分析是細分市場的有效工具,同時也可用于研究消費者行為,尋找新的潛在市場、選擇實驗的市場,并作為多元分析的預處理。

生物

聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識

地理

聚類能夠幫助在地球中被觀察的數據庫商趨于的相似性

保險行業

聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據住宅類型,價值,地理位置來鑒定一個城市的房産分組

因特網

聚類分析被用來在網上進行文檔歸類來修複信息

電子商務

聚類分析在電子商務中網站建設數據挖掘中也是很重要的一個方面,通過分組聚類出具有相似浏覽行為的客戶,并分析客戶的共同特征,可以更好的幫助電子商務的用戶了解自己的客戶,向客戶提供更合适的服務。

主要步驟

1. 數據預處理,

2. 為衡量數據點間的相似度定義一個距離函數,

3. 聚類或分組,

4. 評估輸出。

數據預處理包括選擇數量,類型和特征的标度,它依靠特征選擇和特征抽取,特征選擇選擇重要的特征,特征抽取把輸入的特征轉化為一個新的顯著特征,它們經常被用來獲取一個合适的特征集來為避免“維數災”進行聚類,數據預處理還包括将孤立點移出數據,孤立點是不依附于一般數據行為或模型的數據,因此孤立點經常會導緻有偏差的聚類結果,因此為了得到正确的聚類,我們必須将它們剔除。

既然相類似性是定義一個類的基礎,那麼不同數據之間在同一個特征空間相似度的衡量對于聚類步驟是很重要的,由于特征類型和特征标度的多樣性,距離度量必須謹慎,它經常依賴于應用,例如,通常通過定義在特征空間的距離度量來評估不同對象的相異性,很多距離度都應用在一些不同的領域,一個簡單的距離度量,如Euclidean距離,經常被用作反映不同數據間的相異性,一些有關相似性的度量,例如PMC和SMC,能夠被用來特征化不同數據的概念相似性,在圖像聚類上,子圖圖像的誤差更正能夠被用來衡量兩個圖形的相似性。

将數據對象分到不同的類中是一個很重要的步驟,數據基于不同的方法被分到不同的類中,劃分方法和層次方法是聚類分析的兩個主要方法,劃分方法一般從初始劃分和最優化一個聚類标準開始。Crisp Clustering,它的每一個數據都屬于單獨的類;Fuzzy Clustering,它的每個數據可能在任何一個類中,Crisp Clustering和Fuzzy Clusterin是劃分方法的兩個主要技術,劃分方法聚類是基于某個标準産生一個嵌套的劃分系列,它可以度量不同類之間的相似性或一個類的可分離性用來合并和分裂類,其他的聚類方法還包括基于密度的聚類,基于模型的聚類,基于網格的聚類。

評估聚類結果的質量是另一個重要的階段,聚類是一個無管理的程序,也沒有客觀的标準來評價聚類結果,它是通過一個類有效索引來評價,一般來說,幾何性質,包括類間的分離和類内部的耦合,一般都用來評價聚類結果的質量,類有效索引在決定類的數目時經常扮演了一個重要角色,類有效索引的最佳值被期望從真實的類數目中獲取,一個通常的決定類數目的方法是選擇一個特定的類有效索引的最佳值,這個索引能否真實的得出類的數目是判斷該索引是否有效的标準,很多已經存在的标準對于相互分離的類數據集合都能得出很好的結果,但是對于複雜的數據集,卻通常行不通,例如,對于交疊類的集合。

算法

據挖掘中的一個很活躍的研究領域,并提出了許多聚類算法。傳統的聚類算法可以被分為五類:劃分方法、層次方法、基于密度方法、基于網格方法和基于模型方法。

1 劃分方法(PAM:PArtitioning method) 首先創建k個劃分,k為要創建的劃分個數;然後利用一個循環定位技術通過将對象從一個劃分移到另一個劃分來幫助改善劃分質量。典型的劃分方法包括:

k-means,k-medoids,CLARA(Clustering LARge Application),

CLARANS(Clustering Large Application based upon RANdomized Search).

FCM

2 層次方法(hierarchical method) 創建一個層次以分解給定的數據集。該方法可以分為自上而下(分解)和自下而上(合并)兩種操作方式。為彌補分解與合并的不足,層次合

并經常要與其它聚類方法相結合,如循環定位。典型的這類方法包括:

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法,它首先利用樹的結構對對象集進行劃分;然後再利用其它聚類方法對這些聚類進行優化。

CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表對象來表示相應聚類;然後對各聚類按照指定量(向聚類中心)進行收縮。

ROCK方法,它利用聚類間的連接進行聚類合并。

CHEMALOEN方法,它則是在層次聚類時構造動态模型。

3 基于密度的方法,根據密度完成對象的聚類。它根據對象周圍的密度(如DBSCAN)不斷增長聚類。典型的基于密度方法包括:

DBSCAN(Densit-based Spatial Clustering of Application with Noise):該算法通過不斷生長足夠高密度區域來進行聚類;它能從含有噪聲的空間數據庫中發現任意形狀的聚類。此方法将一個聚類定義為一組“密度連接”的點集。

OPTICS(Ordering Points To Identify the Clustering Structure):并不明确産生一個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序。。

4 基于網格的方法,首先将對象空間劃分為有限個單元以構成網格結構;然後利用網格結構完成聚類。

STING(STatistical INformation Grid) 就是一個利用網格單元保存的統計信息進行基于網格聚類的方法。

CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個将基于網格與基于密度相結合的方法。

5 基于模型的方法,它假設每個聚類的模型并發現适合相應模型的數據。典型的基于模型方法包括:

統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是采用符号量(屬性-值)對來加以描述的。采用分類樹的形式來創建一個層次聚類。

CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚類。它為每個結點中的每個屬性保存相應的連續正态分布(均值與方差);并利用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。因此它們都不适合對大數據庫進行聚類處理.

傳統的聚類算法已經比較成功的解決了低維數據的聚類問題。但是由于實際應用中數據的複雜性,在處理許多問題時,現有的算法經常失效,特别是對于高維數據和大型數據的情況。因為傳統聚類方法在高維數據集中進行聚類時,主要遇到兩個問題。①高維數據集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中數據較低維空間中數據分布要稀疏,其中數據間距離幾乎相等是普遍現象,而傳統聚類方法是基于距離進行聚類的,因此在高維空間中無法基于距離來構建簇。

高維聚類分析已成為聚類分析的一個重要研究方向。同時高維數據聚類也是聚類技術的難點。随着技術的進步使得數據收集變得越來越容易,導緻數據庫規模越來越大、複雜性越來越高,如各種類型的貿易交易數據、Web 文檔、基因表達數據等,它們的維度(屬性)通常可以達到成百上千維,甚至更高。但是,受“維度效應”的影響,許多在低維數據空間表現良好的聚類方法運用在高維空間上往往無法獲得好的聚類效果。高維數據聚類分析是聚類分析中一個非常活躍的領域,同時它也是一個具有挑戰性的工作。高維數據聚類分析在市場分析、信息安全、金融、娛樂、反恐等方面都有很廣泛的應用。

相關詞條

相關搜索

其它詞條