互信息

互信息

信息論概念
互信息本來是信息論中的一個概念,用于表示信息之間的關系, 是兩個随機變量統計相關性的測度,使用互信息理論進行特征抽取是基于如下假設:在某個特定類别出現頻率高,但在其他類别出現頻率比較低的詞條與該類的互信息比較大。互信息的定義與交叉熵近似。
    中文名:互信息 外文名: 适用領域: 所屬學科: 所屬:信息論 也稱:交互信息量 衡量:某個詞和類别之間的獨立關系,

定義

互信息(Mutual Information)是信息論裡一種有用的信息度量,它可以看成是一個随機變量中包含的關于另一個随機變量的信息量,或者說是一個随機變量由于已知另一個随機變量而減少的不肯定性。熵是很常見的概念,也是決策樹裡面的基礎。它可以衡量事件的不确定性。

具體

一般而言,信道中總是存在着噪聲和幹擾,信源發出消息x,通過信道後信宿隻可能收到由于幹擾作用引起的某種變形的y。信宿收到y後推測信源發出x的概率,這一過程可由後驗概率p(x|y)來描述。相應地,信源發出x的概率p(x)稱為先驗概率。我們定義x的後驗概率與先驗概率比值的對數為y對x的互信息量(簡稱互信息)。

根據熵的連鎖規則,有因此,這個差叫做X和Y的互信息,記作I(X;Y)。

互信息是計算語言學模型分析的常用方法,它度量兩個對象之間的相互性。在過濾問題中用于度量特征對于主題的區分度。互信息的定義與交叉熵近似。互信息本來是信息論中的一個概念,用于表示信息之間的關系是兩個随機變量統計相關性的測度,使用互信息理論進行特征抽取是基于如下假設:在某個特定類别出現頻率高,但在其他類别出現頻率比較低的詞條與該類的互信息比較大。通常用互信息作為特征詞和類别之間的測度,如果特征詞屬于該類的話,它們的互信息量最大。

由于該方法不需要對特征詞和類别之間關系的性質作任何假設,因此非常适合于文本分類的特征和類别的配準工作。

上一篇:飛毯

下一篇:

相關詞條

相關搜索

其它詞條