文本分析

文本分析

自然語言處理方式
文本分析是指對文本的表示及其特征項的選取;文本分析是文本挖掘、信息檢索的一個基本問題,它把從文本中抽取出的特征詞進行量化來表示文本信息。文本(text),與 訊息(message)的意義大緻相同,指的是由一定的符号或符碼組成的信息結構體,這種結構體可采用不同的表現形态,如語言的、文字的、影像的等等。文本是由特定的人制作的,文本的語義不可避免地會反映人的特定立場、觀點、價值和利益。因此,由文本内容分析,可以推斷文本提供者的意圖和目的。[1]
    中文名:文本分析 外文名: 适用領域: 所屬學科: 定義:符号或符碼組成的信息結構體 制作方:人 應用範圍:社會知識管理方面

特征

文本分析将它們從一個無結構的原始文本轉化為結構化的計算機可以識别處理的信息,即對文本進行科學的抽象,建立它的數學模型,用以描述和代替文本。使計算機能夠通過對這種模型的計算和操作來實現對文本的識别。由于文本是非結構化的數據,要想從大量的文本中挖掘有用的信息就必須首先将文本轉化為可處理的結構化形式。

目前人們通常采用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統計方法得到的特征項來表示文本向量中的各個維,那麼這個向量的維度将是非常的大。這種未經處理的文本矢量不僅給後續工作帶來巨大的計算開銷,使整個處理過程的效率非常低下,而且會損害分類、聚類算法的精确性,從而使所得到的結果很難令人滿意。因此,必須對文本向量做進一步淨化處理,在保證原文含義的基礎上,找出對文本特征類别最具代表性的文本特征。為了解決這個問題,最有效的辦法就是通過特征選擇來降維。

目前有關文本表示的研究主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。用于表示文本的基本單位通常稱為文本的特征或特征項。特征項必須具備一定的特性:1)特征項要能夠确實标識文本内容;2)特征項具有将目标文本與其他文本相區分的能力;3)特征項的個數不能太多;4)特征項分離要比較容易實現。在中文文本中可以采用字、詞或短語作為表示文本的特征項。相比較而言,詞比字具有更強的表達能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多

因此,目前大多數中文文本分類系統都采用詞作為特征項,稱作特征詞。這些特征詞作為文檔的中間表示形式,用來實現文檔與文檔、文檔與用戶目标之間的相似度計算。如果把所有的詞都作為特征項,那麼特征向量的維數将過于巨大,從而導緻計算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。特征抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數,以此來降低向量空間維數,從而簡化計算,提高文本處理的速度和效率。

文本特征選擇對文本内容的過濾和分類、聚類處理、自動摘要以及用戶興趣模式發現、知識發現等有關方面的研究都有非常重要的影響。通常根據某個特征評估函數計算各個特征的評分值,然後按評分值對這些特征進行排序,選取若幹個評分值最高的作為特征詞,這就是特征抽取(Feature Selection)。

特征選取的方式

(1)用映射或變換的方法把原始特征變換為較少的新特征。

(2)從原始特征中挑選出一些最具代表性的特征。

(3)根據專家的知識挑選最有影響的特征。

(4)用數學的方法進行選取,找出最具分類信息的特征,這種方法是一種比較精确的方法,人為因素的幹擾較少,尤其适合于文本自動分類挖掘系統的應用。

随着網絡知識組織、人工智能等學科的發展,文本特征提取将向着數字化、智能化、語義化的方向深入發展,在社會知識管理方面發揮更大的作用。

相關詞條

相關搜索

其它詞條