文本分析:自然語言處理方式-中文百科頻道

特征

文本分析将它們從一個無結構的原始文本轉化為結構化的計算機可以識别處理的信息，即對文本進行科學的抽象，建立它的數學模型，用以描述和代替文本。使計算機能夠通過對這種模型的計算和操作來實現對文本的識别。由于文本是非結構化的數據,要想從大量的文本中挖掘有用的信息就必須首先将文本轉化為可處理的結構化形式。

目前人們通常采用向量空間模型來描述文本向量,但是如果直接用分詞算法和詞頻統計方法得到的特征項來表示文本向量中的各個維,那麼這個向量的維度将是非常的大。這種未經處理的文本矢量不僅給後續工作帶來巨大的計算開銷,使整個處理過程的效率非常低下,而且會損害分類、聚類算法的精确性,從而使所得到的結果很難令人滿意。因此,必須對文本向量做進一步淨化處理,在保證原文含義的基礎上,找出對文本特征類别最具代表性的文本特征。為了解決這個問題,最有效的辦法就是通過特征選擇來降維。

目前有關文本表示的研究主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。用于表示文本的基本單位通常稱為文本的特征或特征項。特征項必須具備一定的特性:1)特征項要能夠确實标識文本内容;2)特征項具有将目标文本與其他文本相區分的能力;3)特征項的個數不能太多;4)特征項分離要比較容易實現。在中文文本中可以采用字、詞或短語作為表示文本的特征項。相比較而言，詞比字具有更強的表達能力，而詞和短語相比，詞的切分難度比短語的切分難度小得多

因此，目前大多數中文文本分類系統都采用詞作為特征項，稱作特征詞。這些特征詞作為文檔的中間表示形式，用來實現文檔與文檔、文檔與用戶目标之間的相似度計算。如果把所有的詞都作為特征項，那麼特征向量的維數将過于巨大，從而導緻計算量太大，在這樣的情況下，要完成文本分類幾乎是不可能的。特征抽取的主要功能是在不損傷文本核心信息的情況下盡量減少要處理的單詞數，以此來降低向量空間維數，從而簡化計算，提高文本處理的速度和效率。

文本特征選擇對文本内容的過濾和分類、聚類處理、自動摘要以及用戶興趣模式發現、知識發現等有關方面的研究都有非常重要的影響。通常根據某個特征評估函數計算各個特征的評分值，然後按評分值對這些特征進行排序，選取若幹個評分值最高的作為特征詞，這就是特征抽取(Feature Selection)。