截詞檢索

截詞檢索

計算機領域術語
截詞檢索是預防漏檢提高查全率的一種常用檢索技術,大多數系統都提供截詞檢索的功能。截詞是指在檢索詞的合适位置進行截斷,然後使用截詞符進行處理,這樣既可節省輸入的字符數目,又可達到較高的查全率。尤其在西文檢索系統中,使用截詞符處理自由詞,對提高查全率的效果非常顯着。截詞檢索一般是指右截詞,部分支持中間截詞。截詞檢索能夠幫助提高檢索的查全率。[1]
  • 中文名:截詞檢索
  • 外文名:
  • 适用領域:
  • 所屬學科:
  • 應用範圍:計算機
  • 性質:常用檢索技術
  • 常用方法:後截詞和中截詞

基本分類

在截詞檢索技術中,較常用的是後截詞和中截詞兩種方法。如果按所截斷的字符數目來分,有無限截詞和有限截詞兩種。截詞算符在不同的系統中有不同的表達形式,需要說明的是并不是所有的搜索引擎都支持這種技術。

截詞檢索就是用截斷的詞的一個局部進行的檢索,并認為凡滿足這個詞局部中的所有字符(串)的文獻,都為命中的文獻。按截斷的位置來分,截詞可有後截斷、前截斷、中截斷三種類型。

不同的系統所用的截詞符也不同,常用的有?、$、*等。分為有限截詞(即一個截詞符隻代表一個字符)和無限截詞(一個截詞符可代表多個字符)。下面以無限截詞舉例說明:

(1)後截斷,前方一緻。如:comput?表示computer,computers,computing等。

(2)前截斷,後方一緻。如:?computer表示minicomputer,microcomputer等。

(3)中截斷,中間一緻。如?comput?表示minicomputer,microcomputers等。

截詞檢索也是一種常用的檢索技術,是防止漏檢的有效工具,尤其在西文檢索中,更是廣泛應用。截斷技術可以作為擴大檢索範圍的手段,具有方便用戶、增強檢索效果的特點,但一定要合理使用,否則會造成誤檢。

後截詞

是指檢索結果中單詞的前面幾個字符要與關鍵字中截詞符前面的字符相一緻的檢索。具體包括:

(1)有限後截詞 主要用于詞的單、複數,動詞的詞尾變化等。如books可用book?代表,其中截詞符?(也稱為通配符)可以用來代替0個或1個字符,因此,book?可檢索出包含有book或books詞的記錄;acid??可檢索出含有acid,acidic 和acids的記錄。

(2)無限後截詞 主要用于同根詞。如solubilit用solub*處理,可檢索出含有solubilize,solubilization,soluble等同根詞的記錄。由此可知,在詞根後加一個"*",表示無限截詞符号。

中截詞

中截詞也稱屏蔽詞。一般來說,中截詞僅允許有限截詞,主要用于英、美拼寫不同的詞和單複數拼寫不同的詞。如organi?ation可檢索出含有organisation和organization的記錄。由此可知,中截詞使用的符号為"?",即用"?"代替那個不同拼寫的字符。

從以上各例可知,使用截詞檢索具有隐含的布爾邏輯或(OR)運算的功能,可簡化檢索過程。

截詞檢索方式

截詞檢索的方式有多種,可以分為有限截詞、無限截詞和中間截詞。

有限截詞

有限後截詞主要用于詞的單、複數,動詞的詞尾變化等。将“n”個截詞符放在檢索詞(關鍵詞、主題詞)的詞幹或詞尾可能變化的位置上。

中間截詞

一般來說,中間截詞僅允許有限截詞,主要用于英、美拼寫不同的詞和單複數拼寫不同的詞。例如:wom?n woman women

無限截詞

截去某個詞的尾部,是詞的前方一緻比較,也稱前方一緻檢索。在檢索詞(關鍵詞、主題詞)幹後加1個截詞符 “?”或“*”。表示該詞尾允許變化的字符數不受任何限制。例如:comput* 可檢索出 computer、computing、computers、computering、computeriation 等詞的記錄。 任何一種截詞檢索,都隐含着布爾邏輯檢索的“或”運算。采用截詞檢索時,既要靈活、又要謹慎,截詞的部位要适當,如果截得太短(輸入的字符不得少于3個),将影響查準率。另外,不同的檢索系統使用的截詞符不同、各數據庫所支持的截斷類型也不同。

其他檢索方式

布爾邏輯檢索

對于常見的三種布爾邏輯算符AND,OR,NOT,在搜索引擎中,該功能則表現不同。首先是受支持的程度不同,"完全支持"全部三種運算的搜索引擎有InfoSeek,AltaVista和Excite等;在其"高級檢索"模式中"完全支持",而在"簡單檢索"模式中"部分支持"的有HotBot,Lycos等。其次是提供運算的方式不同:大部分搜索引擎采用常規的命令驅動方式,即用布爾算符(AND,OR,NOT)或直接用符号進行邏輯運算,如AltaVista、Excite;有的用“十”和“一”号替代“AND/NOT”進行運算;也有部分引擎使用菜單驅動方式,用菜單選項來替代布爾算符或符号進行邏輯運算,如HotBot,Lycos中均提供了兩個菜單"All the words"和"And of the words"分别代表AND和OR運算,天網的"精确匹配"、"模糊匹配"原理與此相似。

詞組檢索

詞組檢索是将一個詞組(通常用雙引号""括起)當作一個獨立運算單元,進行嚴格匹配,以提高檢索的精度和準确度,它也是一般數據庫檢索中常用的方法。詞組檢索實際上體現了臨近位置運算(Near運算)的功能,即它不僅規定了檢索式中各個具體的檢索詞及其相互間的邏輯關系,而且規定了檢索詞之間的臨近位置關系。幾乎所有的搜索引擎都支持詞組檢索,并且都采用雙引号來代表詞組,如"信息教育"。但在Infoseek中,除了用雙引号外,還使用了短橫線"-"來代表詞組,如digital-library-definition,區别在于以"-"表示的詞組不區分大小寫。

截詞檢索

截詞檢索也是一般數據庫檢索中常用的方法。但在一般的數據庫檢索中,截詞法常有左截、右截、中間截斷和中間屏蔽4種形式。而在搜索引擎中,目前多隻提供右截法。而且搜索引擎中的截詞符則通常采用星号*。如educat*。相當于education+educational+educator。

字段檢索

字段檢索和限制檢索常常結合使用,字段檢索就是限制檢索的一種,因為限制檢索往往是對字段的限制。在搜索引擎中,字段檢索多表現為限制前綴符的形式。如屬于主題字段限制的有:Title,Subject,Keywords,Summary等。屬于非主題字段限制的有:Image,Text等。作為一種網絡檢索工具,搜索引擎提供了許多帶有典型網絡檢索特征的字段限制類型,如主機名(host);域名(domain);鍊接(link);URL(site);新聞組(newsgroup)和E-mail限制等。這些字段限制功能限定了檢索詞在數據庫記錄中出現的區域。由于檢索詞出現的區域對檢索結果的相關性有一定的影響,因此,字段限制檢索可以用來控制檢索結果的相關性,以提高檢索效果。在著名的搜索引擎中,目前能提供較豐富的限制檢索功能的有AltaVista,Lycos和Hotbot等。

位置檢索

在搜索引擎中,能提供位置檢索的的較少。如AltaVista,而且它能提供的位置運算目前也隻有一種,即臨近位置運算(Near運算),不如常見數據庫檢索豐富。

上一篇:power

下一篇:人中

相關詞條

相關搜索

其它詞條