全文搜索引擎:信息檢索技術-中文百科頻道

簡介

全文檢索技術，尤其是中文全文檢索技術的研究始于1987年左右，已經有一些商品化的軟件。Internet的普及使得全文檢索技術日益成熟起來，其應用已突破傳統的情報部門和信息中心的局限性，使該技術的最廣大用戶變成互聯網的用戶和桌面用戶，而不再僅局限于情報檢索專家。

全文檢索技術以各類數據如文本、聲音、圖像等為對象，提供按數據的内容而不是外在特征來進行的信息檢索，其特點是能對海量的數據進行有效管理和快速檢索。它是搜索引擎的核心技術，同時也是電子商務網站的支撐技術。全文檢索技術可應用于企業信息網站、媒體網站、政府站點、商業網站、數字圖書館和搜索引擎中。我們知道，企業信息化是電子商務的基礎，企業建立自己的商務站點，構建企業内部信息發布平台，并與其他網站間建立安全的信息發布通道和交換通道，建立電子商務的應用并以數據為中心建立應用平台等方面都離不開全文檢索。該檢索技術可跨越所有的數據源，支持多種數據和信息格式，對檢索結果可按商業分類規則進行排列，也能滿足用戶特定的知識檢索請求，将所有不同信息查詢中的命中結果按相關性或分類排列，提供不同格式的信息浏覽功能。

從搜索結果來源的角度，全文搜索引擎又可細分為兩種，一種是擁有自己的檢索程序（Indexer），俗稱“蜘蛛”（Spider）程序或“機器人”（Robot）程序，并自建網頁數據庫，搜索結果直接從自身的數據庫中調用，如Google、Fast/AllThe Web、AltaVista、Inktomi、Teoma、WiseNut、百度等；另一種則是租用其他引擎的數據庫，并按自定的格式排列搜索結果，如Lycos引擎。

原理

全文搜索引擎的“網絡機器人”或“網絡蜘蛛”是一種網絡上的軟件，它遍曆Web空間，能夠掃描一定IP地址範圍内的網站，并沿着網絡上的鍊接從一個網頁到另一個網頁，從一個網站到另一個網站采集網頁資料。它為保證采集的資料最新，還會回訪已抓取過的網頁。網絡機器人或網絡蜘蛛采集的網頁，還要有其他程序進行分析，根據一定的相關度算法進行大量的計算建立網頁索引，才能添加到索引數據庫中。我們平時看到的全文搜索引擎，實際上隻是一個搜索引擎系統的檢索界面，當你輸入關鍵詞進行查詢時，搜索引擎會從龐大的數據庫中找到符合該關鍵詞的所有相關網頁的索引，并按一定的排名規則呈現給我們。不同的搜索引擎，網頁索引數據庫不同，排名規則也不盡相同，所以，當我們以同一關鍵詞用不同的搜索引擎查詢時，搜索結果也就不盡相同。