垂直搜索引擎

垂直搜索引擎

針對某一個行業的專業搜索引擎
垂直搜索引擎是針對某一個行業的專業搜索引擎,是搜索引擎的細分和延伸,是對網頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數據進行處理後再以某種形式返回給用戶。[1]垂直搜索是相對通用搜索引擎的信息量大、查詢不準确、深度不夠等提出來的新的搜索引擎服務模式,通過針對某一特定領域、某一特定人群或某一特定需求提供的有一定價值的信息和相關服務。其特點就是“專、精、深”,且具有行業色彩,相比較通用搜索引擎的海量信息無序化,垂直搜索引擎則顯得更加專注、具體和深入。能否提供全面權威的行業信息,能否擁有行業資源是垂直搜索引擎發展的門檻。
    網站名稱:垂直搜索引擎 别名: 創始人: 總部地點: 主辦單位: 網站類型: 網站口号: ICP備案号: 外文名:Vertical Search Engine 關鍵技術:文本挖掘等 所屬學科:計算機科學技術

異同點

策略異

垂直搜索不隻是類google的行業通用搜索。以房産行業為例,如果我們按照google抓取網頁的方式,來建造一個房産行業google的做法,是行不通的。

技術壁壘不用解釋,就算我們借助nutch,lucene等搜索技術來做,我們也無法提供差異化的服務,而沒有差異化的産品在互聯網赢家通吃的規則下是無法生存的,就是不要簡單地模仿,而要想辦法形成互補。

技術同

垂直搜索和google,baidu等通用搜索從定位,内容,用戶,市場策略等都是不同的。所以垂直搜索不隻是簡單的行業google。用戶使用google,baidu等通用搜索引擎的方式是通過關鍵字的方式實現的,是語義上的搜索,返回的結果傾向于知識成果,比如文章,論文,新聞等。

垂直搜索也是提供關鍵字來進行搜索的,但被放到了一個行業知識的上下文中,返回的結果更傾向于信息,消息,條目等。對買房的人講,他希望找的房子供求信息和文章,新聞等不同。

這個特性是他們各自的的技術特點決定的。打個比方,如果google搜索引擎是一個正金字塔型,那麼垂直搜索引擎就是個倒金字塔型,兩者是互補的。

門檻

進入垂直搜索的門檻在哪裡?

在互聯網上說門檻,就是比資源。垂直搜索也是這樣,能否提供全面權威的行業信息,能否擁有行業資源是垂直搜索引擎發展的門檻。換句話說,垂直門戶是垂直搜索血統最近的父親。作為房産行業的房産網就是一個垂直門戶,在房産領域沒有誰比我們更清楚什麼是垂直搜索了。

垂直搜索的難點不是技術,而是用戶參與門戶網站行為的創新和垂直門戶網站對産業上下遊信息資源的整合。

準則

1、選擇一個好的垂直搜索方向。俗話說男怕選錯行,這一點對于搜索引擎來說也是一樣的,除了選擇的這個行業有垂直搜索的大量需求外,這個行業的數據屬性最好不要和通用搜索的的抓取方向重疊。熱門的垂直搜索行業有:購物,旅遊,汽車,工作,房産,交友等行業。搜索引擎對動态url數據不敏感也是衆所周知的,這些可以作為垂直搜索引擎的切入點。

2、評價所選垂直搜索行業的網站、垂直搜索内容、行業構成等情況:我們都知道垂直搜索引擎并不提供内容來源,它的數據依賴爬蟲搜集,并做了深度加工而來的。因此考慮垂直搜索引擎的所處的大環境和定位至關重要。

3、深入分析垂直搜索引擎的索引數據特點:垂直搜索引擎的索引數據過于結構化,那麼進入的門檻比較低,行業競争會形成一窩蜂的局面;如果搜索數據特點是非結構化的,抓取,分析這樣的數據很困難,進入壁壘太高,很可能出師未捷身先死。

4、垂直搜索引擎的索引數據傾向于結構化數據和元數據,這個特點是區别于通用搜索引擎的,這是垂直搜索引擎的立足點。而垂直搜索引擎是根植于某一個行業,因此行業知識,行業專家這些也是通用搜索引擎不具備的。也就是說進入垂直搜索是有門檻的。

5、垂直搜索引擎的搜索結果要複蓋整個行業,搜索相關性要高于通用搜索引擎,貼近用戶搜索意圖,搜索結果要及時。

6、垂直搜索引擎的搜索數據由于帶有結構化的天性,相對于通用搜索引擎的全文索引而言,更顯的少而精。因此,設計的時候要提供收集用戶數據的接口,同時提供tag,積分等機制,使搜索結果更加“垂直”。

7、垂直搜索引擎的目标是幫助用戶解決問題,而不隻是像通用搜索引擎一樣發現信息:這一點是垂直搜索引擎的終極目标。在做垂直搜索引擎的時候你需要考慮:什麼問題是這個行業内的特殊性問題,什麼問題是一般性問題。keso多次提到google的目标是讓用戶盡快離開google,而垂直搜索引擎應該粘住用戶。

一般來說,使用垂直搜索引擎的用戶都是和用戶的利益需求密切相關的。所謂利益需求是我自己獨創的,大意是和用戶工作密切相關,生活中必不可少的需求,而求有持續性。比如:學生找論文,業主找裝修信息等等這樣的需求。因此粘住用戶,讓用戶有反饋的途徑是一個關鍵部分。

8、垂直搜索引擎的社區化特征:這一條和第7條是相關的。俗話說物以類聚,人以群分,垂直搜索引擎定位于一個行業,服務于一群特定需求的人群,這個特點決定了垂直搜索的社區化行為。人們利用垂直搜索引擎解決問題,分享回饋。做網站都講求社區化,所以垂直搜索引擎本質上還是:對垂直門戶信息提供方式的一次簡化性的整合。

引擎框架

抓取系統

也就是蜘蛛程序,負責從信息源抓取數據,蜘蛛程序通常是基于預先構造的模闆工作的,無模闆的蜘蛛程序隻能處理結構相對簡單的信息,抓取系統涉及的關鍵技術點有爬行路徑分析、增量抓取與全抓取、信息構造完整性、信息唯一性識别、多網頁信息整合、自動标引(此功能也可以單獨提出)等。

索引系統

把抓來的信息建立類似書目的數據文件,以便于實現高速檢索。索引系統涉及的關鍵技術點有分詞技術、預評分和後評分、增量索引與全索引、排序技術、熱點詞高速緩存、标準檢索語句解析等。

搜索系統

就是提供搜索功能的網站,網站的具體表現形式大不相同,但是都提供全文搜索功能,除了搜索功能外,還提供與業務相關的其他功能,譬如按地域導航檢索、會員注冊、訂閱等。很多人把GOOGLE、百度稱之為站外搜索,而把其他基于數據庫的搜索稱之為站内搜索,其實所有的搜索引擎提供的都是站内搜索,數據都是預先存儲在本地的。

案例

垂直搜索

這類搜索引擎很多,這裡以物流全搜索為例。

簡介:拟建全球最大的中文物流信息搜索查詢平台,為全球物流行業提供物流信息發布、搜索查詢服務!物流全搜索是在《物流業調整和振興規劃》大趨勢下,物流行業蓬勃發展的環境中成長起來的物流行業垂直搜索引擎。

搜索平台以專業、全面、簡易、自助為建站标準,以“垂直搜索+行業門戶”相結合的建站理念,堅持以成效第一、服務第一的客戶服務理念,為所有需要物流信息和提供物流的客戶服務。

物流全搜索始終緻力于全球最大的中文物流信息搜索查詢平台建設,樹立全球中文物流搜索第一品牌,網站建立以來取得良好的社會效益,為廣大物流企業、客戶提供了極大的方便。提供全新的搜索體驗,隻需輸入簡單關鍵詞或簡單的選擇就可在指定的分類中搜索到你需要的信息,使用極其方便,滿足行業所有信息查詢需求。

簡評:以行業為目标,專注于物流,專業性強;以簡易物流搜索為核心,秉承當前百度等通用搜索引擎的大氣和完整實用的平台構架,科技含量高;人性化搜索體驗,友好性強。

購物垂直

購物搜索引擎可以理解為搜索引擎的一種細分,即在網上購物領域的專業搜索引擎。

常規意義上基于網頁搜索的搜索引擎在搜索結果中的内容是根據相關性排列的來源于其他網站的内容索引,與此類似,購物搜索引擎的檢索結果也來自于被收錄的網上購物網站,這樣當用戶檢索某個商品時,所有銷售該商品的網站上的産品記錄都會被檢索出來,用戶可以根據産品價格、對網站的信任和偏好等因素進入所選擇的網上購物網站購買産品。

購物搜索引擎與一般的網頁搜索引擎相比的主要區别在于,除了搜索産品、了解商品說明等基本信息之外,通常還可以進行商品價格比較、并且可以對産品和在線商店進行評級,這些評比結果指标對于用戶購買決策有一定的影響,尤其對于知名度不是很高的網上零售商,通過購物搜索引擎,不僅增加了被用戶發現的機會,如果在評比上有較好的排名,也有助于增加顧客的信任。

以BizRate為例,用戶不僅可以用多種方式進行檢索,如産品名稱、品牌名、網站名稱等,用戶還可以對産品進行評比,可以發表自己的意見,這些信息也可以被别的用戶參考。

因此當用戶使用購物搜索引擎檢索商品時,可以獲得比較豐富的信息,對制定商品購買決策有較大的參考價值。這也從另一個角度說明,網上商店利用購物引擎進行推廣可以增加被用戶發現的機會,從而達到促銷的目的,因而成為網上銷售的一種常用促銷手段。

區别

垂直搜索引擎和普通的網頁搜索引擎的最大區别是對網頁信息進行了結構化信息抽取,也就是将網頁的非結構化數據抽取成特定的結構化信息數據,好比網頁搜索是以網頁為最小單位,基于視覺的網頁塊分析是以網頁塊為最小單位,而垂直搜索是以結構化數據為最小單位。

然後将這些數據存儲到數據庫,進行進一步的加工處理,如:去重、分類等,最後分詞、索引再以搜索的方式滿足用戶的需求。整個過程中,數據由非結構化數據抽取成結構化數據,經過深度加工處理後以非結構化的方式和結構化的方式返回給用戶。

上一篇:次奧

下一篇:文藝青年

相關詞條

相關搜索

其它詞條