概念
PageRank是Google專有的算法,用于衡量特定網頁相對于搜索引擎索引中的其他網頁而言的重要程度。它由Larry Page 和 Sergey Brin在20世紀90年代後期發明。PageRank實現了将鍊接價值概念作為排名因素。
PageRank将對頁面的鍊接看成投票,指示了重要性。
算法
PageRank讓鍊接來"投票"
一個頁面的“得票數”由所有鍊向它的頁面的重要性來決定,到一個頁面的超鍊接相當于對該頁投一票。一個頁面的PageRank是由所有鍊向它的頁面(“鍊入頁面”)的重要性經過遞歸算法得到的。一個有較多鍊入的頁面會有較高的等級,相反如果一個頁面沒有任何鍊入頁面,那麼它沒有等級。
2005年初,Google為網頁鍊接推出一項新屬性nofollow,使得網站管理員和網站作者可以做出一些Google不計票的鍊接,也就是說這些鍊接不算作"投票"。nofollow的設置可以抵制評論垃圾。
假設一個由4個頁面組成的小團體: A, B, C和 D。如果所有頁面都鍊向 A,那麼 A的 PR(PageRank)值将是 B, C及 D的Pagerank總和。
繼續假設 B也有鍊接到 C,并且 D也有鍊接到包括 A的3個頁面。一個頁面不能投票2次。所以 B給每個頁面半票。以同樣的邏輯, D投出的票隻有三分之一算到了 A的PageRank上。換句話說,根據鍊出總數平分一個頁面的 PR值。
最後,所有這些被換算為一個百分比再乘上一個系數。由于“沒有向外鍊接的頁面”傳遞出去的PageRank會是0,所以,Google通過數學系統給了每個頁面一個最小值:說明:在Sergey Brin和Lawrence Page的1998年原文中給每一個頁面設定的最小值是
,而不是這裡的。所以一個頁面的PageRank是由其他頁面的PageRank計算得到。Google不斷的重複計算每個頁面的PageRank。如果給每個頁面一個随機PageRank值(非0),那麼經過不斷的重複計算,這些頁面的PR值會趨向于穩定,也就是收斂的狀态。這就是搜索引擎使用它的原因。指标
Google工具條上的PageRank指标從0到10。它似乎是一個對數标度算法,細節未知。PageRank是Google的商标,其技術亦已經申請專利。
PageRank近似于一個用戶,是指在Internet上随機地單擊鍊接将會到達特定網頁的可能性。通常,能夠從更多地方到達的網頁更為重要,因此具有更高的PageRank。每個到其他網頁的鍊接,都增加了該網頁的PageRank。具有較高PageRank的網頁一般都是通過更多其他網頁的鍊接而提高的。
為了查看站點PageRank,請安裝GOOGLE工具條并啟用PageRank特性,或者在firefox安裝SearchStatus插件。但是請注意,GOOGLE所指示的PageRank是個緩沖值,通常是過時的。
更新頻率
PageRank值每年隻發布幾次,有時就得使用過時信息,因此,PageRank并不是一個非常精确的度量。GOOGLE自己也似乎在使用更精确的值來進行排名。
在GOOGLE使用來構造搜索結果頁面的采集算法中,PageRank隻是其中的一個因素。有可能在特定查詢下,具有較低PageRank的頁面仍然能夠排在具有較高PageRank的頁面前面。PageRank也不一定是相關的,它使用鍊接來衡量整體受歡迎程度,而不是使用相關主題。GOOGLE在計算搜索排名時也考慮鍊接的相關程度,因此PageRank不應該成為搜索引擎營銷的唯一重點。構建相關鍊接,通常也自然會帶來較高的PageRank。此外,為了提高PageRank而特意構建太多的不相關鍊接也有可能損害站點的排名,因為GOOGLE試圖檢測并對不相關鍊接降分,認為這種鍊接是用于提高排名得分的。
PageRank還被用戶廣泛認為是站點可靠的因素,因為用戶傾向于相信帶有較高值的站點更為著名或權威。當然,這就是PageRank所設計的目标。這個概念是GOOGLE所認可的,因此GOOGLE通過減少或清零PageRank來懲罰那些垃圾或不相關站點。
其它算法
GOOGLE PageRank并不是唯一的鍊接相關的排名算法,而是最為廣泛使用的一種。其他算法還有:
一、Hilltop 算法
二、ExpertRank
三、HITS
四、TrustRank