2008年3月28日 星期五

由Google的專利清單推測PageRank的演算因素

大多數搜尋引擎對於它們的如何評等網頁的演算法都是最高機密,Google當然也不例外,PageRank至少使用上百因素在排列目錄,每個因素本身和因素所佔比重可能不斷的在改變。儘管如此,以 Google 的專利清單大家或許可以猜出許多端倪!
  • 網站的年齡 (除了有歷史的網站較佳外,剛上線的新網頁也有幾週時間會有較佳排序,換句話說剛上線網站若能抓緊蜜月期來經營,後續就會有較佳的排序)
  • 自該網域註冊後過多久
  • 內容的年齡
  • 新內容增加的規律性 (內容更新不佳,會被認定該網站如一灘死水)
  • 鏈接的年齡、連接站點的名譽和其相關程度
  • 一般站內因素 (例如原始碼結構性是否良好、靜態網頁優於動態網頁等)
  • 負面站內因素 (例如,太多關鍵字匯標(meta tag),很顯然被優化過,會對站點造成傷害)
    內容的獨特性
  • 使用於內容的相關術語 (搜尋引擎關聯到的術語的方式視同如何關聯到網頁的主要內容)
  • Google網頁級別 (只被使用在Google 的算法)
  • 外在鏈接、外部鏈接的鏈結文字、在那些和在網頁包含的那些鏈接
  • 引證和研究來源(表明內容是研究性質)
  • 在搜索引擎資料庫裡列舉的詞根與其相關的術語(如 finance/financing)
  • 導入的逆向鏈結,以及該鏈結的文字
  • 一些導入鏈結的負面計分 (那些來自低價值頁、被交換或情色網站的逆向鏈結等)
  • 逆向鏈結取得速率:太多太快意味著「不自然」的鏈結購買活動
  • 圍繞在導出鏈結、導入的逆向鏈結周圍的文字。例如一個鏈結如果被 "Sponsored Links" (贊助商連結) 包圍,該鏈結可能會被忽略。
  • 用 "rel=nofollow" 建議搜尋引擎忽略該鏈接
  • 在站點該文件的結構深度
  • 從其他資源收集的網格表,譬如監視當搜尋結果導引用戶到某頁後,用戶有多頻繁按瀏覽器的返回鈕
  • 從來源像:Google AdWords/Adsense、Google 工具條等程序收集的網格表
  • 從第三方資料分享協議收集的網格資料 (譬如監測站點流量的統計程式提供商)
  • 刪除導入鏈結的速率
  • 使用子網域、在子網使用關鍵字和內容質量等等,以及從這些活動來的負面計分
    和主文件語意上的連結
  • 文件增加或改動的速率
  • 主機服務商 IP 和該 IP 旗下其它站點的數量/質量
  • 其他鏈結站會員 (link farm / link affiliation) 與被鏈結的站 (他們分享IP嗎? 有一個共同的郵遞地址在"聯絡我們 (Contact Us)" 頁嗎?)
  • 技術細節像利用301重定向被移除的網頁、對不存在網頁顯示404伺服器標頭而非200伺服器標頭、適當的利用 robots.txt
  • 主機服務商正常運行時間
  • 網站是否對不同類的用戶顯示不同的內容 (掩飾 (cloaking))
  • 未即時矯正、無效的導出的鏈結
  • 不安全或非法內容
  • HTML代碼品質,以及錯誤出現數
  • 由搜尋引擎自他們搜尋結果觀察到的實際點擊通過率評等
  • 由最常存取搜尋結果的人手動評等

沒有留言:

張貼留言