?

搜索引擎怎樣對網頁排序

2017-05-16 19:40胡光能
中學科技 2016年7期
關鍵詞:訪問量搜索引擎指向

胡光能

2016年5月,魏則西事件將百度的網頁競價排序模式推向了風口浪尖。排除網頁排序背后的商業因素,搜索引擎是怎樣在紛繁復雜的信息中快速搜得所需的呢?

從現實生活到虛擬網絡

去圖書館查找書籍時,書是按文學、數學、計算機等科目分類放置的;去超市購物時,物品也是按生鮮、日用品、糕點等門類分區放置的。這樣的安排“合情合理”,能夠幫助我們迅速找到自己所需的書或物品。

從真實世界到虛擬世界,互聯網猶如一張巨大的虛擬網,匯聚各類網頁?;ヂ摼W中的網頁就好比是圖書館里的書或超市中的物品,如果不對其進行排序,要想從數量驚人的網頁中“海選”出所需的信息,那就如同天方夜譚。在這樣的背景下,搜索引擎應運而生。

搜索引擎的“工作”是將用戶需要的網頁“搜索”出來,并展現給用戶。例如在百度搜索框中輸入“科學不倒問”后,可能會得到如右下圖所示的搜索結果(搜索結果一般會隨著時間而變化)。觀察搜索引擎給出的搜索結果,確實與“科學不倒問”這個“主題”相關,而且相關性越高,它就會被排在越靠前的位置。

排序的奧秘

要探究搜索引擎背后的奧秘,那就需要了解搜索結果的網頁排序方法。觀察“科學不倒問”的搜索結果,直觀上說,將“《中學科技》雜志科學不倒問欄目”排在第一的排序應是合理的,因為相比于其他網頁,此網頁與“科學不倒問”這個主題的相關程度更高,而網頁的排序也在一定程度上反映出在此關鍵詞下此網頁的“受歡迎程度”。

網頁的“受歡迎程度”通??梢杂镁W頁的訪問量來衡量,它和網頁的訪問量成正比。但依據訪問量對網頁進行排序也會存在一些現實的問題。訪問量雖能體現網頁的“受歡迎程度”,但卻并不能體現網頁的“權威性”,例如許多低俗網頁便有較高的訪問量。此外,依據訪問量排序還易受到“刷流量”的惡意誤導。更為重要的是,網頁的訪問量是動態變化的,如要及時更新排序,代價也非常巨大。因此,要解決網頁排序中所遇到的問題就要充分挖掘網頁的特征,確定評價網頁“權威性”和“受歡迎程度”的綜合指標。

網頁特征包含網頁的內容(圖片及文字等)以及其中指向其他網頁地址的超鏈接。一個網頁越“重要”,理論上就應該會有越多的用戶瀏覽。網頁間的超鏈接結構能夠影響用戶的瀏覽行為,因此,可以依據各網頁之間的超鏈接關系來確定各網頁的綜合瀏覽量,并由此對網頁進行排序。

巧妙的循環分配

如右上圖,假定一個用戶U正在瀏覽網頁A,A含有兩個超鏈接(藍色橫線表示),分別指向網頁B和C,那么U在瀏覽完A后,可能會沿著超鏈接繼續瀏覽B或C,由此B或C的“重要性”便可以由A的“重要性”來體現。依據同樣的原理,B的“重要性”便可由指向B的所有網頁的“重要性”之和來表示。

與此同時,處于整個網絡之中的B對其他網頁也是有影響的,例如網頁B中包含指向網頁C的鏈接,即C也影響指向B的網頁A的“重要性”,由此便會陷入一個兩難的境地:要想知道網頁B的“重要性”,就必須知道指向它的所有的網頁(A和C)的“重要性”之和;而要想知道所有這些網頁的“重要性”之和,又需要先知道對其有影響的網頁B的“重要性”。這便讓人困惑了,猶如陷入了“先有雞還是先有蛋”的怪圈。

為了打破這個循環,谷歌的創始人佩奇和布林提出了PageRank算法來衡量網頁的重要性程度。他們首先給所有的網頁設置了相同的“初始得分”,然后依據網頁間的超鏈接結構不斷運行,經過一系列的迭代計算之后,得到終止狀態下的“網頁得分”,由此便可依據“得分”確定網頁的排列順序。得益于在網頁排序算法上的創新,谷歌在短短數年間橫掃整個互聯網,成為搜索引擎業的一代霸主。

依據網頁排序算法,我們可以確定網頁A和C的得分較B高。仔細分析三者的關系,這樣的結果的確也是合理的。網頁A和B中都包含指向網頁C的超鏈接,這說明網頁C的“重要性”較高;與此同時,網頁C中也包含指向網頁A的超鏈接,網頁C從側面反映了網頁A的“重要性”,因此網頁A的得分也較高。

谷歌的網頁排序算法對網頁排序的過程僅僅是對簡單思維的巧妙運用,它將網頁排序變成了一個簡單的數學問題,也使互聯網擺脫了依據網頁訪問量進行排序的種種弊端。

猜你喜歡
訪問量搜索引擎指向
科學備考新指向——不等式選講篇
把準方向盤 握緊指向燈 走好創新路
高職院校圖書館電子資源中數據庫的使用情況分析
如何做好搜索引擎優化(SEO)提高新聞網站訪問量
如何做好搜索引擎優化(SEO)提高新聞網站訪問量
一所大學有40人被確診為抑郁癥
網絡搜索引擎亟待規范
Nutch搜索引擎在網絡輿情管控中的應用
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合