?

淺談基于p2p網絡的搜索引擎技術

2014-10-21 20:07吳兆立
數字化用戶 2014年20期

吳兆立

【摘 要】隨著互聯網的迅速發展,網上的信息資源海量增加,在給用戶提供共享的同時也給用戶搜索、定位和獲取信息資源帶來了巨大的困難。傳統的搜索技術采用集中式架構,存在很多問題,對搜索性能產生了很大的影響。P2P作為一種新的網絡模式,具有自組織、分布式、可擴展性的特點。它的出現給搜索引擎技術的發展帶來了新的機遇。本文首先介紹課題的研究背景,闡述當前P2P搜索引擎的國內外研究現狀。然后介紹搜索引擎的發展歷史、原理以及未來的發展趨勢以及P2P技術的基本概念并分析其主要優點。最后介紹一種新的基于Chord協議的P2P網絡模型。

【關鍵詞】P2P網絡 搜索模型 Group Chord協議

隨著網絡的快速發展,網絡上的資源海量增加?;ヂ摼W的出現,開創了文類文化信息化的新時代。它向公眾開放的信息資源比世界上任何一個圖書館或任何一個信息存儲機構都要多。人類的生活、學習、工作都離不開網絡。因此,如何在這海量的信息資源之中獲取對自身有價值的信息已成為人們日益關注的問題。搜索引擎技術是一種幫助網絡用戶查詢所需信息的搜索工具,是為論文解決網上信息查詢困難的難題應用而生的,它可以有效地幫助用戶在網絡上查找到自己所需要的信息。如果說絡改變了人類的生活,那么搜索引擎正是改變人類生活的工具。

一、基于Chord協議的P2P網絡

(一)Chord的拓撲結構

Chord將整個網絡抽象為一個環形的拓撲結構,通過一致性哈希變換(Consistent Hashing),通常使用哈希函數SHA-1,給每一個節點和文檔都賦予一個m位的標識符key,節點的標識符是通過對節點的IP地址進行哈希變換得到的,文檔的標識符是通過對文檔的內容進行哈希變換得到的①。標識符的長度m應該足夠大,使得Chord環能夠容納最大可能的參與節點數,并且使得任意兩個節點或者文檔經過哈希變換后得到相同標識符的概率可以忽略不計。Chord網絡中所有的節點根據標識符從小到大的順序以順時針的方向構成一個邏輯環形的拓撲結構,文檔保存在后繼節點上。后繼節點(Successor)是節點標識符大于或者等于當前節點標識符的最小的一個節點,形象說后繼節點就是邏輯環中順時針方向第一個跟著當前節點的實際存在的節點;前置節點(Predecessor)與后繼節點正相反,是邏輯環中逆時針方向第一個跟著當前節點的實際存在的節點,方便節點逆時針方向的查找,節點m的后繼節點和前置節點分別記為Successor(m)和Predecessor(m)。

(二)Chord的資源搜索機制

在Chord網絡中,簡單的資源搜索機制是每個節點只需要保存其后繼節點的信息,這樣查詢消息就可以沿著Chord環以順時針的方向一步一跳的傳遞,直到找到匹配的節點②。這種通過節點的鄰接關系進行消息順序傳遞的方法雖然簡單可行,但是效率非常低,網絡中的兩個節點為了找到對方很可能將消息繞環傳遞一周。為了提高查詢效率,減少定位開銷,網絡中的每個節點保存一個具有n個表項的Finger表(Finger Table,鄰居表),這樣網絡中的每個節點只需要維護自身Finger表中的小部分節點,無需掌握網絡中其他節點的信息,就可以通過節點之間的通信,找到任一節點。

二、新的P2P網絡模型的基本思想

Chord通過把網絡虛擬成環形的拓撲結構,完成了信息的快速搜索,提高了查詢效率,但是存在以下兩方面的問題:

(1)以Chord為代表的結構化P2P網絡在構建網絡的時候沒有考慮節點的實際物理拓撲結構,都忽視了覆蓋網絡與底層網絡的差異,這樣將會導致在實際網絡中相距很近的兩個節點通過函數映射在覆蓋網絡上卻相距很遠,而在覆蓋網絡中距離很遠的節點卻可能成為實際網絡中的臨近節點,即Chord網絡的繞路(Detouring)問題。這樣的底層網絡與覆蓋網絡的不一致,將致使覆蓋網絡上的兩個臨近節點理論上看似距離很近,但實際上要想找到對方卻要經過很長的路徑,使得基于這種覆蓋網絡所做的評測的不可靠;相反實際距離很近的兩個節點,因為被映射到了覆蓋網絡上距離很遠的位置,卻要在網絡中白白的繞一圈才能找到對方,致使走了大量重復路徑,增加網絡流量,浪費帶寬。

(2)目前的非結構化P2P網絡已經充分的考慮了節點性能(包括計算能力、存儲能力、網絡帶寬等性能)的差異,但是傳統的結構化P2P網絡尚沒有考慮這一點,不加區分的賦予網絡中的所有節點以同一的責任,這將造成高性能的節點沒有充分發揮其能力的空間,而相對性能較差的節點卻擔負著無法負擔的責任,嚴重影響了網絡的穩定性和搜索信息的速度。

三、新模型的體系結構

模型與Chord網絡不同的是,它改變了Chord協議的單一環形空間的拓撲結構,而引入了分層分布式的模型結構。整個網絡是由多個Chord環彼此互連構成的,每個Chord環是根據節點的實際物理地址劃分的,是相對獨立的,Chord環中的節點依然按照Chord協議的規則組成結構化的P2P網絡,而每個Chord環之間則是以完全分布式的方式連接的。

四、新模型介紹

新模型繼承了Chord網絡在可擴展性和魯棒性等方面的優點,同時考慮了節點的實際物理地址和節點性能的差異,它是一個將網絡中的節點按照實際物理地址的鄰近性劃分群組的分層分布式結構的網絡模型。網絡中實際鄰近的節點在覆蓋網絡模型中也相距很近,使得網絡拓撲和實際物理地址相對一致。

五、結論

P2P技術在網絡應用領域顯示出很強的技術優勢,最近幾年的迅速發展,受到廣泛、關注。由于網絡用戶以及網絡資源的增加,C/S模式下的網絡對服務器要求很高,越來越難提供滿意的服務性能。P2P技術的分散特性⑤與因特網的協議和結構完全相適應,具有極強的適應性和網絡服務能力。因此,設計高效的搜索機制,快速而準確地找到所需要的資源,才能使P2P網絡得以廣泛應用。本文在分析了現有P2P搜索方法的優缺點基礎上介紹了一種搜索模型,該模型能夠以很小的開銷獲得很高的性能。

參考文獻:

[1]毛薇,姚青,李濤.基于P2P的高效搜索引擎的研究[J].武漢理工大學學報(信息與管理工程版),2002,24(4):43.

[2]呂建明,劉悅,丁林,等.P2P與信息檢索[J].信息技術快報,2005,(2).

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合