?

突破俄語搜索引擎蜘蛛檢索封鎖的研究

2016-02-22 11:53陳龍仁
科技視界 2016年4期
關鍵詞:俄語搜索引擎蜘蛛

陳龍仁

【摘 要】“突破俄語搜索引擎蜘蛛檢索封鎖”對國內企業有更多的機會將產品銷售到獨聯體的各個國家和地區,有非常重要的歷史意義。本文結合中俄兩種文化文字的互譯技術,設計符合中國企業習慣的搜索引擎系統,重點分析了“蜘蛛”和“目錄搜索”的核心技術,面對主要技術障礙,提出了系統平臺解決方案。

【關鍵詞】搜索;引擎;蜘蛛;俄語

0 引言

為加強中國企業在獨聯體市場當中的競爭力,增加其產品的附加值。加強對獨聯體各國的信息渠道建設,加大開放本國的國門,建設此“突破俄語搜索引擎蜘蛛檢索封鎖”具有非常重要的歷史意義。

1 俄語系引擎分析

目前,電子商務由于缺乏編碼方案來解決中俄這兩種不同語言體系的協調問題,一直以來,在計算機語言中標識困難,導致中國的商品基本上通過歐美、日、韓等國家轉銷至俄語世界,原因是中國用戶不能通過搜索引擎,直接通往俄語國家的信息交流通道[1]。UTF-8 編碼接軌較早。為了通過網絡技術,給中俄企業溝通、交流、發布及獲取信息提供直接的渠道,雙方需要有設計全新的編碼模型方案解決中俄這兩種不同語言體系在計算機語言中表示的問題,首要解決的,就是搜索引擎的標準問題。

俄語Yandex成立于1997年,提供搜索引擎、主題分類目錄、免費郵件系統、新聞、反垃圾系統、虛擬主機、百科全書、詞典、比較購物系統等服務,同樣有競價和合作聯盟。對于能利用文獻進行研究的學者來說,這些Yandex資源所提供的電子資源中的文獻,研究者可以利用其中的俄文文獻進行相關研究,利用Yandex本身提供的資源進行互證;另一方而還可以利用文獻進行佐證。按照Yandex的技術風格和運作習慣,不能更有利于中國企業參與當地的市場競爭。如何讓俄語詞性變化,更加適應中國用戶,需要開發一種新的搜索引擎系統,任務是十分急迫的。

中文和俄語分別是世界上最復雜的語言之一,中文的特點在于獨特的文字形式,詞與詞之間沒有明顯的分隔;而俄語最大的特點就是單詞形式多變,詞多義現象非常普遍,這些特點使得查詢搜索異常困難,但同時也正是因為百度與Yandex都很好地把握了本土語言的特點,保證了搜索的高效性和結果的微準確性[2]。

2 搜索引擎設計

中俄文搜索引擎,要收集因特網上幾千萬到幾十億個中俄文字網頁,并對網頁中的每一個詞(即關鍵詞)進行索引,建立索引數據庫的全文搜索引擎,不能適應中文用戶的習慣。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來,根據預定的優選規則,排列相應的名次。

百度與Yandex搜索引擎都屬于本土化搜索引擎,而Yandex同時兼有門戶網站的功能。兩者有一個很明顯的共同點,就是它們都充分體現出本土化語言特點,比較符合本土用戶的搜索習慣。在該搜索引擎的后臺模塊中,收集的信息一般是能表明網站內容(包括網頁本身、網頁的URL地址、構成網頁的代碼以及進出網頁的連接)的關鍵詞或者短語,俄方服務器沒有中文字庫,需在俄方服務器設備中嵌入中俄兩國的標準字符庫,從而避免在境外使用出現的文字亂碼現象[3],索引存放到數據庫中。

本項目搜索引擎的系統架構和運行方式吸收了信息檢索系統設計中許多有價值的經驗,也針對萬維網數據和用戶的特點進行了許多修改[4],其核心的文檔處理和查詢處理過程與傳統信息檢索系統的運行原理基本類似,但其所處理的數據對象即萬維網數據的繁雜特性決定了搜索引擎系統必須進行系統結構的調整,以適應處理數據和用戶查詢的需要。中俄雙方頁面在異域的運行速度非常慢,為實現雙方文字在應用終端準確、實時的顯現,中俄雙方專家擬采用架設鏡像服務器(Mirror server)的方式,完成主服務器數據定時備份至鏡像服務器,從而分擔主機的負載。

2.1 信息抓取方案

搜索引擎系統設計了一個能夠在網上發現新網頁并抓文件的程序,這個程序通常稱之為“蜘蛛”。搜索蜘蛛從已知的數據頁出發,就像正常用戶的瀏覽器一樣,抓取文件,符合中俄網絡語言編碼接口軟件編制,會跟蹤鏈接,自動訪問更多的網頁(爬行)。搜索引擎蜘蛛是24小時不停頓的。跟蹤網頁鏈接是搜索引擎蜘蛛發現新網址的最基本的方法,搜索蜘蛛遇到的新網址,會被存入任務數據庫,百隊等待抓取,抓取的優先次序策略,是核心技術。

(1)深度優先策略。深度優先就是搜索引擎蜘蛛在一個頁面發現一個連接然后順著這個連接爬下去,然后在下一個頁面又發現一個連接,然后就又爬下去并且全部抓取。假如,網頁A在搜索引擎中的權威度是最高的,D網頁的權威是最低的。如果搜索引擎蜘蛛按照深度優先的策略來抓取網頁,那么就會反過來了,就是D網頁的權威度變為最高。

(2)寬度優先策略。寬度優先就是搜索引擎蜘蛛先把整個頁面的鏈接全部抓取一次,然后在抓取下一個頁面的全部鏈接。寬度優先就是大家平時所說的扁平化結構。網頁的層度不能太多,如果太多會導致收錄很難,其實就是搜索引擎蜘蛛的寬度優先策略的原因。

(3)權重優先策略

如果說寬度優先比深度優先好,其實也不是絕對的,只能說是各有各的好處。本項目搜索引擎蜘蛛是兩種抓取策略一起用,也就是深度優先+寬度優先,并且在使用這兩種策略抓取的時候,要參照這條連接的權重,如果說這條連接的權重較高,那么就采用深度優先,如果說這條連接的權重很低,那么就采用寬度優先。

(4)重訪抓取策略

昨天搜索引擎的蜘蛛來抓取的網頁,今天這個網頁又加了新的內容,那么搜索引擎蜘蛛今天優先來抓取新的內容,這就是重訪抓取。重訪抓取分為兩類:1.全部重訪:所謂全部重訪指的是蜘蛛上次抓取的鏈接,然后在這一個月的某一天,全部重新去訪問抓取一次。2.單個重訪:單個重訪一般都是針對某個頁面更新的頻率比較快比較穩定的頁面。在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁數據庫的概念。搜索引擎的自動信息搜集功能分兩種[5]。一種是定期搜索,即每隔一段時間(比如Google一般是28天,yandex 為30天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內的互聯網站進行檢索,一旦發現新的網站,它會自動提取網站的信息和網址加入自己的數據庫。另一種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在一定時間內(2天到數月不等)定期向你的網站派出“蜘蛛”程序,掃描你的網站并將有關信息存入數據庫,以備用戶查詢。由于搜索引擎索引規則發生了很大變化,主動提交網址并不保證你的網站能進入搜索引擎數據庫,因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機會找到你并自動將你的網站收錄。例如:一個頁面,1個月也不更新一次,搜索引擎蜘蛛第一天來了,是這個樣子,第二天,還是這個樣子,那么,第三天搜索引擎蜘蛛就不會來了,會隔一段時間在來一次,比如隔1個月再來一次,或者等全部重訪的時候,才更新一次。

蜘蛛在抓取網頁時往往選擇離它最近的服務器、最近的網站進行抓取、分析、收錄。在本系統中,我們在俄羅斯建立主網站,就是考慮到YANDEX 的工作原理和抓取習慣。YANDEX為俄羅斯最大的搜索引擎,成立于1997年,現在已發展成為俄羅斯使用率最高、最流行、廣告服務最專業的搜索引擎,是獨聯體及東歐地區最普及的搜索引擎。目前YANDEX在俄羅斯搜索引擎市場份額占比為67%,目前日訪問量達到5000萬人次。由于本系統俄語網站全部翻譯、設計、制作、SEO優化、關鍵詞擺放全部由俄羅斯美格公司來存儲,更適合YANDEX的抓取習慣,有利于YANDEX更快、更完速的收錄網站,從而使網站在搜索引擎中排名更靠前,打破了擎蜘蛛檢索默認技術。

2.2 索引方案

頁面文件的分解、分析,并以巨大表格的形式存入數據庫,這個過程需要合理的索引(index)技術來管理數據庫。網頁文字內容,關鍵詞出現的位置、字體、顏色、加粗、斜體等相關信息都有相應記錄。

(1)搜索詞提取。用戶在搜索引擎界面輸入關鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對搜索詞進行處理。如特有的分詞處理,去除停止詞,判斷是否需要啟動整合搜索,判斷是否有拼寫錯誤或錯別字等情況,搜索詞的處理必須十分快速[6]。

(2)排序

對搜索詞處理后,搜索引擎程序便開始工作,從索引數據庫中找出所有包含搜索詞的網頁,并且根據排名算法計算出哪些網頁應該排在前面,然后按照一定格式返回到“搜索”頁面。沒有基于搜索詞的搜索引擎優化,搜索引擎常常并不能正確的返回最相關、最權威、最有用的信息。

(3)核心數據結構

搜索引擎的核心數據結構為倒排文件(也稱倒排索引),倒排索引是指用記錄的非主屬性值(也叫副鍵)來查找記錄而組織的文件叫倒排文件,即次索引。倒排文件中包括了所有副鍵值,并列出了與之有關的所有記錄主鍵值,主要用于復雜查詢。與傳統的SQL查詢不同,在搜索引擎收集完數據的預處理階段,搜索引擎往往需要一種高效的數據結構來對外提供檢索服務。而現行最有效的數據結構就是“倒排文件”。倒排文件簡單一點可以定義為“用文檔的關鍵詞作為索引,文檔作為索引目標的一種結構(類似于普通書籍中,索引是關鍵詞,書的頁面是索引目標)。

(4)目錄索引

目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,建立中俄貿易交流雙語平臺。在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。與全文搜索引擎相比,目錄索引有許多不同之處。首先,搜索引擎屬于自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站后,目錄編輯人員會親自瀏覽你的網站,然后根據一套自定的評判標準甚至編輯人員的主觀印象,決定是否接納你的網站。如果審核通過,你網頁才會出現于搜索引擎中,否則不會顯示。搜索引擎收錄俄文網站時,只要網站本身沒有違反有關的規則,一般都能登錄成功,而目錄索引對網站的要求則高得多,有時即使登錄多次也不一定成功。

目錄索引時則必須將網站放在一個最合適的目錄。搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的,用戶擁有更多的自主權,而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。如果系統認為目標網站的目錄、網站信息不合適,可以隨時對其進行調整。按關鍵詞搜索,返回的結果根據信息關聯程度排列網站,其中人為因素要多一些。如果按分層目錄搜索,網站的排名則是由標題字母的先后順序決定。

3 總結

面向俄語市場的國際營銷服務的搜索引擎平臺將能成為一條新的網絡“絲綢之路”。中國企業界急需一個更好、更快捷的“搜索引擎”進入獨聯體國家,了解獨聯體國家日益豐富的物質需求,進入獨聯體國家的千家萬戶,打開他們的市場,擴大他們的市場,讓中國企業的品牌能夠在獨聯體國家深入人心。俄語系國家也迫切需要一個兼顧中國文化的搜索引擎,來解決國內日益飽和的生產加工能力,擴大對外貿易額度,促進本土技術進步。

實施過程中,分別委托兩國有資質的技術監測部門,利用測試工具按照中俄文本互譯方案,根據需要編寫,測試并投入使用。中俄網絡語言編碼接口軟件,填補了中俄互譯搜索技術空白,實現GB2312與UTF-8網絡語言編碼腳本的無縫隙、無差異、無時間間隔實時自動轉換。配備相應的軟件工具,并成立專門技術小組,設計和維護測試系統,妥善保存測試用例、測試計劃、測試報告和最終分析報告,以備測試及維護之用。

【參考文獻】

[1]張冬楊.俄羅斯信息技術產業現狀及發展趨勢[J].歐亞經濟,2015,02:68-82+128.

[2]顏素莉.主流中俄文搜索引擎核心技術分析與比較研究[J].計算機時代,2012, 01:3-4+7.

[3]武斌.面向俄文信息處理的機器翻譯實驗研究[D].中國人民解放軍外國語學院,2007.

[4]任俊革,劉曉坤.網絡環境下獲取期刊原文的途徑及難點解決方案[J].圖書館學刊,2010,05:55-57.

[5]王寒松.計算機俄文視窗操作系統詞語研究[D].黑龍江大學,2002.

[6]周國長,呂瑞林.俄語互聯網有關俄國史研究的資源綜述[J].俄羅斯學刊,2014,03:86-92.

[責任編輯:楊玉潔]

猜你喜歡
俄語搜索引擎蜘蛛
俄語歌曲在俄語教學中的應用策略探究
小蜘蛛凍僵了,它在哪兒呢?
基于3D虛擬情境的俄語視聽說教學
網絡搜索引擎亟待規范
大蜘蛛
Nutch搜索引擎在網絡輿情管控中的應用
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
俄語稱呼語的變遷
今日俄語:語法領域中的積極過程*——“今日俄語”系列研究之二
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合