?

基于Lucene的Flash網絡檢索研究

2015-03-11 00:54仇亞東宋麗芳
中國教育技術裝備 2015年2期

仇亞東++宋麗芳

摘 要 垂直搜索引擎作為人們日常工作和學習獲取信息資源的重要工具而存在。隨著資源信息的急劇膨脹,垂直搜索引擎暴露出很多問題。提供真正智能化的根據用戶興趣而進行資源信息搜索的思路,并通過一個Flash垂直搜索引擎進行測試和實驗,完善論文所得出的結論。

關鍵詞 Flash;垂直搜索引擎;用戶行為分析

中圖分類號:TP393.09 文獻標識碼:B

文章編號:1671-489X(2015)02-0041-03

在當今社會,網絡上包含了各種各樣的網絡資源,如文本、圖片、音樂、視頻、Flash等。Flash資源雖然作為重要的網絡資源存在,但對它所做的研究并不多,遠不如對其他幾種資源所做的研究,而且相應的專業搜索研究也是鳳毛麟角。因此,對Flash這種資源的準確搜索的研究已成為當前業界關注的重點。

如何讓用戶的搜索結果符合用戶最想要的結果,是各大搜索引擎關注的重點,那么基于用戶行為的搜索無疑已成為智能化搜索所必備的技術要求,而基于用戶的行為分析的核心是如何了解用戶,用戶行為的含義表示,即用戶的興趣分析。那么,基于Flash的用戶興趣分析就成為智能化Flash專業搜索引擎所關注的核心。

下面就本研究展開討論,在專業Flash搜索引擎中植入用戶行為跟蹤程序,根據用戶的訪問記錄,過濾掉用戶的無效訪問,然后對用戶興趣點進行建模、歸類及修改,并指導智能化Flash專業搜索引擎做出改進。

1 相關研究概述

在有效的用戶行為數據挖掘分析的相關研究中,針對網絡用戶上網信息的采集、加工處理、過濾及分析,大多包括兩種途徑:用戶的網絡日志;網站用戶蹤跡跟蹤。

1)在網絡日志中,可獲取記錄用戶對顯示結果中的點擊次數,記錄用戶的瀏覽時長,以及回訪率、收藏率、點擊率等。

2)網站用戶蹤跡跟蹤,可獲取用戶IP、訪問時間點以及上網用戶的瀏覽操作等。

通過上述獲取的信息量,可對用戶的上網興趣進行分析得出相應模型,進而了解用戶特點,以此作為根據修改網站內容,改變網站風格,從而滿足更多用戶需求,提高網站訪問效率。

2 用戶行為分析及建模

在本文涉及的Flash搜索引擎中,搜索的基本條件有六個:名稱、關鍵詞、邏輯場景數、類別、交互性、視覺場景數。在這六個檢索條件上可對用戶行為進行跟蹤,進而了解用戶的興趣點。

用戶行為特征 對用戶上網行為進行分析,可以得出用戶上網大體有以下內容。

1)搜索關鍵詞及選擇條件:可以用數據庫技術將用戶的搜索信息存入數據庫,其中可以記錄網絡用戶的需求及興趣點,也包含相關的搜索頁面,從而對用戶進行興趣分類及建模。

2)網絡日志:可通過網絡技術,對用戶的IP、訪問點擊數、訪問瀏覽時長等進行進一步分析及過濾錯誤信息和數據,對建模數據進行整合分類。

3)除了上述顯示信息外,還可對用戶的注冊信息進行處理,結合其訪問內容、訪問特點進而對用戶的行為進行更精確的定位分類分析。

通過上述分析,相比于傳統的搜索引擎的高匹配率,面向用戶特性的個性化智能搜索引擎更符合用戶需求及特點,從而受到更多關注度與使用率。為了能更好地闡述用戶興趣在搜索引擎的使用中的重要性,文中將著重分析其實現過程。

用戶興趣建模 首先,對用戶行為的記錄結果進行除雜過濾,包含對存入用戶行為數據庫中的沒有進行搜索的用戶進行刪除處理,對有效數據進行統計處理,處理結果包含用戶IP、用戶職業、用戶搜索條件、用戶輸入內容、用戶訪問頻率。對每個用戶用數組fre:{IP、職業、搜索條件、搜索信息、訪問數}來表示。然后對訪問統計數據進行建模,如圖1所示。從圖1可清楚地看出,當用戶進行資源檢索的時候,首先進行用戶興趣模式匹配,對適合用戶的條件進行提取,并將這些條件加入當前檢索條件中,從而把符合上述兩種條件的搜索結果返回給用戶,一方面滿足用戶當前的搜索條件,另一方面滿足用戶的個性特征。

3 項目實現

技術特點 文中使用的技術是成熟的搜索技術Lucene,

它是一個基于Java的全文信息檢索包,但不是一個完整的搜索應用功能。目前Lucene是Apache Jakarta中的一個開源項目,也是目前最為流行的基于Java的開源全文檢索工具包,有以下幾個特點。

1)索引文件格式獨立于應用平臺。Lucene定義了一套以8位字節為基礎的索引文件格式,使得兼容系統或者不同平臺的應用能夠共享建立的索引文件。

2)在傳統全文檢索引擎倒排索引的基礎上,實現分塊索引,能夠針對新的文件建立小文件索引,提升索引速度。然后通過與原有索引的合并,達到優化的目的。

3)設計了獨立于語言和文件格式的文本分析接口,索引器通過接受Token流完成索引文件的創立,用戶擴展新的語言和文件格式,只需要實現文本分析的接口。

4)已經默認實現一套強大的查詢引擎,用戶無需自己編寫代碼即可使系統獲得強大的查詢能力。Lucene的查詢實現中默認實現了布爾操作、模糊查詢、分組查詢等。

項目實現

1)技術模塊的實現。

①在本實例中,首先根據數據庫中存放的Flash信息數據表的內容,在服務器端創建索引文件,創建索引的流程圖如圖2所示。創建好索引文件之后,搜索資源內容以倒排文檔的形式存在索引文件中,提高資源的搜索速度。

②接著用戶可以在網站中輸入搜索的內容,這時利用Ajax技術將搜索的內容自動檢索,搜索資源的系統流程圖如圖3所示。

2)用戶興趣模塊的實現。這里將介紹如何實現將用戶興趣特性添加入搜索條件的功能。如用戶A,職業是教師,曾對類別為課件項、復雜度為復雜交互感興趣,從而將用戶A的搜索條件{課件,復雜交互}添加到A的用戶興趣模式中。當用戶A再次訪問時,網站將“課件”“復雜交互”的權值提高,從而使其內容較前顯示給用戶。下面是具體實現過程。endprint

①增加用戶搜索信息入庫??捎涗浻脩舻脑L問信息,將用于跟蹤用戶和統計用戶行為特證,包括用戶IP、用戶職業、用戶搜索條件、用戶輸入內容、用戶訪問頻率。每個用戶都有自己維護的記錄,用來統計用戶的興趣相關度和用戶權值計算。

②用戶信息匹配與提取用戶信息,實現提取功能,注意進行用戶興趣改變度的計算和誤差方差的計量。

③建立資源搜索,通過用戶的信息興趣建模得出用戶興趣向量,結合此次用戶訪問數據的相關性計量,最后得出搜索結果的排序方案,最終顯示給用戶的將是用戶最希望得出的結果。

4 結論和未來工作

網絡用戶行為包含豐富的內容和信息,需要進行全方位的研究分析。文中只是涉及了基礎信息,對大數據的有效性和實用性還有待驗證和提高,比如用戶的點擊率、用戶的訪問時長也需要科學的研究和分析。這里應用了機器學習、數據庫技術、搜索引擎Lucene等相關知識,實現了基本的大數據個性化搜索引擎,通過實驗驗證了搜索有效性,完善個人興趣和搜索相關的基本內容。未來工作還很艱巨,如用戶行為有效性分析,用戶數據可靠性分析,以及價值型研究和網站合理性的評價性研究等。

參考文獻

[1]張騫.傳統搜索引擎與智能搜索引擎比較研究[D].鄭州:鄭州大學,2012.

[2]張興華.智能搜索引擎的機理、實現技術及發展趨勢[J].現代情報,2003(12):66-68,70.

[3]劉崇學.基于智能搜索引擎的數字圖書館個性化服務研究[J].現代情報,2006(11):16-18.

[4]閆翔,陳遠.中文智能搜索引擎現狀探析[J].情報科學,2002(12):1326-1328.

[5]張帆,林建.智能搜索引擎信息過濾機制研究[J].圖書與情報,2007(4):52-56.

[6]付志超.基于Map/Reduce的分布式智能搜索引擎框架研究[D].武漢:武漢理工大學,2008.

[7]韓婷.基于本體論的智能搜索引擎模型的研究[D].南寧:廣西大學,2005.

[8]陳治平.智能搜索引擎理論與應用研究[D].長沙:湖南大學,2003.

[9]樂小虬.非結構化網絡空間信息智能搜索與服務研究[D].北京:中國科學院研究生院(遙感應用研究所),2006.

[10]趙文華.基于用戶的個性化搜索引擎研究[D].北京:首都師范大學,2008.

[11]劉妮娜.Web數據挖掘和個性化搜索引擎研究[D].杭州:浙江大學,2005.

[12]袁柳,張龍波.個性化搜索中的用戶特征模型研究[J].計算機工程與應用,2011(15):19-24.

[13]王欽為.面向用戶的個性化搜索引擎算法研究與系統設計[D].廣州:華南理工大學,2012.

[14]李強.基于本體論的個性化和社會化元搜索引擎的研究[D].杭州:浙江大學,2006.endprint

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合