?

基于SQL的教育資源數據庫索引自動推薦模型

2022-11-28 09:28秦慧娟
自動化技術與應用 2022年10期
關鍵詞:文檔網頁檢索

秦慧娟

(上海第二工業大學附屬浦東振華外經職業技術學校,上海 200120)

1 引言

當前大多數教育資源網支持基于關鍵字的檢索,但是實際上,用戶有時只能模糊地描述查詢口號,而且輸入的關鍵字也不能和數據采集時存儲的數據完全一致[1]。因此,研究面向教育資源數據庫的索引推薦方法具有十分重要的意義。

為此,大量研究學者提出了教育資源推薦方法。其中,基于模糊匹配原理的推薦模型,需要支持關鍵字的模糊匹配,才能檢索到類似用戶輸入的資源信息。雖然該方法能夠獲得大量優質的教學資源,但該過程缺少有效的管理體系和工具,使資源的檢索與利用成為制約資源效益發揮的瓶頸。而且在基于模糊匹配原理推薦模型中,每個關鍵字的查詢結果集是通過查找每個集合的交集得到的,盡管在一定程度上可以支持模糊匹配,但數據推薦模型的召回率較低。當進行多個關鍵字查詢時,每一個關鍵字的查詢結果都要進行查詢,增加了查詢延遲時間和網絡通信?;诔⒎襟w原理的多關鍵字查詢模型,當實現多關鍵字檢索時,請求發起節點與根節點之間的路徑長度不一定小于搜索范圍內其他節點之間的路徑長度,存在推薦準確率較低的問題。除此之外,還有學者提出了面向關系數據庫的智能索引調優方法,采用機器學習方法建立索引量化模型,運用該模型對索引的查詢結果進行估計。采用最優索引選擇算法選取滿足約束條件的最優索引組合。實驗結果表明,該方法能夠在不同場景下對數據進行優化索引,但是推薦準確率較低[2-4]。

針對當前教育資源數據庫索引推薦方法存在的問題,提出了基于SQL 的教育資源數據庫索引自動推薦模型。該模型在滿足系統可擴展性和用戶請求響應速度的同時,能在較短的時間內向用戶返回更多的信息。

2 自動推薦模型體系結構

搜索引擎帶來的大量冗余信息浪費了使用者大量的時間,同時由于信息量巨大,也給軟件開發者查找相關信息增加了許多不便[5]。為了更好地利用現有教學資源,滿足人們對信息檢索的需求,迫切需要一個智能化的基礎教育搜索引擎。圖1顯示了系統的結構,主要由采集器、控制器、教學資源庫、索引器、搜索器以及用戶界面等部分組成。

2.1 索引器

利用網絡爬蟲技術原理在網絡中抓取所有網頁[6-7],具體是指從網站的某一頁(通常為首頁)開始,閱讀網頁的內容,查找網頁中的其他鏈接地址,然后發現下一頁通過這些鏈接地址進入,這個循環將持續到該站點的所有頁面被爬取。索引器的功能主要是獲取教學資料的信息,從中提取索引項,用它們來表示文檔,生成索引表。對搜索引擎而言,選擇索引關鍵詞是一個更為核心的問題[8]。索引詞在搜索引擎中被選擇時,雖然檢索時需要的存儲量較小,但每個索引詞出現的頻率較高。因為未注冊的單詞很多,所以很明顯不適合將它們引入索引詞匯表。所以,用統計的方法過濾未注冊的單詞。

統計學詞匯獲取是一種識別未注冊詞匯的方法,在大型語料庫中,有一定表達能力的詞往往不會孤立出現,而是有一定的統計規律。采用統計學的方法,利用詞匯間的共現信息,自動獲得詞匯。從形式上講,一個詞是一個穩定的組合,因此,在上下文中相鄰的詞同時出現的次數越多,就越有可能構成一個詞。所以,詞與詞結合的頻率或可能性更能反映出構詞的可靠性。在語料庫中計算相鄰共現符的組合頻率,計算它們的互現信息,從而確定兩個漢字之間的互現信息,計算它們相鄰的共現概率。

如果漢字組合的密閉性超出了某一閾值,就可以認為這個短語構成了一個詞,分析網頁和分詞之后,需要使用倒索引技術來索引分詞,包括正向索引和反向索引,見圖2。

如圖2所示,在分析Web頁面之后,得到一個用頁碼作為主鍵的向前索引表。建立反向指標,要加速重組過程,整個過程必須在記憶中完成,在數據量很大的時候,有足夠的內存以確保創建過程一次性完成,在增加數據量后,可采用先分組后合并的策略。指數模塊的策略是將指數分成k組,這取決于計算機系統的內存大小,因此每組操作所需的內存小于系統能夠提供的最大內存。采用倒排索引生成算法生成了k組的倒排索引,合并k組索引,將相同索引項對應的數據合并到一起,最后得到以該索引項作為主鍵的倒排文件索引,即反向索引。

2.2 控制器

控制器著重解決整體效率和質量問題。所謂效率,就是用盡可能少的資源、計算機設備、網絡帶寬和時間來收集預定的網頁。值得注意的一點是:即使用計算機收集網頁,也要注意并行開發和利用。在安排使用多臺計算機組成集群的同時,共享導出網絡帶寬。隨著設備數量的增加,該網絡帶寬域很快成為環境的瓶頸。另外,不要讓收集器啟動的爬行過程只專注于少數站點。若過于注重某些網站的收集活動,或在短時間內從某個網站上抓取過多的網頁,則可能導致所謂的質量問題。網頁爬行器不能過于頻繁地抓取網頁,從而影響網站用戶的正常訪問。因為一定時間內收集到的網頁數量有限,所以盡量多搜索重要的網頁,不要錯過那些非常重要的網頁。識別網頁是進行結構挖掘的關鍵,盡可能多地使用主頁,然后對主頁進行首輪搜索,可以提高總體搜索效率。

2.3 用戶接口

用戶接口的功能是輸入用戶查詢信息,顯示查詢結果,并為用戶提供相關反饋機制。其主要目標是方便用戶使用搜索引擎,并通過各種途徑獲得高效、及時的信息,從而提高效率。用戶接口的設計與實現采用人機交互的理論與方法,完全符合人類的思維習慣,通過智能搜索引擎的用戶界面,用戶可以用自然語言提交查詢請求,系統會根據用戶的需要對分詞系統進行分解,得到需要查詢的詞。使用者輸入界面可分為簡單界面和復雜界面,一個簡單的界面提供了一個供用戶輸入查詢字符串的文本框,而一個復雜的界面則允許用戶限制查詢條件,如邏輯運算、相似度、域名范圍、位置、信息顯示時間、長度等。

3 推薦流程設計

3.1 基于SQL教育資源數據索引庫構建

在查詢系統中建立數據索引數據庫的過程包括以下主要部分:用戶給出查詢要求的條件,索引系統根據查詢要求檢索與查詢要求相關的文檔子集,獲取的文檔基于與查詢條件是否相關以及相關性進行排序,排序后的文檔最終返回給用戶。圖3顯示了一個基于SQL基礎資源的數據索引數據庫。

在圖3所示的索引庫支持下,確定影響索引的因素,查詢關鍵詞、連接操作字段、值域中值的個數;值域中值的概率分布、字段更新頻率、索引維護代價、數據庫插入刪除操作頻率?;谶@些影響因素,確定在字段上建立索引,由此完成數據庫索引的構建。

3.2 文檔查詢與處理

創建索引前,文檔統計組件需要匯總和記錄與文字特征對應的統計數據,然后利用這些數據計算文檔得分。根據排序算法和檢索模型確定用戶希望獲取的數據。圖4顯示了具體的文檔查詢與處理流程。

(1) 分析查詢以及文檔

將查詢的分析和處理與文檔的處理步驟相對應,即將查詢中的單詞轉換為與處理文檔文本時生成單詞相同的形式,否則,排序時就會出錯。文本分析主要包括詞法分析,即對文本內容所包含的語素信息、詞匯信息和短語信息進行識別,文件分析的結果是文件對應的結構和相關內容的表示;

(2) 去除停用詞

停用詞是一些高頻詞,或者是文本信息,比如在文檔文件中使用的介詞。這兩個功能詞對句子結構有幫助,有助于描述文章中的主題,去掉這兩個詞,既可以減小索引的大小,又能夠減少相應的內存空間占用,還可以提高索引的速度和效果;

(3) 提取詞干

在檢索過程中,詞干提取能使信息檢索與相關語義匹配。若一詞有形變,或源自多種形式,則可將其簡化為同一詞干。

3.3 推薦模型構建

為節省空間,應盡可能使用最小整數數據。一個tinyint數據只占用一個字節,一個int數據占用四個字節,也許這并沒有太大的不同,但在更大的表中,字節數增長得非???。另一方面,一旦創建了一個字段,修改它是非常困難的。所以,為安全起見,應該預測可能需要存儲字段的最大值,然后選擇合適的數據類型。圖5中顯示了基于SQL的查詢語言結構。

要對存儲在字段中的數據進行更好地控制,可以使用數值表示數字的整數部分和小數部分,并據此建立了推薦模型。

設樣本集為X={x1,x2,…,xn},需要估計參數為α,由此確定隱含變量,似然函數公式為:

式(1)中,L(α)表示參數α相對于樣本集X的似然函數;n表示樣本數量;p 表示隱含變量;i表示數據類型。參數α的數學表達式為:

采用對數求和方法對似然函數進行轉化,由此得到對數似然函數表達式:

根據對數似然函數表達式得到自動推薦模型:

式(4)中:Ra表示所需教育資源推薦結果;T表示所需樣本集合,該值越高,自動推薦結果越精準,由此完成數據庫索引自動推薦。

4 實驗

在Intel(R) Core(TM) CPU 226 GHz CPU環境下對基于SQL的教育資源數據庫索引自動推薦模型進行實驗驗證分析。

4.1 實驗數據集

在CitelLike 論文資源網站上,用戶可以自由提交論文,同時添加自定義標簽,方便其他用戶瀏覽和查詢。在該平臺上共收集7800533 篇論文,以用戶行為數據為基礎,進行實驗分析,平臺數據集如表1所示。

表1 CitelLike實驗數據集說明

4.2 實驗指標

評價推薦結果指標分別為準確率和召回率,在實際推薦方法中,選取不同推薦列表長度,使用基于模糊匹配原理推薦模型、基于超立方體原理推薦模型和基于SQL推薦模型統計一組準確率和召回率,通過分析準確率曲線和召回率曲線,比較三種模型推薦效果。

設用戶集合為U,對于U個用戶推薦方法得到的推薦資源集合為Q(U),用戶實際索引行為資源集合為W(U),由此計算準確率(Precision)和召回率(Recall):

4.3 實驗結果與分析

4.3.1 準確率

推薦準確率決定了推薦效果,分別使用基于模糊匹配原理推薦模型、基于超立方體原理推薦模型和基于SQL推薦模型計算推薦準確率,對比結果如圖6所示。

由圖6可知:使用基于模糊匹配原理推薦模型推薦準確率在查詢次數為30次時,達到最高為63%,在查詢次數為90次時,達到最低為21%;使用基于超立方體原理推薦模型推薦準確率在查詢次數為10次時,達到最高為69%,在查詢次數為90次時,達到最低為32%;使用基于SQL推薦模型推薦準確率在查詢次數為10 次時,達到最高為95%,在查詢次數為90次時,達到最低為86%。通過上述分析結果可知,使用基于SQL推薦模型推薦準確率較高。

4.3.2 召回率

分別使用三種模型分析召回率,對比結果如表2所示。

表2 三種模型推薦召回率對比分析

由表2可知,使用模糊匹配原理推薦模型召回率最高為0.64,基于超立方體原理推薦模型召回率最高為0.61,基于SQL 推薦模型召回率最高為0.95。由此可知,使用基于SQL推薦模型召回率較高。

5 結束語

建立了基于SQL的教育資源數據庫索引自動推薦模型,實現教育資源的自動推薦,方便了教育資源的檢索。將教育資源數據庫的檢索引入到SQL教育資源查詢過程中,能對查詢結果進行有效的反饋和檢索。

該模型雖然實現了教育資源信息檢索的功能,提供了相應的工具,但是隨著學習對象元數據內容包裝系統的開發和教育資源信息工作的規范化,教育資源元數據信息檢索在基于SQL的基礎上不斷擴展和深化。在發展過程中,也暴露出一些不足之處,需要加以改進:只考慮純文本信息的元數據片段,搜索內容,從用戶的角度來看,總是希望找到與用戶所尋找的內容更一致的最大可能性。元數據片段中所有數據類型基于內容的信息檢索技術應得到改進和實現,而不應僅僅基于純文本資源。

猜你喜歡
文檔網頁檢索
淺談Matlab與Word文檔的應用接口
有人一聲不吭向你扔了個文檔
基于HTML5與CSS3的網頁設計技術研究
CNKI檢索模式結合關鍵詞選取在檢索中的應用探討
瑞典專利數據庫的檢索技巧
2019年第4-6期便捷檢索目錄
基于HTML5靜態網頁設計
英國知識產權局商標數據庫信息檢索
搜索引擎怎樣對網頁排序
Word文檔 高效分合有高招
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合