面向高校圖書館的智慧搜索模式研究

2024-01-12 04:39趙航康麗娟

微型電腦應用 2023年12期

趙航, 康麗娟

(1. 西安工程大學, 圖書館, 陜西, 西安 710048; 2. 西安職業技術學院,現代商學院, 陜西, 西安 710077)

0 引言

隨著時代發展,人們對計算機技術的應用擴展到生活的方方面面,圖書館資源管理的方式也在發生轉變,從傳統的紙質媒介資源圖書管理到線上的電子圖書館,之后到了現在的智慧圖書館。信息化技術的發展,使得信息數據成為優勢導向資源,科學數據是維持社會穩定和支持科學技術及經濟發展的重要資源。為了獲取高利益的科學數據,諸如知網、萬方、ResearchGate等資源建設平臺不斷改進、發展智慧化搜索模式以提高用戶占比,獲取更大市場效益[1]。在這樣復雜的信息技術環境下,圖書館為了應對各行各業的跨界挑戰不被邊緣化,探索電子圖書館和智慧圖書館建設模式。智慧圖書館是指把智能技術運用到圖書館建設中而形成的一種智能化建筑,是智能建筑與高度自動化管理的數字圖書館的有機結合和創新。智慧圖書館是一個不受空間限制的、能夠被切實感知的一種概念。其通過使用云計算、智慧化等技術,對傳統圖書館進行改造,使其能夠為讀者提供更貼心的服務[2-3]。智慧圖書館發展的一個重要方面便是搜索模式的智能化。隨著信息化圖書資源及智慧圖書館用戶的持續增長,高效能的檢索模式對于用戶目標資源導航及訪問重點數據庫變得愈加重要。其中,高校因其以科學研究作為主要目的,圖書館需要對科學研究進行全面且智能化的管理。為了滿足多元化、個性化的用戶需求,高校圖書館開始探索動態化、智能化、全面化的智慧搜索模式?；诖?本文為了優化高校圖書館檢索服務體驗,提高高校圖書館競爭力,借助大數據對高校圖書館智慧搜索模式建設進行探索。

1 高校圖書館智能搜索模式設計

1.1 以移動視覺搜索為主要檢索方法的高校圖書館智能系統構建

圖書館智能化搜索服務模式構成要素包括提供服務的主體、內容、目標對象、設施和環境[4-5]。在高校圖書館中,智慧搜索服務的服務主體為各高校圖書館單位,即單位內部館員和相關部門;服務的目標對象為圖書館資源的使用者,除了校內師生,還有其他經學校認證的校外人員;服務內容因圖書館資源及目標而有所變化,是高校圖書館為滿足多樣化用戶需求所具備的圖書智慧檢索服務和延伸服務;環境則包括客觀存在的物理環境和社會環境,包括智能化搜索環境、管理人員服務環境、資金環境和學校及政府的文件支持環境;智慧搜索服務的服務設施主要為圖書館資源大數據管理平臺和構建智慧搜索服務所需要的相關技術。通過對各大高校建設的智慧搜索服務五大要素進行分析可知,智慧搜索服務除了包含其主要的服務本體,即基于大數據構建的圖書館資源智能搜索平臺,還包含延伸的圖書館藏資源智慧推薦、智慧互動和基于用戶需求的智慧引導服務。本文以適用于圖書館資源搜索的大數據搜索模式為主要研究對象,構建的高校圖書館智慧搜索模式如圖1所示。

圖1 高校圖書館智慧搜索模式

為了追求更高效的高校圖書館智慧搜索模式和滿足服務對象的個性化搜索需求,本文在傳統的基于文本分析的圖書館藏資源大數據檢索模式上進行創新,設計了基于移動視覺搜索的高校圖書館搜索模式?？紤]到用戶對圖書館資源搜索的便攜性及靈活性需求,高校圖書館智慧搜索系統提供多樣化的服務媒介,包括圖書館內檢索、圖書館門戶網站檢索、手機移動圖書館軟件檢索、微信公眾號及微信小程序檢索方法。除了作為主要功能的智慧搜索功能,智慧圖書館搜索系統還提供基于用戶數據庫進行行為分析和信息分析的推薦服務及互動服務。移動視覺搜索(MVS)可根據用戶提供的多樣化信息進行識別,不僅可以用于以圖片進行視覺化圖像檢索,還可實現對多種內容的搜索,包括文本、視頻、地圖、三維模型、圖像等,其構建流程包括圖像識別、描述提取、匹配數據和返回結果[6]。高校圖書館移動視覺搜索系統構建見圖2。

圖2 高校圖書館移動視覺搜索系統

用戶發送圖像及檢索需求到圖書館藏資源檢索系統,移動視覺搜索系統對用戶需求進行特征提取,并建立用戶需求庫,通過使用視覺對象匹配技術將用戶需求視覺特征與館藏文獻進行匹配,匹配成功后,構建相應的檢索內容列表,將匹配結果分類返回給用戶。館藏資源知識庫中存儲著圖書館內的書籍及圖像的電子資源和引導文本,同時還包含關聯數據庫中的電子資源。根據用戶不同類型的搜尋需求,高校圖書館移動視覺搜索系統可提供不同的檢索內容。首先為了滿足用戶對資源的全面性和完整性需求,移動視覺搜索系統適配不同的智能移動端,可對多平臺進行跨平臺檢索,以提供全面的檢索資源。其次為了滿足用戶個性化需求,利用云數據計算技術為用戶提供針對化和獨立的檢索推薦服務。根據用戶偏好提高搜索準確率和全面性,同時還可與移動端口連接,方便用戶及時獲取各項服務。

1.2 移動視覺目標搜尋算法構建

本文為設計出能夠對圖書館多種形式館藏資源進行搜尋的資源搜尋系統,使用YOLOv5(You Only Look Once第五代)作為基線網絡,相較于傳統移動視覺搜尋算法,其加入更多提升精度和速度的技巧,從而取得精度與速度的平衡[7-8]。本文選用YOLO系列中較為輕量化的YOLOv5作為圖書館藏資源檢索系統的基礎網絡,其結構見圖3。

圖3 YOLOv5網絡

如圖3所示,YOLOv5主要分為輸入端、主干網絡、頸部網絡和頭部網絡。輸入端輸入的數據進入Focus對圖片進行切片處理,將圖片中的像素值每隔一個值進行抽取,將1張圖片切分為4張圖片,從而做到提高感受野,減少圖片信息丟失。以上數據經過卷積操作后進入CSP層。CSP層避免了傳統深度學習模型梯度信息丟失和網絡計算消耗大的問題,并有效提高了卷積神經網絡學習能力。YOLOv5的CSP結構是將原始輸入分為2個分支進行卷積運算,將通道數減半,然后在1個分支上進行Bottleneck×N運算,再將2個分支并聯,使Bottleneck CSP的輸入和輸出大小相同。CBL層封裝了3個模塊,分別是BN、Convolution層以及Leaky ReLu激活函數。BN是YOLO系列獨創單元。CSP1結構主要應用于Backbone中,CSP2結構主要應用于Neck中。CSP2x表示在Neck Network中使用的CSP模塊。它與在Backbone Network中使用的CSP模塊的主要區別在于使用了2X個CBL模塊代替了殘差模塊。此后,通過再一次卷積進入Neck Network結構。大多數納入神經網絡模型的注意力機制都能提供一些性能上的提升,但它們在輕量級網絡中并不像在大型網絡模型中那樣有效。因此,本文將使用能夠在輕量化網絡特征信息提取性能上表現優異,且計算量級小的坐標注意力機制(CA),其具體結構見圖4。

圖4 注意力機制結構

如圖4所示,坐標注意力機制可看作增強移動網絡特征表達能力的計算單元,使用坐標信息嵌入和協調注意力生成2個模塊來編碼通道和長距離關系。首先對輸入特征數據的每個二維圖像進行平均操作,利用全局池化模塊,建立二維坐標軸,沿著X和Y方向聚合成相對獨立的平面感知特征圖示[9-10]。之后根據空間構成原理,在三維上進行投射,進行卷積操作以整合特征圖。最后,通過使用具有歸一化權重的Sigmoid函數的加權乘法,將2個注意力權重應用于輸入數據中,以強化算法對目標區域的重視。將坐標注意力機制引入YOLOv5時,首先將坐標注意力機制嵌入到YOLOv5的主干網絡中,通過對已有研究的調查可知,在基線網絡中,底層的特征提取通道數量最多,使得其能夠對與目標無關的信息進行有效加工,對提取結果造成影響,可能會降低對算法識別的準確性,所以在最后一層加入了坐標通道關注模塊,試圖讓檢測算法能夠關注與當前任務相關的特征信息。

2 基于移動視覺搜索的高校圖書館智能系統性能測試

本文構建圖書館智慧搜索系統,以圖書館智能搜索服務構成要素為基礎,通過融合注意力機制的YOLOv5算法,進行用戶需求視覺特征與館藏文獻資源的匹配,并提供延伸服務。因此評估系統的性能測試中,先對融合注意力機制改進后的YOLOv5算法進行訓練,使用某高校圖書館藏數據集進行測試。該數據集包括圖書封面的圖像和文字標注,對模型進行訓練后得出α-CloU損失函數曲線定位損失曲線,分類損失曲線和置信度損失曲線如圖5所示。

(a) 分類損失曲線

圖5為YOLOv5模型訓練過程中的損失函數統計分析結果。在訓練過程中,未出現過異常情況,在模型訓練到第100輪次時,所有的損失函數曲線都趨向于穩定。從圖5可以看出:定位損失和置信度損失逐步穩定在0.002和0.028;分類損失逐步穩定在0.017。在此基礎上,為提高系統對目標區域特征的識別精度,在基線網絡模型中加入能夠同時考慮通道間關系以及長距離的位置信息,且具有輕量化特點的坐標注意力機制進行調整。訓練之前,先將超參數batch size設置成16,共訓練100個epoch。從開始訓練到訓練結束,使用warm-up原則,也就是從0開始學習3個 epoch。選擇帶有動量的隨機梯度下降法(Random Gradient Descent)作為優化器。該方法的優點是在很小的空間內計算梯度的平方,所以不需要存儲梯度。在全部訓練圖片開啟馬賽克數據增強后,關閉mixup數據增強。加入坐標注意力機制的網絡模型訓練結果損失函數曲線如圖6所示。

(a) 分類損失曲線

圖6(a)、圖6(b)、圖6(c)分別表示融合注意力機制改進后的YOLOv5算法的分類損失曲線、定位損失曲線、置信度損失曲線。模型在訓練過程表現與預期相符,各損失函數曲線皆隨著epoch增加逐步達到穩定態,在前20個epoch損失下降得較快,之后穩定緩慢下降,直到達到穩定態。最終定位損失和分類損失的穩定態結果在0.001 18左右,置信度損失則最終穩定在0.028左右。為了驗證坐標注意力機制對YOLOv5測算精度提高的有效性,分別將通道注意力(SE)、卷積注意力(CBAM)和坐標注意力機制加入YOLOv5算法中,訓練模型并進行比較。SE通道注意力機制加入的位置與坐標注意力機制一樣,因CBAM注意力機制有優秀的空間信息提取能力則用來替代卷積層執行空間特征信息提取任務。為了達到輕量化和高精度的目標,使用CBAM注意力模塊替換YOLOv5模型第五層的卷積層。同時選取普通YOLOv5模型作為比較,4種模型準確度比較曲線如圖7所示。

(a) YOLOv5

圖7(a)、圖7(b)、圖7(c)、圖7(d)分別為基線網絡模型YOLOv5、YOLOv5+SE、YOLOv5+CBAM、YOLOv5+CA的測試結果。從圖7可以看出,4種網絡模型整體趨勢相似,皆在0～1的置信區間快速上升后逐漸趨于穩定。進一步對圖7(a)和圖7(b)分析可知,2個模型的所有類別都在置信度為0.946時,準確率可以近似為1.0,但是插入SE的YOLOv5模型對others類別,相較于YOLOv5基線模型的準確度曲線更為平滑,效度更高。對圖7(c)與圖7(d)比較可知,插入CA的YOLOv5模型對書、3D模型和藝術字類別識別正確的置信度更高,在0.4的置信度時就有良好的準確率表現。對準確率曲線進行橫向對比可知,融合坐標注意力機制的YOLOv5網絡模型在圖書識別上性能更優。融合坐標注意力機制YOLOv5網絡模型旨在高精度地對圖書館藏資源進行移動視覺搜索且占用較小的運行內存,以方便其可以搭載在圖書館的多功能計算機中,并通過多種媒介為用戶提供服務,為了驗證融合坐標注意力機制YOLOv5網絡模型相較于主流模型有更好的識別精度、計算時間的平衡及更小的內存占比,對其進行多次比較實驗,結果見表1。

表1 多網絡性能比較實驗

如表1所示,其清晰地體現了6種移動視覺搜索算法的檢測精度、運行時間和內存占比比較。從表1可以看出,相較于其他YOLO網絡,YOLOv5網絡計算精度更高,運行時間也更長,但內存占比最小,僅為0.9%。而YOLOv5+CA算法沿襲了YOLOv5網絡在內存占比上的優點,以較小的內存實現了最高的計算精度,運行時間相較于YOLOv5網絡有所降低。其識別精度為0.904,運行時間為42.5 ms,內存占比為1.2%,有較好的性能表現,可以適配于圖書館中的數據智能檢索服務。

3 結論

為了應對圖書館多元化的用戶需求,優化高校圖書館檢索服務體驗和增強高校圖書館競爭力,本文借助大數據深度學習模型,使用移動視覺搜索技術對高校圖書館智慧搜索模式建設進行探索,構建了融合注意力機制的YOLOv5算法的高校圖書館智慧搜索服務。性能測試結果表明,模型訓練在前20個epoch損失下降得較快,之后穩定緩慢下降,直到達到穩定態。最終定位損失和分類損失的穩定態結果在0.001 18左右,置信度損失則最終穩定在0.028左右?；€網絡模型YOLOv5、YOLOv5+SE、YOLOv5+CBAM、YOLOv5+CA比較測試結果表明,插入CA的YOLOv5模型對書、3D模型和藝術字類別識別正確的置信度更高,在0.4的置信度時就有良好的準確率表現。YOLOv5+CA識別精度為0.904,運行時間為42.5 ms,內存占比為1.2%,有較好的性能表現。實驗結果表明,本文提出的YOLOv5+CA搜索算法有較好的計算效能和較小的內存占用,可以適配于圖書館中的數據智能檢索服務。