?

大語言模型技術賦能高校圖書館智慧服務探討

2023-12-31 16:43徐國蘭朱和立郭鳳嬌
關鍵詞:知識庫智慧圖書館

徐國蘭,朱和立,郭鳳嬌

(1.山東理工大學圖書館,山東 淄博 255000;2.齊魯師范學院圖書館,山東 濟南 250200;3.山東理工大學信息管理研究院,山東 淄博 255000)

引言

在信息爆炸式增長時代,高校圖書館的傳統服務方式已經無法滿足高校師生日益增長的信息需求。 近年來,基于人工智能的對話系統、智能推薦等技術在圖書館領域逐步落地,人工智能的發展促使人們對智慧圖書館服務寄予更高要求和期待。 2022 年11 月30 日,美國OpenAI 公司推出了一款基于人工智能的自然語言交互模型——ChatGPT,它能夠理解上下文語句含義、支持多種語言、提供個性化服務,為用戶提供高質量的信息檢索、智能問答、個性化推薦等服務,可以廣泛地應用于各行業,提高用戶的生活、工作效率。 2023 年2 月7 日,微軟發布采用了ChatGPT 技術的新版Bing 搜索引擎。 此后,人工智能界以“天”為維度推出新技術、新產品。 3月14 日,OpenAI 推出GPT-4,成為目前最強的生成式AI 產品;3 月16 日,百度正式發布“文心一言”;4 月,阿里“通義千問”問世;5 月,谷歌發布其最新的大語言模型PaLM2,同時宣布接入Chrome 瀏覽器,等等。 各種大語言模型產品相繼推出,被應用于各行各業。 以GPT-4 為代表的大語言模型技術創新為高校圖書館的信息服務帶來新的契機。 通過研究大語言模型技術在高校圖書館智慧服務中的應用,可以挖掘這一技術在知識獲取、信息咨詢、個性化推薦等服務中的有效性和潛力,為高校圖書館實現個性化服務、提高工作效率、提升圖書館用戶滿意度提供實踐參考。 這也將有助于推動圖書館領域智慧服務的改革與創新,提升其在教育領域的現代化水平。

新一輪的人工智能革命已經引起了圖書館界的密切關注,美國職業圖書館網站[1]、我國圖林網上社區圖人堂[2]就ChatGPT 對圖書館的影響開展了相關討論。 大語言模型技術對智慧圖書館影響的研究也陸續開展。 段薈等人通過訪談信息資源管理領域科研人員對ChatGPT 的態度與認知,發現科研人員對ChatGPT 技術理念和價值有著積極的態度和較高的認可度,并從數據管理、人工智能素養、信息資源管理學科體系等方面提出應對策略,以消除ChatGPT 為代表的人工智能生成技術帶來的負面影響[3]。 張智雄等人通過對ChatGPT 核心技術創新態勢的分析,從圖書館管理、檢索、推薦、問答等方面探索智慧圖書館的應用[4]。 張曉林提出應利用Chat-GPT 技術重塑感知型知識服務能力,構建決策性知識服務能力,以及以知識服務支持AI 賦能科學研究[5]。 郭亞軍等人從內容生產方式角度分析了ChatGPT 在語言翻譯、場景轉移、信息傳播和任務處理四個方面的應用,并構建了圖書館服務應用場景框架圖[6]。 宋小康等人則重點分析了AI 賦能的替代信息搜索的內涵和特征,基于社會技術系統范式從技術、信息、用戶和社會文化四個層面探討構建了AI 賦能的替代信息搜索理論框架[7]。 趙楊等人以武漢大學圖書館機器人智能問答服務為實證對象,應用注意力機制和LSTM 算法構建了多模態情感分析模型,用以揭示影響用戶情感體驗的關鍵因素,為圖書館智能服務的情感化設計和優化提供依據[8]。 潘家芳構建了人機智能協同的圖書館精準服務模型,通過機器與專家的協同決策形成問題確定、服務映射、服務實施、效果檢驗閉環來實現圖書館精準服務[9]。

當前,圖書情報界關于大語言模型技術對智慧圖書館的影響和應用研究還處于初步探索階段,且主要集中在以ChatGPT 為代表的相關技術給智慧圖書館帶來的挑戰與啟示的探討,尚缺乏對大語言模型技術在智慧圖書館的應用場景的系統研究。 鑒于此,本文以GPT-4 為例,分析大語言模型技術的關鍵技術,對大語言模型技術在知識庫構建、信息檢索、個性化推薦、科研支持等服務方面的運用進行深入探討,以為我國高校圖書館發展智慧服務提供相關支持和借鑒。

一、大語言模型的關鍵技術

GPT-4 是基于Transformer 結構的強大的自然語言處理(NLP)模型,通過自回歸訓練方法進行預訓練,是一種用于NLP 模型的預訓練方法,能夠使模型在各種NLP 任務上都有出色的表現。 本文則以GPT-4(Generative Pre-trained Transformer 4)為例說明大語言模型所依賴的關鍵技術。

(一)Transformer 架構

GPT-4 使用Transformer 架構作為基礎模型[10]。 通過計算不同語義之間的關聯度來生成具有最高概率的語義反饋。 Transformer 采用多頭注意力進行快速并行計算,其最大的優勢是可以捕捉輸入序列中遠距離依賴關系。 由于消除了循環神經網絡(RNN)或長短時記憶網絡(LSTM)中的循環序列操作,使其并行性和訓練速度有了大幅度提高。 多頭自注意力機制模塊是Transformer 的核心組件,多頭機制不是只計算一次注意力,而是并行運行縮放點積注意力算法。 隨著Transformer 技術的不斷發展,Transformer 還被應用在計算機視覺領域,形成了Vision Transformer(ViT)技術。

(二)自回歸訓練方法

GPT-4 模型采用自回歸訓練方法進行預訓練,通過捕捉和建模序列數據中的依賴關系來預測下一個詞。 與掩碼語言模型(MLM)略有不同,自回歸訓練更關注文本中詞之間的順序依賴性。 自回歸訓練方法在NLP 領域具有較廣泛應用。 模型的基本假設是每個詞的出現都受到之前詞的影響。 因此,通過學習文本序列中的依賴關系,自回歸模型可以更好地捕捉句子中的連貫性、語法結構以及語義信息。 GPT-4 采用自回歸訓練方法進行預訓練,使其在各種NLP 任務上具有很高的泛化能力。

(三)并行處理與硬件資源優化

以GPT 系列為例,每一代模型在網絡規模、計算能力、Transformer 層數和參數數量上都有所提高,使得能夠處理更為復雜的文本序列,提升性能和泛化能力。 為提高計算效率,GPT-4 以并行方式處理大規模數據集,并且對硬件資源(如GPU、TPU 等)進行優化。 這使得模型能夠在處理海量文本數據和復雜任務時保持高速性能。

二、以GPT-4 為代表的大語言模型技術對高校圖書館服務工作的影響

傳統圖書館服務在提供的服務內容和服務方式上較為有限,并且在服務手段上主要依賴人工服務和一些輔助性的自動化設備。 人工智能和大語言模型技術的發展應用對高校圖書館服務內容和方式都產生了很大影響。 大語言模型技術是自然語言處理領域的一種新技術,使用大規模語料庫進行訓練,能夠幫助圖書館實現智慧化服務,使圖書館服務從信息到知識、從被動到互動、從單一到多元逐漸推進。 圖書館服務變得更加便捷高效、個性化和多樣化,從而實現高校圖書館服務的轉型和創新。

(一)服務內容

圖書館服務的技術從Web1.0 到Web2.0,逐步向Web3.0 發展,目前處在Web2.0 和Web3.0之間的發展狀態。 圖書館服務從單向傳播式到雙向交互式,逐漸向用戶參與式擴展的趨勢發展,推動圖書館發展為用戶互動、分享并參與建設的智慧圖書館。 在圖書館服務技術的發展過程中,圖書館資源也從由專業從業人員創作、編輯、發行的紙質文獻、音頻、視頻等內容,發展到由網絡資源創作與組織方式產生的數字資源。目前正逐步發展到由人工智能生成的多樣化資源,這時候圖書館資源不僅有數字資源,還包括數字藏品、3D 立體模型等[11]。 GPT-4 人機交互的出現加速了這一演化進程。 GPT-4 類大語言模型具有顛覆性的多源多模態信息聚合和生成能力,能夠覆蓋海量知識資源和具備全域數據融合和推理能力的信息源,推動了信息資源建設。此外,ChatGPT 類大模型還提供了強大的數據關聯、任務解決和內容生成能力,推動了人類生成內容和AI 生成內容共生的新型信息環境的形成[12]。

(二)服務方式

技術的變革使得圖書館的服務方式也在不斷改變,從傳統圖書館以“資源”為中心,進化為依托Web2.0 技術的“用戶”服務,在Web3.0 時代,圖書館的服務模式是以用戶、資源、空間三元融合交互的智慧化服務。 大語言模型技術有助于圖書館服務方式的集成化。 傳統圖書館的借閱模式是讀者需要來到圖書館內,才能借閱到需要的書籍或資料。 而大語言模型技術的出現,無須實體館藏,讀者只需要在網上輸入需要查詢的內容,大語言模型就可以通過自然語言理解、知識圖譜等多種技術,為讀者提供需要的答案或相關資料。 傳統圖書館通過圖書分類、目錄等方式為讀者提供信息服務,而大語言模型技術的應用,使得圖書館的信息更加直觀,易于理解。GPT-4 技術還可以通過對讀者的行為、興趣等方面的分析,提供個性化的信息服務。 例如通過分析讀者的借閱歷史,大語言模型可以向讀者推薦他們可能感興趣的書籍或資料。 而傳統圖書館則難以實現這種個性化推薦,因為它們無法跟蹤讀者的閱讀習慣和興趣。 另外,傳統圖書館只提供圖書借閱及查閱服務,難以引導讀者進入到一個開放式的學習環境,而大語言模型技術通過提供互動式、智能化的學習環境,可以促進讀者之間的交流、共享,提高學習效率。

以GPT-4 為代表的大語言模型技術的出現為傳統圖書館工作提供了新思路和方法,可以更加全面、高效地為讀者提供信息服務,同時也能促進圖書館及相關服務的數字化轉型。

三、基于大語言模型技術構建高校圖書館智慧服務系統

《國際圖聯趨勢報告2021 新進展》提出,年輕一代圖書館用戶希望得到最新技術和服務,如果圖書館無法滿足他們的期望,那他們很有可能會棄之而去其他類型的資源[13]。 因此,提高圖書館服務的智慧化程度是留住圖書館用戶的必要選擇。 大語言模型技術與高校圖書館的智慧服務具有很高的契合度,我們可以利用大語言模型技術構建高校圖書館智慧服務系統,促進圖書館的服務轉型,運用自然語言處理和深度學習算法,為用戶提供高效、準確的智慧化服務。 我們構建的高校圖書館智慧服務系統框架如圖1所示。

圖1 基于大語言模型技術的高校圖書館智慧服務系統

(一)知識庫實時更新系統

圖書館資源是圖書館提供服務的物質基礎,知識庫是智慧圖書館的重要組成部分。 基于大語言模型技術構建出實時更新的知識庫可以對資源內容進行有效組織和管理,形成完善的知識結構,實現智慧化、個性化的用戶檢索需求。

1.知識庫構建

知識庫的構建需要通過數據采集、整合、元數據標注和構建知識圖譜等流程來完成。 圖書、期刊、論文、報告、會議記錄、多媒體等信息資源是構建知識庫的基礎。 這些資源既可以從圖書館自身館藏獲取,也可以通過與其他圖書館、數據庫、出版商合作采集。 將采集到的信息資源進行整合,消除重復內容,形成完整的知識體系。還可以引入外部引用和鏈接,實現信息資源之間的關聯。 根據行業數據標準和分類體系(如MARC、Dublin Core、SKOS 等)對信息資源進行詳細描述、分類和標注。 為每個資源分配唯一的標識符,記錄資源的作者、出版時間、主題等元數據信息。 通過機器學習和自然語言處理技術構建知識圖譜,實現概念、事實、實體之間的關系挖掘和表達,幫助用戶快速了解某一主題的基本知識結構,提高檢索效率;同時,知識庫需具備社交互動功能,通過為用戶提供在線討論、評論、問答等社交互動功能,促進知識庫內容的傳播和分享,使知識庫不斷豐富和完善。

2.知識庫實時更新

大語言模型技術可以實現知識庫的實時更新與擴展,確保用戶能夠查詢到最新資源,及時滿足讀者不斷變化的知識需求。 系統實時準確挖掘與高校圖書館相關的各類數據源,包括圖書、期刊、論文、行業動態、網絡資源等,這些數據源是知識更新和擴展的基礎。 從各類數據源中提取的資料需要經過清洗、去重、分詞等預處理,再通過自然語言處理技術提取關鍵詞、主題、分類等信息,便于后續的分析和知識融合。 完成對新收集數據的處理和分析后,將其與原有的圖書館知識庫進行融合。 系統需要找出新舊知識之間的聯系,避免冗余,并及時更新原有知識庫。大語言模型需要通過持續學習的方式,自動獲取和駕馭新知識,包括對新數據進行訓練,不斷調整和優化模型,以便更好地理解新知識和處理用戶請求,同時還要收集用戶反饋,幫助優化模型效果。

(二)聊天式檢索系統

信息檢索是圖書館的關鍵服務之一。 傳統的關鍵詞搜索對于某些用戶可能太過復雜或不直觀,而且篩選分析海量的檢索結果對于用戶來說也是一件費時費力的事情。 大語言模型本身是一個知識庫和搜索引擎的結合體,將GPT-4技術融合進圖書館檢索系統,通過對圖書館知識庫系統的資源進行檢索,自動生成檢索結果。 檢索系統支持用戶自然語言檢索、多模態檢索,以對話聊天框形式呈現。 檢索系統以上文圖1 所構建的實時更新知識庫為基礎,為大語言模型預訓練提供所需要語料集,保證圖書館檢索系統提供檢索服務的專業性、真實性和時效性。

相較于傳統檢索系統,聊天式檢索系統能理解自然語言輸入。 當用戶以自然語言進行查詢時,大語言模型使用NLP 技術對輸入內容進行分析,捕捉關鍵詞、實體、概念和關系,然后將識別到的關鍵信息與知識庫進行匹配,檢索出與之相關的資源,進而根據一定的標準(如資源的相關度、熱門程度、引用次數等)對搜索結果進行排序。 最終,大語言模型將從檢索結果中提取關鍵數據,以自然語言生成(NLG)技術向用戶呈現一段友好的回復。 在聊天式檢索方式下,用戶無須具備專業背景知識,只需用自然語言描述需求,便可快速、準確地獲得所需信息。 這不僅提高了檢索效率和準確率,也極大改善了用戶的檢索體驗。

(三)個性化推薦系統

以用戶為中心提供精準個性化服務內容,將是圖書館強化知識服務主體地位的有效途徑,以用戶為中心也是智慧圖書館的發展理念[11]。 基于對用戶的歷史借閱記錄、研究領域和興趣愛好,大語言模型可以幫助提供個性化的資源推薦,確保用戶能獲取最相關的圖書、期刊、論文等相關信息。

大語言模型通過用戶畫像構建、資源元數據分析、推薦算法、生成推薦列表、展示推薦結果及評估反饋等流程實現高校圖書館智慧服務的個性化推薦功能。 首先,大語言模型通過分析用戶的借閱歷史、搜索記錄、在線行為等數據,為每個用戶創建一個詳細的畫像,包括興趣愛好、專業領域、閱讀習慣等信息。 其次,大語言模型對圖書館資源進行元數據分析,為每個資源分配相應的標簽、分類和關鍵詞,以此幫助系統更準確地找到與用戶畫像匹配的資源內容。 最后,大語言模型根據用戶畫像和資源元數據分析的結果,利用推薦算法匹配用戶興趣點和相關資源。 推薦算法可以采用協同過濾、矩陣分解等算法,或綜合多種算法形成混合推薦。 根據推薦算法的結果,生成個性化的推薦資源清單,并將推薦資源以清單或摘要的形式展示給用戶;同時,收集用戶對推薦結果的反饋(如點擊、收藏、評分等),用以不斷優化算法和提高推薦精度。

個性化推薦有助于引導用戶發現與其需求、興趣相符的資源,提高閱讀和學習效率;同時,這種推薦方式還能增加圖書館資源的使用率,讓更多優質資源得到充分利用。

(四)知識服務系統

圖書館的“智慧”不能僅局限于技術的智慧,而應將重心放在提供智慧化的“知識服務”[14]。 大語言模型基于Transformer,通過生成式預訓練,具有語言生成能力,能夠遵循提示詞生成補全提示詞的句子;上下文學習能力,能夠遵循給定任務的示例,為新的測試用例生成解決方案;世界知識獲取能力[15]。 利用這些能力,GPT-4 技術能在學術研究過程中,尤其是在文獻整理與篩選、跨學科資源整合、研究趨勢分析與預測、編寫輔助等文獻處理方面,發揮重要的科研輔助作用,可以將科研人員從海量文獻中解放出來,提高研究者的工作效率和研究能力,促進研究領域不斷發展與創新。

1.文獻檢索與篩選。 大語言模型可以根據研究人員的關鍵詞、主題或問題,從圖書館知識庫中檢索出相關文獻,包括圖書、期刊論文、會議論文等。 還能根據摘要或全文內容對文獻進行評估,篩選出最相關的資源,包含最新研究論文、頂級會議收錄論文等并提交給研究人員。

2.跨學科資源整合。 GPT-4 可以實現跨學科資源的整合,幫助研究者發掘不同學科之間的潛在聯系,激發創新思路。 例如研究人員想通過計算機模擬技術預測蛋白質結構,大語言模型可以從計算機科學、生物學等多個領域推薦合適的資源,輔助研究者整合不同學科的信息。

3.研究趨勢分析與預測。 大語言模型可以從大量文獻資料中分析某一領域的研究現狀、趨勢以及未來發展方向,以幫助研究者了解研究熱點并作出有針對性的研究計劃。

4.編寫輔助。 大語言模型可以通過語言生成能力為研究者在論文寫作階段提供支持,比如生成摘要、參考文獻格式化、論文潤色等,提高研究者的工作效率。

(五)智能閱讀輔助系統

GPT-4 類大語言模型技術可以應用在智能化的閱讀輔助上,它可以自動將文獻內容進行提煉和總結,生成摘要或者關鍵詞標簽,幫助用戶更快地理解文獻內容;同時,大語言模型技術可以利用自然語言生成技術,將摘要內容進行自然語言轉換,讓讀者有一種面對書本的暢快感,縮短閱讀時間,同時提高理解程度。

(六)智能問答系統

大語言模型可用于創建智能問答系統,教師、學生和其他用戶通過問答系統能夠快速獲取關于圖書館資源、服務、設施或規章制度的信息。大語言模型利用自然語言處理來理解問題,并與內部知識庫或數據庫進行匹配,以實現智能問答服務。 這種服務能夠有效地解決高校圖書館中常見的問題,包括但不限于圖書館設施、借閱規定、活動安排等各種信息。 通過智能問答系統,用戶可以即時獲取所需信息,大大提高咨詢效率;同時,這也降低了圖書館工作人員的負擔,讓他們能夠更好地專注于其他需要專業處理的任務。

目前國內已有圖書館把大語言模型應用于智慧問答。 2023 年5 月28 日,廣州越秀圖書館AI 機器人亮相,這是全國首款基于大語言模型的圖書館AI 機器人,該機器人可為讀者提供AI寫詩、詩詞問題解答等服務[16]。

四、結語

以GPT-4 為代表的大語言模型技術通過自然語言理解和生成,為高校圖書館智慧服務提供技術支持,將大語言模型技術應用在圖書館的各個環節,可以讓用戶獲得更加智能化、個性化的服務,提升用戶和圖書館交流互動的體驗,提高圖書館服務質量和服務效率。

今后我們會繼續探索基于GPT-4 類大語言模型的尋求問答機制,將大語言模型技術與創新的硬件設備相結合,進一步提升高校圖書館智慧服務水平;同時圖書館應在大語言模型技術的推廣和應用中加強對人機交互、隱私保護、數據安全等方面的關注和探索。 在未來,隨著大語言模型技術的不斷發展和拓展,大語言模型的對話交互能力,自動問答機器人的智能化程度將會不斷提高,其在高校圖書館智慧服務中的應用也將不斷創新和完善。

猜你喜歡
知識庫智慧圖書館
基于TRIZ與知識庫的創新模型構建及在注塑機設計中的應用
圖書館
高速公路信息系統維護知識庫的建立和應用
基于Drupal發布學者知識庫關聯數據的研究
有智慧的羊
去圖書館
智慧派
位置與方向測試題
智慧決定成敗
智慧往前沖,統計百分百(1)
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合