?

科技信息資源智能挖掘服務的探索與思考

2024-02-28 11:37田昌海吳叔義劉鵬年
信息資源管理學報 2024年1期
關鍵詞:人工智能科技資源

羅 威 田昌海 毛 彬 吳叔義 劉鵬年

(軍事科學院軍事科學信息研究中心,北京,100142)

1 引言

當前,全球科技競爭日趨激烈,以論文、專利、報告、動態等為代表的科技信息資源呈爆炸增長之勢,如何面向科技創新的實際需求,從海量科技信息資源中挖掘有價值的情報,依然是科技信息工作的重要內容。隨著人工智能技術的快速發展,應用智能技術手段,創新科技信息資源開發模式,是科技信息機構迎接挑戰機遇、創新工作模式、履行職責使命的必由之路。

2 挑戰與機遇

2.1 科技信息在競爭態勢明顯的科技活動中一直發揮著重要作用

聶榮臻元帥曾經深刻指出,“科技情報是科技工作的耳目、尖兵”。在“兩彈一星”研制時期,科技信息的搜集與服務是科技情報工作的主要內容。近年來,隨著全球科技競爭態勢加劇,像美國這樣科技高度發達的國家,也對科技信息越發重視。2017年,美國政府將科技情報納入《國家安全戰略》,指出“幾乎所有的現代武器系統都依賴源于科技情報的數據”[1],確立了科技情報在國家安全中的重要地位。2020年,美國《國防授權法》提出“要加大核心領域預警與風險防范力度”,要求“國防部搜集所有影響美人工智能研發的境內外開源信息,了解對手、有效應對”[2]。2021年,美國著名智庫戰略與國際問題研究中心的報告指出,“應將有關國外人工智能系統與科技能力、科技計劃及科技意圖的情報作為核心情報收集任務”,“收集對手的技術和應用能力,以及國外科技部門創新的可靠信息”[3]。

2.2 信息環境日趨復雜,科技信息資源搜集、挖掘與服務工作的重要性提升

2020年11月,美國著名智庫戰略與預算評估中心發布了《選擇性披露:長期競爭的戰略舉措》報告[4],對如何披露國防相關信息進行了設計,提出了散布虛假信息以迷惑對手、隱藏核心信息以確保絕對優勢等信息披露方式,同時該機構也承認“新能力的隱瞞越來越富有挑戰性,不僅需要向國外情報機構隱瞞,還要向商業組織、民間機構和軍事愛好者隱瞞”。從中我們可以看出,科技強國在國防相關科技信息的發布方面正越來越謹慎,我們搜集國外科技信息面臨的環境也越來越復雜,既非簡單的信息封鎖,也非單純的信息欺騙。在這種環境下,科技信息工作的重要性凸顯。試想如果所有的科技信息都可以方便地從國外網站或專業數據庫獲取,那科技信息從業人員就只能做“搬運工”了。正是因為科技信息環境的復雜性,才需要廣大從業者利用自身的專業素養,去廣泛搜集、深入萃取高價值科技信息資源,做到去粗取精、去偽存真,還原事物的原貌。

2.3 人工智能技術迅猛發展,為科技信息資源建設與服務提供了無限可能

當前,以大模型為代表的人工智能技術發展迅速,基本是以月為周期迭代推進。大模型在文本處理、圖像標注、代碼生成等很多方面都取得了成功應用,對相關行業發展產生了巨大影響??萍夹畔⒐ぷ鞅旧砭途邆鋽祿芗吞卣?需要開展大量的信息標注、挖掘和服務工作。應用生成式人工智能技術,不僅可通過問答方式提升科技信息服務的效果,而且可在少樣本甚至零樣本的場景下,實現信息資源的序化組織和內容揭示,大幅提升科技信息資源建設開發效能。同時,對高質量科技信息資源進行格式轉換、篩選去重等操作,可將其作為語料庫用于大模型繼續預訓練與微調,實現領域知識嵌入,提升大模型在科技領域的推理應用效果。

3 探索與實踐

近年來,筆者所在單位緊密結合使命任務,深度應用人工智能技術對科技信息資源進行價值挖掘與服務應用,取得了一些初步成效,總結起來主要包括碎片化萃取、多模態關聯、知識化積累、敏捷化服務、模型化嵌入、工具化賦能等六個方面的工作,如圖1所示。

3.1 碎片化萃取

傳統信息處理與服務的基本單元是篇,如搜索一篇報告或一篇論文,但在實際需求場景中,這樣的粒度有時顯得過于粗放,不易于制定搜索策略。比如,要搜集專家關于人工智能安全的言論,就難以通過構造檢索策略來查找相關信息,因為言論的搜索需求在以篇為單元的信息集合中很難表達。這就需要根據一些常見的信息搜集需求,對以篇為組織單位的基礎信息資源進行碎片化萃取,開發預置性數據產品。有了一批這樣的數據產品,用戶再搜集相關信息時,只需要針對特定的數據產品進行搜索即可。

碎片化萃取的關鍵是實現數據產品的設計與人機協同開發。具體來說,一要研究信息需求,確定預置性開發什么碎片化數據產品,如從每日采集的動態和報告中提取形成言論觀點、能力描述、應用場景等數據產品。二要研究信息組織方式,確定碎片化信息的標注維度及相應的標簽體系,如從技術域、作戰域、軍事行動線、裝備采辦線等維度對碎片化信息進行標注,技術域又可細分為生物技術、量子科學、先進材料、人工智能等。三要研究人機協同的開發流程,采用智能技術手段對科技信息進行挖掘標注的結果,還需要以人工方式進行質量檢查和調整優化,這樣一方面可提升數據產品質量,另一方面形成的過程數據可作為訓練樣本庫,為進一步優化智能標注的效果提供集成支撐。

我們開發了能力描述集數據產品,主要是從動態和報告中抽取表征前沿技術最新能力進展的片段信息,并從技術領域、能力項等角度進行標注,從而較為系統、深入地積累前沿技術進展情況,為開展戰略與情報研究提供高質量數據支撐。能力描述集的構建流程與效果示例如圖2所示。

圖2 能力描述集的構建流程與效果示例

3.2 多模態關聯

除了文本型信息資源以外,圖片、視音頻等多媒體信息中也蘊含大量有價值的科技情報,可形成對文本型信息資源的有效補充。對多模態信息進行挖掘與關聯分析,有助于更為全面地掃描發現情報線索并對其進行交叉驗證,是當前科技信息資源智能挖掘服務的重要任務。

多模態關聯的關鍵是做好計算機視覺等先進技術的領域適應性應用。圖像識別、語音識別、多模態大模型等相關技術發展很快,開源工具層出不窮,應該緊跟最新技術進展,圍繞科技信息業務需求開展針對性應用。一是實現序化整理,從海量科技信息中及時發現有價值的多模態信息,并對其進行元數據標注、分類、OCR識別、語音識別等加工處理。二是實現語義標注,從多模態信息中標注重點人物、裝備等實體,以及發現架構圖、場景圖、概念圖等情報線索。三是實現跨模態服務,將文本、圖片、視音頻信息映射到同一語義空間,可實現跨模態信息搜索;對不同模態信息中的相同實體進行對齊和信息匯聚,可實現跨模態情報對象關聯分析。

我們針對研討會類視頻信息跟蹤與研究需求,開發了研討會視頻信息挖掘工具,實現了演講文稿識別與還原、演講語音識別與轉寫、文本內容識別與提取等功能,并針對系列前沿科技研討會視頻進行了挖掘處理,為深入跟蹤國外前沿技術進展提供了高質量信息支撐。研討會視頻信息挖掘流程及效果示例如圖3所示。

圖3 研討會視頻信息挖掘流程及效果示例

3.3 知識化積累

科技情報研究是知識密集型活動,需要進行大量的知識交流與傳遞,因此,科技信息機構內部的知識管理非常重要。項目、機構、人員、技術、裝備等是科技情報研究的主要對象,但其信息來源分散,利用效率低。例如,要對美國DARPA的某項目進行跟蹤研究,需要通過DARPA官方網站獲取項目研究目標、研究內容等基本信息,通過預算網站獲取其經費預算及年度計劃安排的信息,通過合同網站獲取其合同簽訂情況,通過國防承包商網站獲取其最新動態,通過科技文獻數據庫獲取其研究成果信息。將相關信息進行系統性匯聚、知識化積累,可極大提高信息利用與知識傳遞效率。

知識化積累的關鍵是形成常態化、規范化業務流程,提升領域知識的覆蓋率、準確性和鮮活度。一是知識線索發現。從每日動態、報告中掃描發現高價值情報對象,作為知識化積累的輸入。二是知識協同更新。設計不同類型情報對象的知識維度及知識加工要求,組建知識加工隊伍,采用人機協同方式,從多個高質量信息源搜集匯聚關于情報對象的相關信息,并進行信息匯聚與整編工作。三是知識庫構建。圍繞不同應用需求,構建領域知識庫與知識圖譜,其中知識庫主要面向用戶共享傳遞知識,可采用百科平臺構建,知識圖譜面向計算機推理應用,從知識庫中抽取、融合形成。

我們通過不斷實踐探索與迭代優化,形成了國防科技基本情況積累流程(如圖4所示),每日常態化開展情報對象發現、信息素材搜集與匯聚、知識整編、知識審核等工作,構建了國防科技情報對象基本情況庫,目前已經積累了項目、機構、人員、技術、活動等情報對象1.6萬個,為各類用戶系統了解情報對象基本情況提供了高質量知識支撐。

圖4 國防科技基本情況積累流程及效果示意

3.4 敏捷化服務

科技信息工作中經常會遇到一些時間要求緊、質量要求高的應急性研究任務,一般需要對熱點事件或用戶指定主題進行快速信息匯聚、挖掘分析與推送服務。為了做好此類工作,需要形成科技信息敏捷化服務能力。具體來說,在開展常態化信息跟蹤與匯聚過程中,預置性開展多維度標注;在執行應急性研究任務時,使用多維度標簽精準框選相關信息,當預置性標簽不能滿足挖掘分析需求時,快速開展信息標注和挖掘分析等工作,以提升響應速度與成果質量。

敏捷化服務的關鍵是實現信息資源的按需標注和挖掘分析能力。一是快速開展問題解耦,即從各渠道應急性研究任務實踐中梳理常見的任務類型,總結凝練研究問題解耦方法與信息挖掘流程。二是快速標注篩選信息,即搭建訓練樣本標注平臺,開發信息分類、要素抽取等通用標注模型,構建模型訓練、測試、部署、調優的工程環境,使得針對新的信息挖掘需求,可快速標注訓練樣本、開發標注模型、部署應用接口,支撐人機協同的信息快速標注和篩選。三是快速實現信息服務,即采用信息分析圖表、地理信息系統、專題服務門戶等方式,快速整合多來源、多粒度專題信息資源,面向用戶提供高質量信息服務。

我們設計了敏捷化專題信息服務流程,開發了信息敏捷標注與可視化展示系列工具,在系列專題研究中發揮了較好的支撐作用。以前沿技術布局事件挖掘為例,開展了知識架構設計、訓練樣本快速標注、事件細粒度分類、事件要素抽取與歸一、人機協同的數據構建、可視化頁面開發等工作,如圖5所示。

圖5 前沿技術布局事件挖掘流程圖

3.5 模型化嵌入

大模型訓練過程本質上是一種信息壓縮,即將海量高質量信息壓縮成神經網絡的參數,實現推理能力的躍升??萍夹畔①Y源規模巨大、類型多樣,具備應用大模型的天然優勢。將海量高質量科技信息資源作為基礎語料用于大模型的預訓練,再圍繞序化組織、挖掘分析、智能服務等需求構建問答數據集,對大模型進行微調,可形成科技信息領域大模型,對科技信息資源的建設、開發與服務全鏈條進行業務賦能。

模型化嵌入的關鍵問題是圍繞業務需求實現高質量領域大模型訓練與應用。一是解決信息時效性問題??萍夹畔⒎盏臅r效性要求高,僅采用訓練的方式將信息注入大模型顯然不能滿足時效性要求,一般可采用外掛信息庫的方式實現大模型能力與信息搜索能力的集成,這就要提升對用戶提問的理解能力和科技信息搜索的精準度。二是減輕幻覺問題。大模型有的時候會“一本正經”地“胡說八道”,目前這個問題不能完全根除,但可以通過提高訓練樣本質量、外掛信息庫、開展幻覺檢測等方式,減輕幻覺發生的頻率、降低產生的影響。三是提升解決復雜問題的能力。有的科技信息需求比較復雜,無法通過一個提問表達清楚,需要分解成若干小的問題逐個提問,再對答案進行綜合,這就需要分析常見的復雜問題樣式,構造解耦模板庫,并提升大模型的融合生成能力。

我們圍繞賦能科研創新的需求,依托在科技信息資源建設、業務場景需求理解、領域大數據技術研發等方面的長期積累,開展了領域大模型研發與應用工作,探索了科技信息資源服務的新范式,基本思路如圖6所示。

圖6 領域大模型研發與應用思路

3.6 工具化賦能

科技信息資源服務的目標是響應用戶的多樣化信息需求。在實際服務過程中,只依靠傳統的信息檢索與推薦服務方式,經常不能滿足用戶的個性化、精準化信息需求,這就需要采用軟件與信息相組合的方式優化服務效果。由于業務場景的復雜性,開發大系統往往成本高、周期長、風險大。面向特定的業務環節開發系列小工具進行賦能,并根據應用情況不斷迭代優化,往往能夠事半功倍。也就是說,信息資源服務不再是信息本身的服務,還包括針對用戶共性需求、通過挖掘信息價值形成的系列工具應用。

工具化賦能的關鍵是實現信息、技術與業務需求的有效融合。一要明確賦能點,以情報研究為例,要結合技術成熟度和業務需求迫切性,梳理出哪些環節可以開展數智賦能、具體怎么賦能。由于情報研究專家往往不了解技術能干什么,技術專家也不清楚情報研究的工作模式是什么,因此需要這兩方面的人員共同探討,特別是技術專家要深入參與情報研究重點任務,主動了解需求、思謀設計。二要筑牢工具底座求,在實踐過程中,工具的數量會越來越多,要構建開放的工具底座,統一技術體制和開發要求,實現基礎數據、關鍵服務、安全認證等共享共用,這樣既可提高開發效率,又可為下步系統集成奠定基礎。三要建立迭代優化機制,工具應用需要與業務場景不斷磨合,先形成基本型,根據用戶的使用情況不斷明確業務需求,優化功能設計,再快速迭代形成新的版本,不斷優化完善。

我們圍繞賦能情報研究和戰略研究工作,對動態跟蹤、專題研究、產品整編、知識積累等業務的關鍵環節進行建模,應用人工智能技術挖掘科技信息資源價值,開發了國防科技情報研究工具箱,包括掃描監測類、線索發現類、情報整編類、目標畫像類等8大類、30余個工具,目前已在一批研究課題中發揮了重要支撐作用。國防科技情報研究工具箱設計思路如圖7所示。

圖7 國防科技情報研究工具箱設計思路

4 幾點思考

科技信息資源智能挖掘服務是對科技信息資源、人工智能技術和業務需求響應的有機融合,沒有成熟的模式可遵循,需要我們在實踐中大膽嘗試,及時總結模式規律,持續提升能力水平。

4.1 核心是打通信息萃取轉換鏈路

科技信息資源建設與開發其實是一個信息萃取轉換的過程, 打通“大數據-小數據-語料庫”的信息萃取轉換鏈路,是科技信息資源智能挖掘服務要解決的核心問題。

首先,要將分散的信息匯聚成科技信息大數據。這是傳統信息資源建設工作的主要內容,涉及對科技信息進行多來源搜集、標準化加工和體系化集成。在此過程中,人工智能技術可用于發現高價值信息源、對信息進行多維度標注、對信息集合進行關聯對齊等。

其次,要從科技信息大數據中萃取系列“小數據”。在科技信息大數據中,對特定用戶或用戶群有價值的往往是很小的一部分,如何從中進行高效信息萃取、開發數據產品,是當前科技信息資源開發需要解決的首要問題。需要緊貼用戶需求進行數據產品設計,應用人工智能技術,人機協同開展數據產品增值開發,形成多樣化、多層次特色數據產品體系。

再次,要針對領域大模型構建與應用開發科技信息語料庫。作為語料注入大模型或作為大模型外掛信息庫,是未來科技信息資源發揮作用的重要形式。要兼顧傳統信息資源服務和語料開發需求,建立一體化的科技信息資源加工作業流程,實現科技信息語料的按需轉換,即從信息資源池中轉換形成基礎語料,從數據產品中轉換形成微調語料,實現高質量、多樣化語料的持續、穩定供給。

4.2 難點是形成人機協同的信息增值開發模式

開展科技信息資源智能挖掘服務,人工智能技術的應用必不可少,但我們也要看到在很多業務場景中,人工智能技術的成熟度與應用效果還不能達到要求,必須人機協同開展相關工作。

首先,要充分利用人工智能技術最新成果。在應用過程中,要注重技術的適用性、可靠性和先進性。其中,適用性為第一原則,要求我們對業務需求和具體人工智能技術有深入的理解;可靠性則要求我們實際測試技術應用的效果,確保能真正地提能增效。

其次,要注重發揮人的作用。人工智能技術應用只是提高人的工作效率,并不能代替人,在科技信息智能挖掘服務過程中,需要由人來設計數據產品、標注訓練樣本、優化數據質量、設計大模型提示語等,對科技信息從業人員的能力素養提出了更高要求。

再次,要構建數據產品生產線。要設計人機協同的信息增值開發的業務流程,明確人做什么,機器做什么,各環節之間如何交互;要強化軟件支撐,構建平臺工具,對業務流程進行固化,對關鍵環節進行賦能;在實踐過程中要不斷磨合,對業務流程和軟件進行優化完善,形成可用、高效的數據產品生產線。

4.3 重點是設計并持續優化服務應用

科技信息資源智能挖掘服務的落腳點是服務,要求我們緊密圍繞用戶需求,設計并持續優化服務應用。

首先,要形成立體化信息服務體系。根據科技信息資源特點和用戶需求,除了做好集成海量信息資源的門戶服務、萃取信息價值的數據產品服務外,還要圍繞科技信息資源深度融入業務場景、切實開展業務賦能創新思路舉措,大膽嘗試模型、工具、接口等服務形式,發揮綜合服務效益。

其次,要形成敏捷服務能力。用戶的需求千變萬化,預置性服務形式往往不能滿足要求,因此要打造敏捷服務能力。具體來說,要形成敏捷性信息搜集與挖掘能力,實現自動標注模型的快速開發與部署;要針對重點任務開展伴隨式信息保障,通過“工具+數據產品”方式與用戶進行迭代交互,不斷優化信息服務效果。

猜你喜歡
人工智能科技資源
基礎教育資源展示
一樣的資源,不一樣的收獲
2019:人工智能
資源回收
人工智能與就業
科技助我來看云
科技在線
數讀人工智能
資源再生 歡迎訂閱
下一幕,人工智能!
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合