?

軍事大數據概念內涵、發展挑戰與技術實踐

2024-01-25 01:10鄭少秋韓立斌趙文成劉小毅
指揮與控制學報 2023年5期
關鍵詞:聯邦軍事資產

鄭少秋 韓立斌 王 靜 袁 翔 趙文成 劉小毅

1.中國電子科技集團公司第二十八研究所,江蘇 南京 210007

2.信息系統需求重點實驗室,江蘇 南京 210007

隨著軍事大數據建設的持續推進,其在聯合作戰領域取得了較大應用實效,但也面臨諸多問題,包括數據共建、共享、共用的機制尚未健全,數據資產化程度低,數據應用能力薄弱,數據跨域融合價值尚未得到充分發揮,對聯合作戰支撐效能有限等.本文剖析軍事大數據概念內涵,分析在資產建設、分析應用方面發展面臨的具體挑戰.在此基礎上,基于元數據和聯邦學習等技術,提出數據資產建設與共享、數據處理與分析應用的技術路線和支撐平臺的解決方案.

1 概念內涵

大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合.具有規模性龐大(volume)、數據更新頻繁(velocity)、數據類型多樣(variety)、數據價值巨大(value)等4V 特點[1],大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產[2-3].

隨著物聯網、數字孿生等信息技術發展,天基偵察衛星、地面雷達、艦載傳感器、信息系統等各類武器裝備實時運行并產生了海量的數據,數據規模呈“爆炸式”增長,數據處理與服務能力也在大幅提升,軍事領域已經進入大數據時代.軍事大數據是所有軍事對象、軍事活動、戰場環境及其他相關數據,以及數據處理與服務的全集.軍事大數據是一種戰略資源,由此產生的新思維、新觀念,正在驅動戰爭制勝機理、能力生成模式、系統構建方式、武器裝備形態等發生深刻變革,是改變聯合作戰方式的重要基礎,如圖1 所示.

圖1 軍事大數據賦能聯合作戰Fig.1 The concept map of joint operations empowered by military big data

在聯合作戰過程中,通過持續收集作戰兵力、武器裝備、信息系統等方面運行數據,能夠為指揮員全面掌控作戰歷史、當下情況以及預測未來提供堅實基礎.在戰場情況判斷環節,可綜合利用高噪聲、低質量的全面多維戰場數據,識別“欺騙”與“迷霧”,形成正確的判斷,實現“知己知彼”能力倍增.在指揮決策環節,可基于長期積累的各類作戰場景下兵力運用數據進行能力全面評估、最優兵力編成,可基于各場景下作戰對抗數據進行籌劃決策模型學習與推理,遍歷決策空間發現最優方案.在行動控制環節,可基于數據實時掌控戰場進程、預測演進,自主組織數據保障,并基于歷史處置記錄生成臨機處置建議.最終,賦能聯合作戰全過程.

與民用大數據相比,軍事大數據同樣具備4V 特征[4-5].同時,因為聯合作戰涉及要素多,具備高動態、強對抗特點,軍事大數據在數據獲取、傳輸、標注、管理、分析等方面與民用大數據具有一定區別[6-8].如表1 所示,以空中不明目標識別為例,對比軍民大數據區別,可以看到軍事領域非合作目標相對民用領域合作目標識別難度更大.

2 發展挑戰

2.1 數據資產化水平不足

1)軍事業務的獨立性限制了數據的共享交換意愿

軍事數據散落在各垂直業務領域,如作戰、裝備、后勤、政工等,各領域分別采集、分別處理、分別應用,是一種“自保障”模式,與業務捆綁緊密,數據呈現場景化、碎片化特點.

2)數據安全、產權、質量等問題導致共享的數據規模和維度有限

由于安全保密、產權歸屬等原因,跨領域、跨部門數據交換難、共享難,進而導致共享數據的規模、維度有限[9-10].同時,由于缺乏對數據質量評估機制,共享數據的質量難以保證,對數據的真實性、有效性的信任度不足,制約了數據融合增值的空間.

3)數據統一規劃、治理與管理能力不高導致數據資產化水平有限

各業務領域雖然采集了大量數據,但并不能完全覆蓋業務分析所需的全部數據,數據的頂層規劃能力不足.同時,由于各業務領域數據的類型復雜、標準不一,各領域標識編碼、數據模型難以相互理解,數據統一管理與治理能力有限,數據的資產化水平整體不高,基于“統一數據共享空間”(如數據服務目錄)等方式的數據服務能力有限.

2.2 數據分析應用能力不夠

1)共享數據的規模和維度限制數據應用能力發揮

數據是數據分析應用開發的基石,是大數據應用能力發揮的先決條件“算力、算法、算據”中的三架馬車之一.由于數據資產化水平不高以及數據共享的壁壘,共享數據的規模和維度十分有限,數據服務能力不高.數據規模有限性,導致“小樣本”條件下大數據應用開發容易過擬合、泛化能力不足,實際作戰應用時難以適用動態變化的場景,作戰人員沒有獲得感.數據維度有限性,導致難以對客觀的作戰規律進行全面準確刻畫,隱含的因素難以挖掘,對作戰的支撐效能有限.數據服務能力不高,導致共享的數據難以快速發現、及時應用,不能滿足高動態作戰的需要.

2)面向軍事領域業務場景特點創新大數據應用不足

大數據應用中描述型、統計分析型的居多,以成熟的商業技術的直接應用為主,以“單點”層面的應用為主,缺乏面向聯合作戰場景特點,如小樣本、高對抗、高風險等,體系化創新大數據應用,數據的決策優勢尚未發揮,數據深層次規律和潛在價值未有效挖掘.

3 數據資產建設與共享

針對軍事大數據頂層規劃、統一治理與管理能力不足,以及共享數據質量、規模、維度不夠等問題,構建統一數據共享空間,并利用元數據技術,進行數據資產匯聚治理、融合處理,形成數據資產體系.在此基礎上,基于元數據構建數據發現、訪問與共享交換能力.

3.1 元數據基礎理論

元數據是定義和描述數據的數據,可分為描述性元數據、結構性元數據和管理性元數據[11].元數據可以在數據資產的生成、注冊、發布、共享、交換、使用、分析等過程中,與數據一起發布到共享空間,幫助數據用戶有效地發現、理解、獲取和使用數據,提升數據資產的可見性、可訪問性、可理解性、可信賴性、可管理性等,進而提升數據資產應用效能.

元數據技術主要作用包括[12-15]:描述數據資源,讓數據能夠被更準確理解和發現.管理數據資產,讓數據能夠被權限范圍內的用戶進行訪問、服務與運維.獲取數據資源,讓特定的數據能夠被需要的用戶獲得.

3.2 數據匯聚治理與資產體系構建

基于軍事領域分散建設的數據資產,進行數據資產頂層設計與規劃,重點突出各業務領域數據特點,形成軍事領域數據資產分類體系、元數據標準等頂層規范[16-17].各領域數據資產根據規范進行元數據生成,與數據資產一起向統一數據共享空間注冊,并按照業務屬性、來源、密級等統一分類編目,如圖2所示.

圖2 數據資產注冊匯聚Fig.2 Data asset registration and aggregation

以提升數據質量和資產應用價值為目標,從數據標準、質量、編碼等方面對匯聚的數據資產及關聯元數據進行治理,如圖3 所示.

圖3 數據資產治理Fig.3 Data asset governance

在數據治理基礎上,對數據進行融合處理,形成高價值數據資產,為應用分析提供敏捷響應的數據支撐.如針對特定的事件、目標、活動等對象,通過對各領域多模態數據進行分布式關聯、消歧、拼接等融合處理,形成更加全面、多維精準的實體畫像等數據,實現對業務的直接、全面、敏捷的數據服務.

3.3 基于元數據的發現、訪問與共享交換

各業務領域將需要共享的數據資源及其關聯的元數據注冊到統一數據共享空間,通過對各領域元數據資產進行預處理、索引創建和搜索服務構建,以分布式數據目錄形式對用戶提供檢索、訪問、訂閱等服務.支撐跨領域數據共享交換,按需按權訪問等,如圖4 所示.

圖4 基于元數據的數據發現、訪問與共享交換Fig.4 Metadata-based data discovery,access,and shared exchange

發現元數據設計.主要包括信息資源管理、信息資源內容、信息資源格式、信息資源訪問等信息,各軍兵種和業務領域可額外擴展.在都柏林核心元數據[18]基礎上,增加密級、關鍵詞、訪問量(管理方維護)、質量等級、業務類別等元素,形成軍事領域發現元數據,并基于元數據構建檢索系統,通過文本處理、索引、搜索排序結果優化設計[19]等提供支撐,提升數據發現效能.

結構元數據設計.與領域密切相關,用于描述業務領域數據結構及其關系.以軍事力量中部隊情況描述為例,包括部隊代號、編制代號、軍種、兵種、戰區、部隊類別、戰略方向、保障區等.

基于元數據的數據發現、訪問與共享交換.利用發現元數據、結構元數據等對數據資產的類型、來源、內容概述、關鍵詞、主題、安全性信息、訪問方式等進行描述,并基于Solr 技術開發面向軍事業務領域數據檢索系統,維護統一的目錄,支撐數據敏捷發現、快速訪問與按需按權交換.

3.4 數據資產管理服務平臺設計實踐

為支撐數據資產的注冊匯聚、資產治理,以及數據檢索、訪問、訂閱等服務,基于各類開源工具,面向軍事領域業務特點,構建數據資產管理服務平臺,實現基于元數據的數據可發現、可訪問、可交換等能力.

數據資產管理服務平臺技術架構及功能組成如圖5 所示,數據采集、數據存儲、數據治理、數據關聯、數據管理、數據服務等6 大類功能,為聯合作戰數據資產體系構建、數據質量提升、數據融合服務等提供全程支撐.

圖5 數據資產管理服務平臺功能設計Fig.5 Function design of data asset management and service platform

數據采集主要解決對軍事領域分散數據、類型不一的數據及其元數據高效采集問題.在數據源格式方面,支持網頁、文本、視頻、關系數據庫等類型,數據接入支持ETL、Sqoop、kafka 等類型,提供排序合并、行列轉換、去重等轉換算子,最終實現基于圖形化方式對數據及其關聯的元數據進行分布式并行采集注冊.

數據存儲主要是解決軍事領域數據規模大、種類和來源多樣化、新增速度快等數據高效存儲難題,提供關系型數據庫、分布式文件系統、分布式數據庫、圖數據庫、時序數據庫等不同特性的數據存儲服務,能夠為各類應用系統的構建提供按需申請的數據存儲服務.

數據治理主要解決提高數據質量的問題,通過建立統一數據標準、指標定義、實體編碼等,實現對數據的一致理解和一致認知.主要是構建覆蓋元數據、數據標準、數據質量、編碼管理等全方位的數據治理工具集,集成了典型軍事領域數據字典、數據標準、質量校驗規則,支撐基于元數據的數據治理與資產體系生成.

數據管理主要解決數據運維管理問題,通過評估和監控數據使用狀態來提高數據應用水平,提供數據資產注冊與分類管理、血緣分析、統計評估、數據脫敏、數據資產大屏等管理功能.

數據關聯主要解決數據由于在元數據、標識編碼、數據模型等方面難以相互理解,跨業務跨領域數據統一融合運用難題,提供基于規則和深度學習的方式,抽取、構建的軍事領域可動態演化的知識圖譜,對各類數據資產進行關聯組織.

數據服務主要解決數據發現與訪問的問題,基于對各域數據資產(含元數據)統一運營管理,支撐跨領域數據共享交換,按需按權訪問等.主要提供基于目錄的數據檢索、數據同步、數據集市、數據訂閱等功能,支持通過語義檢索方式進行數據檢索發現、訂閱推送等.支持基于元數據的數據資產發現、訪問和共享應用.

4 數據處理與分析應用

針對軍事領域由于共享數據的規模、維度有限等導致數據分析能力難以高效形成,以及面向軍事領域業務場景特點創新大數據應用不足等問題: 1)在數據層面盡可能匯聚更大規模、更多維度、更高質量的數據至統一的共享空間,支撐各類大數據應用開發;2)利用博弈對抗技術,基于構建的聯合作戰仿真平臺進行推演對抗生成大量樣本數據,解決軍事領域尤其是決策領域“小樣本”數據難題,支撐大數據應用開發;3)利用聯邦學習技術,基于物理分布的數據進行大數據應用開發,最大化挖掘數據價值,實現基于邏輯上“全量”的數據分析生成“全新”的模型,解決“數據不搬家條件”下大數據應用開發難題.針對數據應用能力不足問題,基于物理或邏輯匯聚的數據資產,在商業大數據應用技術基礎上,聚焦軍事領域業務特點對其進行適配改造,提升大數據應用水平.

關于大數據應用開發,主要圍繞第3 點介紹,以遙感影像目標識別和作戰部隊兵力評估應用為例,介紹應用橫向聯邦學習和縱向聯邦學習技術進行大數據應用開發.最后,介紹數據處理分析平臺設計實踐.

4.1 聯邦學習基礎理論

聯邦學習(federated learning,FL)是2016 年谷歌提出的,用于解決手機端隱私數據聯合學習的技術[20].其目標是在確保數據安全和隱私條件下,不將數據集中匯聚,通過多方共同參與,實現基于全量數據的全局模型最優參數學習.聯邦學習是分布式機器學習的一種特例.

聯邦學習通常由多方共同參與進行模型訓練,各參與方均擁有部分訓練樣本,按照數據在各參與方特征分布和樣本分布情況,分為橫向聯邦學習(horizontal FL,HFL)和縱向聯邦學習(vertical FL,VFL).HFL 適用于各參與方具有不同的樣本,樣本具有重疊的特征.如不同的無人駕駛公司分別采集車輛行駛數據并標記樣本;VFL 適用于各參與方數據樣本是對齊的,但數據特征不同,如一個普通公民基本信息存儲在公安部門、擁有的房產信息存儲在房管部門、乘坐交通工具信息存儲在交通部門等.

在智能模型訓練過程中,聯邦學習技術能夠實現在數據隔離條件下,即參與方的樣本數據不離開本地,各方通過加密傳輸交換訓練模型的計算信息,并進行模型參數訓練、聚合與同步,最終達到充分逼近樣本數據集中條件下訓練的模型性能[21].

4.2 橫向聯邦學習大數據應用

4.2.1 任務場景

情報部門A 和情報部門B 分別采集遙感影像數據,并人工標記了1 000 幅和800 幅影像,每幅影像使用矩形框標識出作戰目標區域及類別.情報部門A 和B 隸屬不同機構,難以進行數據直接共享交換.如何基于分散存儲的遙感影像樣本訓練目標檢測模型訓練更快捷的基于區域的目標檢測模型(Faster RCNN)[22],為基于遙感影像進行目標檢測與識別提供支撐.

4.2.2 解決方案

基于聯邦學習工業級框架(federated AI technology enabler,FFATE)[23]、聯邦(TensorFlow federated,TFF)[26]等開源平臺,利用橫向聯邦學習技術,構建基于主從架構或輪輻式架構的分布式學習系統,如圖6所示.情報部門A 和B 按照統一標準進行數據標注,分別利用本地數據進行Faster RCNN 模型參數更新梯度計算,然后使用加密技術發送到模型聚合服務器,經聚合后再將梯度分別發送給A 和B 進行本地同步,如此持續迭代直至模型收斂或達到最大迭代次數.A 和B 分別得到“全量”樣本數據訓練的目標檢測與識別模型Faster RCNN.

圖6 基于橫向聯邦學習的影像目標檢測識別Fig.6 Image target detection and recognition based on horizontal federated learning

需要特別說明,在實際訓練Faster RCNN 模型時,需根據軍事遙感影像特點進行算法適配改造,對圖像去云去霧處理、超分辨率重建等操作,提高影像數據質量.對圖像重疊裁剪和檢測結果拼接,降低模型參數規模.對樣本數據較小的軍事目標類別進行圖像增廣,提升模型的綜合效能.

4.3 縱向聯邦學習大數據應用

4.3.1 任務場景

在戰役級聯合作戰兵力優選時,需要對候選部隊作戰能力進行綜合評估,需要綜合考慮指揮員能力、部隊政治作風、人員狀態、裝備能力、訓練水平、保障能力等多方面因素,而這些數據分散在聯合作戰與業務管理等各部門,可以通過部隊番號進行關聯.比如,政工部門數據中心可以刻畫忠誠度、性格特征、戰斗作風等方面,訓練管理部門的數據中心可以刻畫決策偏好、操作熟練度等特征.如何基于分散在各部門的數據進行部隊綜合能力評估模型的訓練是一個關鍵問題.假定待學習的部隊綜合能力模型為BDZHNL,已在作戰數據中心對部分作戰部隊的作戰能力進行了人工標注.

4.3.2 解決方案

基于FFATE[23]、TFF[24]等開源平臺,利用縱向聯邦學習技術及回歸分析算法,構建BDZHNL 聯邦學習系統,如圖7 所示.各數據中心基于統一的部隊番號進行加密實體對齊,確保相互之間不會暴露數據.各數據中心基于作戰數據中心(協調方)創建的密鑰對模型BDZHNL 訓練中間結果加密和交換.作戰數據中心計算損失函數和梯度更新,其他數據中心計算梯度更新.加密后在作戰數據中心解密和聚合,并將更新信息發送到各數據中心.如此持續迭代直到模型收斂或者達到最大迭代次數.最終,得到基于全屬性數據訓練的部隊綜合能力分析模式BDZHNL.

圖7 基于縱向聯邦學習的部隊能力評估訓練Fig.7 Troop capability evaluation training based on longitudinal federated learning

4.4 數據處理分析服務平臺設計實踐

為提升軍事領域數據分析效能,解決當前軍事領域數據規模不足、數據分析應用能力不足等難題,支撐包括聯邦學習在內的軍事大數據計算、關聯與分析服務開發,基于各類開源工具平臺,集成構建了數據處理分析平臺,具備數據增強、標注、分布式計算能力,能夠支撐大數據統計分析、模型訓練、應用服務.

數據處理分析服務平臺技術架構及功能組成如圖8 所示,包括數據增強、數據標注、大數據處理、智能模型訓練、大數據分析服務等5 大類功能.

圖8 數據處理分析平臺架構與功能組成Fig.8 Architecture and function composition of data processing analysis platform

數據增強主要解決軍事領域數據小樣本問題,一方面通過提供各類數據增強工具進行數據擴充,如圖像通過壓縮、旋轉、裁剪等方式進行增廣,文本通過基加噪、回譯進行增廣等.另一方面,針對聯合作戰對抗樣本不足及戰法模型訓練,基于作戰仿真平臺博弈對抗生成樣本,并據此訓練模型,再進行對抗和生成樣本,逐步生成達到支撐模型高效訓練的規模.

數據標注主要解決軍事領域數據專業性強、由于保密問題難以有效外包導致標注效率低問題,基于綜合數據標注平臺,集成半監督學習等輔助標注能力,提供文本、圖像、視頻等類型數據面向典型任務(分類、檢測等)的數據標注功能.以文本為例,提供詞性識別、文本分類等典型任務數據標注,并能夠管控標注任務進度.

大數據處理主要解決數據融合增值的問題,1)為大數據應用服務提供增值數據支撐,通過海量數據融合處理、跨域關聯和面向任務的聚合,使得戰場刻畫更多維、知識更全面.2)為智能模型訓練提供數據的分布式預處理的計算支持,包括數據預處理、特征提取等計算.

智能模型訓練主要基于大數據處理后的數據,提供算法模型訓練平臺,支撐智能模型編配與訓練,解決數據挖掘增值的問題.主要提供主流的分布式機器學習/深度學習框架,分布式聯邦學習框架,基于可視化拖拽式智能模型的編排、數據配置、模型訓練和驗證工具集,提供全流程模型開發支持能力.

大數據分析服務主要解決服務模型的發現、訪問、封裝、部署的問題,對各領域數據服務模型統一運營管理,通過負載均衡,彈性伸縮等方式實現模型靈活部署,提供大數據服務運行過程中數據流轉、模型算法調度等監控與預警功能.

5 結論

軍事領域已進入大數據時代,大數據將對聯合作戰產生全方面的革命影響.然而,軍事領域數據分散建設與應用,數據橫向流通困難,極大限制了大數據賦能聯合作戰效能發揮.

本文提出的基于元數據的數據資產建設與共享、基于聯邦學習的大數據分析應用開發等技術方案,以及數據資產管理服務平臺、數據處理分析平臺的設計實踐,可以為軍事大數據體系發展建設提供借鑒和參考.

猜你喜歡
聯邦軍事資產
一“炮”而紅 音聯邦SVSound 2000 Pro品鑒會完滿舉行
303A深圳市音聯邦電氣有限公司
輕資產型企業需自我提升
央企剝離水電資產背后
關于資產減值會計問題的探討
把維護作為一種資產
20年后捷克與斯洛伐克各界對聯邦解體的反思
聯邦憲法法院60年——一個來自德國的成功故事?
軍事幽默:局
軍事
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合