?

基于人機協同的無人系統自主性評估方法

2024-01-05 06:50郭虎生牛軼峰
無人系統技術 2023年6期
關鍵詞:人機自主性無人

王 菖,郭虎生,柏 航,牛軼峰*

(1. 國防科技大學智能科學學院,長沙 410073;2.32382部隊,武漢 430000)

1 引 言

隨著智能無人系統技術的持續創新,美軍陸續提出了分布式作戰、馬賽克戰、忠誠僚機、無人機蜂群等新型作戰概念,無人作戰樣式正向著智能化、協同化、集群化不斷發展[1]。例如,馬賽克戰具備低成本、靈活自主、分布式和抗抵消等特點,推動以“分布式決策為中心”的體系作戰樣式發展,代表了當今世界作戰概念的先進水平[2]。智能無人系統是諸如馬賽克戰的無人作戰基礎單元,無人系統的自主程度將直接影響無人作戰的整體效能。然而,無人系統的自主程度并非越高越好,而是需要根據作戰意圖和戰場態勢進行動態調整,高效的有人/無人系統協同、人機協同是貫徹作戰意圖和實現態勢理解的重要保障。

無人系統的自主性(Autonomy)是指其憑借自身平臺的感知、決策、規劃、行動、學習等基本能力,獨立完成指定任務的綜合能力水平。由于任務的復雜性、環境的動態不確定性,以及可能引發的倫理和法律等問題,無人系統仍需在操作人員的監督和干預下自主運行[3]。研究無人系統的自主性評估問題可以避免關于自主性描述上的模糊性,有助于無人系統的工程實現和性能提升,對于政策制定者、研制和設計者以及相關用戶都有非常重要的意義[4]。無人系統的自主性評估需要選取合理的評價指標,采用定性或定量方法劃分其自主能力水平。文獻中對于自主性和自主等級(Levels of Autonomy,LOA)的定義主要是從機器平臺的操控視角出發,考慮人機功能分配[5-6]和人機控制權限[7]等問題。然而,隨著無人系統自主控制和學習能力的持續提升,有人系統與無人系統的協作模式逐漸從“遙控”向“主從協同”的方向發展[8],因而需要將無人系統抽象成高級的智能體(Agent),從自主協同和自主學習的角度考慮其自主性評估問題。

基于OODA(即Observe 觀察、Orient 判斷、Decide 決策、Act 行動)循環理論[9],本文主要從感知與認知、決策與規劃、行動與控制等三個維度評估無人系統的基礎能力,每個維度都采用協同性和學習性評估指標。其中,協同性評估是基于人機協同模型中的OPD[8](即Observability 可觀察性、Predictability 可預測性、Directability 可干預性)準則,主要考慮人機之間能否觀察彼此內部狀態的表示、能否預測彼此的意圖和計劃,以及能否干預彼此的行動過程;另一方面,學習性評估是基于機器學習方法的特點(訓練樣本監督程度、學習可持續性、知識可遷移性等),主要考慮無人系統自主學習過程中需要人工參與的程度。在此基礎上,構建了基于人機協同的無人系統自主性評估表,并提出了一種自主等級量化評估方法。

2 自主性評估方法

目前,國內外無人系統自主性評估方法主要包括描述法、坐標軸法、查表法、公式法、圖形法等,上述方法及其代表性案例如表1所示。

表1 無人系統自主性評估方法Table 1 Autonomy evaluation for unmanned systems

2.1 描述法

當前很多關于自主等級的定義都源自于美國麻省理工學院Sheridan等提出的自動化等級劃分理論[5]。該理論描述了操作人員與自動化機器之間的交互方式,包括完全由人操控、需要人同意、人默認同意、機器自動運行等10 個等級。由于自主無人系統也屬于一種自動化機器,因此可以借鑒自動化等級理論進行自主等級劃分。然而,該理論側重于描述人機功能分配問題,尚未考慮自主無人系統與任務相關的感知、規劃、決策等方面的能力。因此,該理論不宜直接用于評價無人系統的自主水平[8]。

針對高空長航程無人機,美國航空航天局(National Aeronautics and Space Administration,NASA)描述了從低到高的6 個自主等級及其特征[6]:遙控(人在回路中,100%掌控時間)、簡單自動控制(基于自動駕駛儀,80%掌控時間)、執行預編程任務(無人機綜合管理、預設航路點飛行,50%掌控時間)、半自主(可自主起降,具有基本態勢感知能力,具有常規決策能力和權限,鏈路中斷后可繼續原任務,20%掌控時間)、完全自主(具有廣泛的自身及環境態勢感知能力,具有全面決策能力和權限,能夠自動進行任務重規劃,小于5%掌控時間)、協同操作(多無人機協同飛行)。需要人操作的時間與自主等級為反相關。NASA的分級標準較為簡潔,初步提供了高空長航程無人機的自主等級劃分依據。

針對人機合作感知型任務,國防科技大學的研究人員提出了更為簡潔的4個自主等級描述:H(人控制)、HR(人監督)、RH(人輔助)、R(全自主)。Zhao 等[7]考慮低人機比監督控制條件下(1 人控4 機)的無人機目標偵察問題,自主等級可根據任務復雜度、環境復雜度、人的狀態等因素自適應調整。吳雪松[10]假設機器具備一定的自動目標檢測與識別能力,但仍在遮擋、運動、混淆等條件下存在不足,通過對比各自主等級下的目標識別正確率,表明RH在多目標檢測與識別任務中效果較好。針對無人機毀傷評估任務,王治超[11]將無人機偵察圖像變化檢測與數值仿真方法相結合,從人機功能分配的視角描述自主等級。上述研究主要側重于研究機器感知能力受限情況下的無人系統自主等級調整問題,尚未全面考慮決策、規劃、控制等方面的任務能力。

2.2 坐標軸法

坐標軸法主要包括雙坐標軸法和三坐標軸法。其中,雙坐標軸法的典型代表是美國軍方提出的10 個自主控制等級(Autonomous Control Level,ACL)路線圖[12],三坐標軸法的典型代表是美國國家標準和技術研究所智能系統部提出的無人系統10 個自主等級(Autonomy Levels for Unmanned Systems,ALFUS)框架[13]。ACL 雙坐標軸法來源于美軍發布的《無人機路線圖》,橫軸是時間節點,縱軸是自主能力目標,主要用于規劃特定無人系統應在特定時間節點達到怎樣的自主等級。ACL 倡導發展分布式自主無人機集群。與此不同,ALFUS三坐標軸法是從任務復雜性、環境復雜性、人機交互性等三個方面進行自主性評估,總體自主等級是由這三個方面的評估結果加權得到。與此前的方法相比,ALFUS 三坐標軸法考慮較為全面。但是,每個坐標軸上的因素應如何選擇、量化和加權仍存在一定的不確定性。

2.3 查表法

查表法通常是在表格中設置多種自主性評價因素,可以比較全面地描述自主無人系統的自主能力。美國Draper 實驗室研究人員[14]提出了4 個自主等級的三維智能空間圖表,從運動控制、任務規劃、情景感知等3 個方面綜合評價無人系統的自主性。針對感知、協調、決策、控制4個維度,美國空軍實驗室(Air Force Research Laboratory,AFRL)提出了具備11 個等級的自主能力分級表[15],從低到高的等級描述如下:執行預先規劃任務、可變任務、實時故障/事件的魯棒響應、故障/事件自適應平臺、實時多平臺協調、實時多平臺協同、戰場戰術認識、戰場戰略認知、戰場集群認知、完全自主。同樣基于OODA 理論,國防科技大學Wu 等[16]將AFRL 的自主等級精簡為8 個,并增加了對協同和交互能力(人機交互、協同觀測、協同分析、協同決策以及協同行動)的評估維度,提出了Cooperation-OODA模型。

2.4 公式法

公式法主要是針對特定的無人系統,通過構建經驗公式來計算無人系統的自主能力。公式的結構設計和參數設置都對計算結果有較大影響。Curtin 等[17]使用控制量、總信息量、控制時間、總控制時間等因素計算了水下機器人的自主性。

2.5 圖形法

考慮到不同任務中無人系統自主等級的差異性,中國科學院沈陽自動化研究所的王越超等[4]提出了一種無人系統自主等級蛛網評價模型。蛛網評價模型從一個原點向外輻射幾條軸,每條軸代表一個技術因素,且都有 9 個技術成熟程度等級。針對每個指定的無人系統,每個技術因素對應一個確定的級別,最后把每條軸上的對應點連接起來,形成的蛛網緯線可用于評價該無人系統的自主性。蛛網模型具有較好的普適性和直觀性,但缺乏對每個技術因素的詳細解釋,且難以判別各因素間的耦合和獨立性。

2.6 小結與分析

文獻中的自主性評估方法源自于人與自動化機器協作中的功能分配問題,然后針對特定任務和特定類型的無人系統進行了個性化設計。隨著無人系統的應用模式向無人集群和人機協同方向發展,交互性與協同性成為了必須考慮的評估因素。此外,此前的研究尚未考慮無人系統的自主性評估與無人系統的內部實現方式(體系結構、算法程序等)之間的關系,而是更加關注如何評估自主無人系統完成任務的能力。然而,隨著人工智能技術自2015 年以來的飛速發展,機器學習技術對無人系統的感知與認知、決策與規劃、行動與控制、交互與協同等基礎能力產生了全方位影響,因此也應作為自主性評估的重要考量。

由于自主性評估涉及的要素不斷增加,且每種要素的內涵也越來越復雜,因此難以構建通用的無人系統自主性評估方法。與此前的研究不同,本文兼顧無人系統的感知與認知、決策與規劃、行動與控制能力評估以及機器學習技術對上述基礎能力的影響,從傳統人機功能分配視角轉變為人機智能協同視角,重點運用表格法和公式法分別進行無人系統的自主性分析與量化評估。

3 自主性評估指標

3.1 協同性

協同性主要考察人機之間從“感知”到“行動”環節的OPD準則,如圖1所示。

圖1 人機內部模型表示及其協同性[8]Fig.1 Internal models for human-robot teamwork[8]

3.1.1 可觀察性

可觀察性用來評估人機之間內部狀態的共享程度和互理解程度,即“對方看到的是什么”“對方認為看到的是什么”,主要涉及感知與認知方面的問題。一方面,人通過讀取機器的傳感器數據,使用可視化、機器學習等技術來觀察機器的感知與認知信息。例如,可以使用無人機遙控終端觀看無人機攝像頭拍攝的畫面,并標記機器檢測、識別與跟蹤的物體。此外,機器的感知與認知方式是由人預先定義和設計的,具有較好的可理解性和可操作性。另一方面,可以通過眼動、語音、手勢、腦機接口等智能交互方式獲取多模態人機交互數據,然后使用人工智能算法提取人的內部狀態。例如,可以從眼動數據中判斷人的注視點、疲勞和繁忙程度[18]。

3.1.2 可預測性

可預測性用于評估人機之間意圖和計劃的互理解和互預測程度,即“對方將要做什么”“對方將要怎么做”,主要涉及決策與規劃方面的問題。

機器決策與規劃的方法多樣,因而機器決策與規劃結果的表示形式也不盡相同。其中,貝葉斯網絡、規則集、表格等形式較為直觀,具有較好的可理解性和可預測性,而神經網絡的形式難以理解和預測。

規劃結果通??梢允褂脠D表化的形式來表達,具有較好的可理解性和可預測性。例如,任務管理軟件可以實時監控每架無人機的任務進度,地面控制軟件可以顯示無人機規劃的航線,任務規劃軟件可以輸出帶時間窗約束的復雜任務分解和分配結果[19]。

相對而言,人的意圖和計劃較難被機器理解和預測。雖然人的意圖和計劃可以通過鼠標、鍵盤、觸摸屏等傳統二維交互方式直接輸入到機器中,但是未來的人機協同作業需要更加自然的智能人機交互方式。例如,在語音交互中,語音識別技術可以將口頭下達的指令轉化為文本形式,語義理解技術可以分析文本的含義,例如實現基于語音的無人機自動路徑規劃[20]。

此外,可以從多智能體系統的角度考慮,采用人機統一的認知模型來表示意圖和計劃,并通過智能體之間的消息傳遞機制實現互理解和互預測。例如,在人機混合多智能體協作采集任務中,Belief-desire-intention(BDI)智能體通過共享意圖和信念,可以有效提升團隊協作效率[21]。

3.1.3 可干預性

可干預性用于評估人機相互控制的程度,即“誰主導控制”,主要涉及行動與控制方面的問題。一般而言,人機協同系統是由人主導控制,例如由人操控的防御性自主武器可用于人類難以做出快速反應的作戰場景[22]。

由人主導控制能夠降低由于自主無人系統行動失控引發的安全風險。但有些情況下可以允許機器主導控制權,并防止人的不當干預。例如,假設固定翼無人機的自主降落程序可以安全穩定運行,如果人按照自己的觀察和判斷而施加錯誤干預,反而可能會導致飛機墜毀。

3.2 學習性

考慮機器學習方法的主要特點,本文將訓練樣本監督程度(強監督、弱監督、自監督)、學習可持續性(離線學習、持續學習、終身學習)、知識可遷移性(不可遷移、手動遷移、自動遷移)作為無人系統自主學習能力的主要評價指標。

3.2.1 訓練樣本監督程度

訓練樣本監督程度是指無人系統在自主學習過程中獲取訓練樣本所需要的人工參與程度,主要涉及樣本標簽、樣本獲取方式等問題。監督程度的分級如下:

(1)強監督:所有的訓練樣本由人選擇,且樣本都有人工標注的標簽,主要使用監督學習方法;

(2)弱監督:訓練樣本主要由人選擇,部分樣本具有人工標注的標簽,主要使用半監督學習、強化學習方法;

(3)自監督:訓練樣本由機器自主選擇,樣本無需人工標注,主要使用主動學習、無監督學習方法。

從自主性的角度來看,訓練樣本需要人監督的程度越低,意味著無人系統自主學習能力越強。特別指出,當前的強監督、弱監督、自監督學習方法各有特色,并無優劣之分。此外,訓練樣本量暫不作為自主學習能力評價指標。

3.2.2 學習可持續性

學習可持續性是指自主無人系統在預先訓練、任務執行、全壽命周期內的可持續學習程度,主要涉及模型更新方式、樣本獲取方式等問題??沙掷m性的分級如下:

(1)離線學習:模型和樣本都由人選擇,學習是在任務執行前完成,學習完成后不再收集新樣本或更新模型;

(2)持續學習:模型和樣本可以由人選擇或機器自己選擇,可以在特定環境和任務中持續收集新樣本,已經學習的模型可以持續更新;

(3)終身學習:模型和樣本主要由機器自己選擇,可以在開放環境中按需持續收集新樣本,已經學習的模型可以持續更新。

無人系統學習的可持續性越好,意味著自主學習能力越強。當前的無人系統學習模式主要是由人選擇模型和樣本,并且以離線學習為主。例如,主流的深度學習方法需要預先訓練深度神經網絡模型,且模型越復雜越難以持續更新。此外,當前的學習方法主要考慮的是特定的學習環境。終身學習需要考慮復雜、動態、不確定、非合作環境下的自適應模型選擇和樣本獲取問題,是實現機器高自主學習水平的必由之路。

3.2.3 知識可遷移性

知識可遷移性是指無人系統在解決新任務時能夠使用已學習知識的程度,主要涉及遷移學習、課程學習、多任務學習等方法。分級如下:

(1)不可遷移:僅考慮單任務學習問題,樣本、模型、參數、策略都不可以在新任務中重新使用;

(2)手動遷移:考慮存在多個任務的學習問題,可以由人手動選擇遷移有用的樣本、模型、參數、策略,并由人評估遷移效果;

(3)自動遷移:考慮存在多個任務的學習問題,由機器自主選擇遷移哪些樣本、模型、參數、策略,并由機器自主評估遷移效果。

學習的可遷移性越好,意味著自主學習能力越強。當前很多學習方法只考慮單任務學習,未來必須考慮從單任務到多任務、從簡單任務到復雜任務的遷移學習和知識重用問題[23]。

4 自主性評估表

基于所提出的自主性評估指標,本文設計了基于人機協同的自主性評估表,如表2所示。

表2 基于人機協同的自主性評估表(基于OPD準則和學習能力)Table 2 Autonomy evaluation table based on human-robot teamwork (OPD Criteria and Learning,OPDL)

4.1 零級L0——人操控

無人系統不具備自主性,感知與認知、決策與規劃、行動與控制等各個環節都完全由人操控,不考慮OPD準則,且不具備學習能力。

4.2 初級L1——人委派

OPD 準則滿足“人觀察機、人預測機、人干預機”,感知與認知、決策與規劃、行動與控制能力的學習都是“強監督、離線學習、不可遷移”。下面通過例子進行說明。

4.2.1 L1的OPD準則滿足度

在地面站控制單架無人機執行對地偵察任務中,地面站操作人員可以通過空地數據鏈路,獲取無人機光電吊艙拍攝的偵察圖像,并通過地面站軟件界面觀察無人機的航線以及任務時間線,從而預測無人機的航向以及即將執行的任務序列。此外,在無人機遇到突發惡劣天氣威脅、地面雷達或導彈威脅等情況時,操作人員可以干預無人機繞飛威脅區域。

4.2.2 L1感知與認知學習能力

在無人機對地面車輛目標的識別任務中[14],可以使用大量人工標注樣本,采用深度神經網絡模型并進行離線訓練,所學的模型不可遷移至其他目標的識別任務中。

4.2.3 L1決策與規劃學習能力

在無人機導航與避障任務中[24],可以使用基于Q-學習的DQN、DDQN 等強化學習算法,在給定的仿真環境中進行大量的離線訓練,訓練樣本由訓練人員采集,且所學策略不能遷移至其他任務中。

4.2.4 L1行動與控制學習能力

在固定數量的無人機群編隊飛行控制策略學習任務中[25],可以使用深度強化學習框架和深度神經網絡模型進行離線訓練,所學模型不可遷移至其他規模的無人機群飛行控制任務中。

綜上所述,L1適用于靜態環境中的特定任務,需要消耗大量的人力成本,難以適應高動態環境中的復雜任務。

4.3 中級L2——人監督

OPD 準則滿足“互觀察、人預測機、人干預機”,感知與認知、決策與規劃、行動與控制能力的學習都是“弱監督、離線學習、手動遷移”。與L1 相比,L2 在OPD 準則滿足度方面的提升主要體現在支持人機“互觀察”,即人與無人系統可相互觀察彼此的內部狀態;學習能力方面的提升體現在從“強監督”變為“弱監督”,且從“不可遷移”變為“手動遷移”。下面通過例子進行說明。

4.3.1 L2的OPD準則滿足度

在有人機/無人機協同對地偵察任務中[11],有人機可以通過機間數據鏈獲取無人機偵察的目標信息、航線、任務時間線,同時無人機也可以通過機間數據鏈獲取有人機偵察的目標信息、航線、任務時間線,從而支撐有人機/無人機協同動態任務分配。此外,在無人機遇到突發惡劣天氣威脅、地面雷達/導彈威脅等,有人機飛行員可以干預無人機繞飛威脅區域。有人機可以預測無人機的計劃和行為,但無人機不能預測有人機的計劃和行為。有人機具有對無人機的飛行控制權限,但無人機不能干預有人機的飛行控制。

4.3.2 L2感知與認知學習能力

在無人機對車輛目標的圖像識別任務中[26],可以使用少量的人工標注樣本和大量的未標注樣本,采用半監督學習、小樣本學習等方法進行離線訓練,所學的模型和參數可手動遷移至相關的目標識別任務中。

4.3.3 L2決策與規劃學習能力

在無人車集群導航與避障任務中[27],可以使用DDPG 強化學習算法,將仿真環境中預先訓練好的4輛車的導航避障策略遷移至8輛車的導航避障場景中,從而提升新環境中的策略學習速度。

4.3.4 L2行動與控制學習能力

在規??勺兊臒o人機群編隊飛行控制策略學習任務中,可以使用特殊的機制將可變數量的輸入映射為固定長度的向量,可以使用深度強化學習框架和深度神經網絡模型進行離線訓練,所學的模型可遷移至任意規模的無人機群編隊飛行控制任務中[28]。

綜上所述,L2 適用于低動態環境中的特定任務,需要消耗一定的人工成本,能夠應對簡單的突發事件,卻難以適應高動態環境中的復雜任務。

4.4 高級L3——混合主動

OPD 準則滿足“互觀察、互預測、人干預機”,感知與認知、決策與規劃、行動與控制能力的學習都是“弱監督、持續學習、手動遷移”。與L2相比,L3在OPD 準則滿足度方面的提升主要體現在支持人機“互預測”,即人與無人系統可相互觀察彼此的意圖和計劃;學習能力方面的提升體現在從“離線學習”變為“持續學習”。下面通過例子進行說明。

4.4.1 L3的OPD準則滿足度

在多智能體協作采集任務中[8],基于BDI 模型的多智能體系統統一表示了人與虛擬機器人的內部模型,智能體之間可以分享彼此的意圖、狀態、行動計劃,有效提升了團隊任務的完成效率。

4.4.2 L3感知與認知學習能力

在無人機對車輛目標的圖像識別任務中[29],無人機可以基于少量不同視角拍攝的車輛圖片,學習車輛不同部件的輪廓特征,并結合概率推理模型,用于持續提升車輛識別的正確率。

4.4.3 L3決策與規劃學習能力

在基于交互式深度強化學習的無人車導航任務中,導航策略可以在人的引導下持續更新[30]。在人形機器人學習如何使用工具物品的任務中,可以基于自驅動強化學習方法自主學習探索策略[31],并將所學知識遷移到新物品的使用中[32]。

4.4.4 L3行動與控制學習能力

在大規模無人機集群避碰飛行控制策略學習任務中[33],可以使用課程學習方法將復雜的學習任務分解為一系列從小規模到大規模、從簡單到復雜的持續性課程,從而提升學習效率。

L3 能夠適應高動態環境中的復雜任務,需要較少的人工成本,是當前技術發展的最高水平。

4.5 超級L4——全自主

OPD 準則滿足“互觀察、互預測、互干預”,感知與認知、決策與規劃、行動與控制能力的學習都是“自監督、終身學習、自動遷移”。與L3相比,L4 在OPD 準則滿足度方面的提升主要體現在支持人機“互干預”,即人與無人系統可相互引導甚至控制對方的行動;學習能力方面的提升體現在從“弱監督、手動遷移”變為“自監督、自動遷移”。下面通過例子進行說明。

4.5.1 L4的OPD準則滿足度

在有人機/無人機群對地偵察打擊任務中,有人機與無人機群間可以共享彼此的內部狀態,能夠預測彼此的意圖和計劃。當無人機發現有人機處于危險狀態時,可以先提醒有人機,如果無效或情況緊急,則可以臨時接管有人機的控制權限,協助其逃離危險區域。

4.5.2 L4感知與認知學習能力

發展型機器人[34]倡導模仿幼兒探索未知世界的方式,通過自主探索和自我確認,持續更新對環境和自身的認知。

4.5.3 L4決策與規劃學習能力

在空戰決策問題中[35],智能體可以自學習和演化空戰規則,能夠判斷對手策略是否變化,并且可以重用已有知識或按需繼續學習新策略。

4.5.4 L4行動與控制學習能力

野外地面無人運輸車可以在新的復雜地形環境中按需收集有價值的數據樣本,持續提升其在導航、避障、跟隨、運輸等行為的自主控制水平,并且自適應調整已有策略。

綜上所述,L4 能夠適應高動態、強對抗、不確定環境,除了必要的交互外,無人系統幾乎可以完全自主運行。

5 自主等級量化評估

針對感知與認知、決策與規劃、行動與控制不同能力視角下的每個等級,以及協同性和學習性指標,OPDL定性給出了自主等級的描述性評估方法。然而,如何綜合評估無人系統的自主等級仍然存在困難。

例如,如果某個無人系統的OPD 準則滿足度都是L2級,感知與認知學習能力是L2級,決策與規劃學習能力是L3級,行動與控制學習能力是L2級,應當如何評估其自主等級?一種可行的方法是由最低的基礎自主等級決定綜合自主等級,即L2。但該方法缺乏定量的分析過程,難以精確計算。

本節設計了一種基于加權求和的無人系統自主性評估的定量計算方法為

式中,EO、ED、EA分別表示感知與認知、決策與規劃、行動與控制三個方面的學習能力指標(參見表3),其取值范圍是[0,1]區間中的實數;εo、εD、εA分別表示感知與認知、決策與規劃、行動與控制的OPD 準則滿足度,取值范圍也是[0,1]區間中的實數(參見表4)。

表3 學習能力量化表Table 3 Quantification table of learning ability

表4 OPD準則滿足度量化表Table 4 Quantification table of OPD criteria satisfaction

學習性和協同性能力指標EO、ED、EA、εo、εD、εA的離散化參考值是將[0,1]區間按因素等級的數量平均得到。由于本文采用5 個自主等級描述,因此學習能力量化表也選擇相應的5 級。OPD 準則主要考慮人機間的交互,因而分為3級。

為了合理計算綜合自主等級,應當參考HROPDL 自主性評估表的定性分級標準。因此,將表3 和表4 的數值代入表2 中進行計算,得到自主等級分級參考表,如表5所示。

表5 自主等級分級參考表Table 5 Reference table for autonomy level grading

根據式(1)和每項能力指標查表對應的數值,計算得出E后按下列規則評判綜合等級:

(1)當E= 0 時,綜合自主等級為L0;

(2)當0 <E≤ 0.375時,綜合自主等級為L1;

(3)當 0.375<E≤ 1時,綜合自主等級為L2;

(4)當 1 <E≤ 1.5 時,綜合自主等級為L3;

(5)當 1.5 <E≤ 3 時,綜合自主等級為L4。

針對本節開始提出的某自主無人系統的量化評估問題,計算得出E= 0.875,因此屬于L2。

特別指出,本文采用均勻長度的區間量化學習性和協同性能力指標,其主要原因在于較為簡潔直觀。非均勻的區間分割也是可行的,例如可以將更高能力等級對應的數值增大,從而使得表5中更高自主等級的參考值更高,即使得能力等級參考值分布更為均勻。換而言之,不同的區間分割方式將會影響綜合量化自主等級的參考值。然而,在給定的區間分割方式下,表5 的能力等級參考值可以作為綜合評估的參考閾值。由于自主性評估采用的是式(1)的加權求和方式進行計算,綜合自主能力的量化值應當能夠落在相應的等級區間中。類似的,能力因素等級數量也會影響綜合量化自主等級的參考值,但最終得到的綜合自主等級評估數值也仍應能夠落在相應的等級區間中。綜上所述,本文提出的方法具有一定的普適性,可以根據需要進行相應調整。

與文獻中針對具體無人系統的OODA 各環節能力或者人機功能分配方式的自主性評估方法不同(參見表1),本文提出的方法更側重于無人系統的人機協同能力和自主學習能力,尤其是在人機協同關系和機器學習方式方面的劃分更細致。例如,美國NASA 飛行器自主等級[6]、美空軍實驗室AFRL 自主等級[15]、國防科大Cooperation-OODA 模型[16]等方法雖然提到了“協同操作”“戰場認知”“完全自主”等概念,都需要有效的協同和機器學習技術作為支撐,然而上述文獻并沒有明確描述涉及的協同關系或者機器學習方式。以“忠誠僚機”為代表的現役無人系統仍以遙操作控制方式為主,其OPD 準則滿足程度仍以人觀察機、人預測機、人干預機為主(不高于L1),且朝著互觀察、互預測、互干預(L4)的方向發展,但是其學習能力主要以強監督、離線學習、不可遷移為主(不高于L2),因此其綜合自主等級目前難以突破L2。未來的無人系統如果具備持續學習和自動遷移學習能力,則可能達到本文提出的L4。

6 結 論

本文研究了基于人機協同的無人系統的自主性評估問題,提出將感知與認知、決策與規劃、行動與控制等三個能力維度的協同性和學習性作為自主性評估的主要因素。其中,協同性主要考慮人機之間的可觀察性、可預測性和可判斷性;學習性主要考慮無人系統自主學習過程中需要人參與的程度。綜合運用描述法、表格法和公式法,設計了人操控、人委派、人監督、混合主動、全自主等五個等級的自主性評估表,并提出了一種自主性量化計算方法。所提出的方法充分考慮了無人系統應用和機器學習技術的發展現狀與趨勢,有望廣泛應用于各類無人系統的自主性評估。

猜你喜歡
人機自主性無人
人機“翻譯員”
從內到外,看懂無人機
無人戰士無人車
反擊無人機
詩到無人愛處工
無人超市會流行起來嗎?
“人機大戰”人類智慧遭遇強敵
未來深空探測中的人機聯合探測
英語學習的自主性及其教學應用
實用英語教材與藝術生自主性培養
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合