?

幾何引導的主動式三維感知與交互

2023-01-13 07:14胡瑞珍
圖學學報 2022年6期
關鍵詞:驅動建模機器人

徐 凱,胡瑞珍,楊 鑫

幾何引導的主動式三維感知與交互

徐 凱,胡瑞珍,楊 鑫

(1. 國防科技大學計算機學院,湖南 長沙 410073; 2. 深圳大學計算機與軟件學院,廣東 深圳 518060; 3. 大連理工大學電信學部,遼寧 大連 116000)

隨著三維感知設備的發展和大規模三維數據的出現,基于三維重建與理解的視覺感知技術得到了大量關注。與此同時,智能圖形逐漸改變了傳統圖形系統在交互中的被動角色,朝著任務引導的、感知驅動的智能體對真實或虛擬環境的主動交互發展??梢哉f,計算機圖形學正在突破“信息表達”這一傳統范疇,逐步拓展邁入“信息感知”領域;圖形學的交互技術也由傳統的人機交互,逐漸延伸和發展出面向智能任務的主動三維交互。其中,數據驅動三維幾何分析與建模的理論和方法,特別是在線重建與分析技術,對三維感知和三維交互形成了重要支撐。本文從圖形學和視覺融合的視角,結合研究案例,介紹了主動式三維感知與交互,討論了“主動式”的特點、優勢和挑戰,并試圖探討這一方向的開放問題與發展趨勢。

幾何引導;三維感知與交互;主動感知與交互

傳統意義上講,計算機圖形學一般被認為是計算機視覺的逆過程(圖1(a)):前者聚焦于真實對象的三維表達與呈現;后者則研究從視覺信息推斷客觀對象。近年來,隨著視覺傳感設備的迅猛發展和大規??梢晹祿谋ㄊ皆鲩L,上述認知正在發生深刻變化。三維傳感設備的精準化、實時化和低成本化,極大推動了三維數據獲取的發展和普及。因此,基于三維傳感數據的視覺技術應運而生。與傳統的二維視覺相比,三維輸入提供了目標環境或對象的位姿、幾何、拓撲、結構等信息,極大豐富了感知素材,提高了感知能力。

三維幾何的重建[1]、處理[2]和分析[3-4]一直是圖形領域的重要研究方向。海量三維數據的涌現使得數據驅動的三維感知成為可能。通過對大規模三維數據集進行聯合分析,學習三維幾何的表征,挖掘三維結構的先驗知識,以支持在線化、結構化、語義化的三維感知(如三維對象或場景的建模和理解)[5-6]。三維感知結果可直接支持三維空間規劃和推理,以驅動智能體與環境或對象的三維交互(例如機器人環境導航和對象抓取)。圖1(b)展示了基于數據驅動的幾何分析與理解對三維感知與交互的支撐。

圖1 傳統意義的圖形學與數據驅動時代的圖形學之間的區別((a)傳統意義圖形學與視覺;(b)融合三維視覺和智能圖形學的三維感知與交互)

交互技術原本就是計算機圖形學的重要組成部分。傳統意義上講,圖形學的交互主要面向人機交互:交互的主體是人,交互對象一般是由圖形學合成的虛擬環境或對象。人機交互系統通過向用戶呈現信息和理解用戶輸入,在信息空間和人的意識、意圖之間建立溝通。顯然,傳統的圖形交互系統并不能驅動交互主體,只能被動理解交互意圖并為交互主體提供反饋。面向機器人應用,智能圖形系統將突破傳統圖形在交互中的被動角色,以智能任務為牽引,以智能感知為驅動,讓智能體在真實或虛擬環境中完成對目標對象的交互,包括交互對象的感知、交互策略的學習、交互方式的優化、交互結果的反饋等等。因此,本文涉及的“主動交互”主要體現了智能圖形系統在交互中的角色,突出對智能體的主動交互引導,以區別于傳統人機交互的被動交互理解。

因此,計算機圖形學研究正在突破“信息表達”這一傳統范疇,逐步拓展邁入“信息感知”領域。圖形交互技術也由傳統的人機交互,逐漸延申至任務的智能體主動三維交互。以數據驅動三維幾何分析與建模的理論和方法,對三維感知形成重要支撐,并以此引導智能體與環境的三維交互。與此同時,圖形學與視覺、人工智能的深度融合,引入基于三維幾何的視覺感知新問題、新方法、新理論,將延伸和拓展圖形學的學科內涵和應用范疇,促進學科的交叉融合,推動技術的實際應用。

本文聚焦于三維幾何信息引導的主動感知與交互技術,以數據驅動方法為基礎,以智能機器人應用為落腳點,探討該方向的重要研究問題,介紹作者在該方向的研究案例,并嘗試討論未來趨勢和挑戰。

1 三維感知與三維交互

1.1 感知與交互的內涵與關聯

感知(perception)是外界刺激作用于感官時,腦對外界整體的看法和理解,為人們對外界的感官信息進行組織和解釋。認知科學包括獲取信息、理解信息、篩選信息、組織信息。以智能體為載體,其獲取的信息主要是三維空間的顏色、深度等視覺信息,而在感知過程中如何對這些信息進行理解、篩選、組織就顯得尤為重要。在計算圖形學領域,三維感知的最終目標可以看成是對三維場景的結構化語義重建,即在對三維場景的幾何、結構、語義等多層次信息進行有效提取的前提下進行深度融合與組織,為后續的其他任務所服務。

交互(interaction)是2個對象之間的交流互動,而本文特指的交互對象是智能體與三維環境。人類的日?;顒油峭ㄟ^與周圍環境中的三維物體進行交互實現的,因此,為了讓計算機模擬人的思維過程和智能行為,引導智能體與三維環境進行類人交互是其中極其重要的一個環節。具體地,計算圖形學領域目前所研究的智能體與三維環境的交互主要包括了智能體在三維空間中的路徑導航、對于三維物體的觸碰、抓取等方面的探索與優化。

智能感知與智能交互的關聯性在認知科學中有很好的對應和解釋[7]。智能感知對應于認知科學的“構造式感知”。傳感器獲取的信息往往具有片面性、間接性和模糊性,需要借助知識和推理來補充和校正獲取信息中的不完整和不準確部分。智能交互可類比于認知科學中的“注意力機制”[8],即目標導向的主動式感知和交互過程:面向特定任務,智能體基于在線獲取的感知信息和預先習得的先驗知識,完成目標環境的理解和任務相關的推理,引導智能體與環境交互來完成任務;同時,以環境理解程度和任務完成狀態為驅動,引導智能體進一步的信息感知。因此,智能感知與交互是以感知引導交互,以交互驅動感知,在目標任務導向下感知和交互交替執行、相互推進的過程。

1.2 三維感知與三維交互的內涵

通過構建目標環境的三維表達在感知與交互之間形成關聯和互動。由于機器人與對象或環境的交互發生在三維空間,構建目標物體或場景的三維幾何表示對三維交互尤為重要,可以類比于人類在大腦中對物體構建的形狀恒常性(shape constancy,類似于形狀不變性)[9],以及對環境構建的認知地圖(cognitive map)[10]。這也解釋了為什么基于三維信息的導航和抓取已逐漸成為當前機器人交互研究的主流趨勢。如,融合LiDAR和深度信息的視覺系統,在各類機器人、無人車、無人機上已經非常普遍;亞馬遜抓取挑戰賽(Amazon Picking Challenge)的絕大部分參賽團隊均選擇了RGBD(圖像+深度信息)的視覺方案。

但測度幾何一般只能滿足局部導航、避障等低層次交互需求,無法支持更高層次的交互。如,當機器人的任務是“打開瓶子倒出牛奶”時,其必須識別出奶瓶(語義標簽)并分辨出瓶身和蓋子(結構和功能)。因此,高層次任務的完成需要目標環境或對象的結構化、語義化三維表達。同時,由于感知具有不確定性,交互過程必須不斷為感知提供反饋,以驅動和引導智能體進一步感知,逐步矯正和完善三維場景表達中的幾何、結構和語義信息(圖2)。

以結構化、語義化三維表達為基礎,實現感知和交互的深度耦合,在二者之間形成反饋閉環,是智能三維感知與交互的重要特征,也是其區別于現有相關研究的不同點。在以往工作中,感知一般是交互的前序工作,二者是串行化的,因而無法充分利用交互中的反饋來引導感知,且在交互過程中也無法得到進一步的感知信息。事實上,人在完成任務,特別是在未知環境中的復雜任務,感知和交互往往是同時進行的,其中的感知-交互耦合就是建立在人腦對目標環境/對象構建的三維空間“認知地圖”上的。該思路具有生物啟發特性,有較好的可解釋性和科學意義。

圖2 智能三維感知與交互

2 “主動式”的特點、優勢與挑戰

2.1 “主動”在感知與交互中的體現

智能任務的完成是驅動智能體進行感知與交互的核心動力。智能體接受的智能任務方式,往往是一個抽象的任務描述,如人下達的任務指令和/或簡單任務描述。智能體必須將此任務描述轉化為一系列在具體環境中可執行的感知和交互動作。其中涉及任務的理解轉化和環境實例化?;谙闰灪椭R庫,對任務進行解析,形成智能體對目標環境、對象的感知和交互意圖,驅動智能體對感興趣的目標進行有的放矢的感知與交互,同時獲得信息反饋,以調整感知交互的目標和策略。面向智能任務的主動式三維感知與交互的主要特色在于智能體在任務的驅動下,實現感知與交互的深度耦合,以感知來引導交互,以交互來增強感知,從而在兩者之間形成一個反饋閉環,達到協同促進的目標。

相比于傳統的被動式感知與交互(2個任務相獨立,采取的是僅以被動獲取的信息為輸入的單線程模式),主動式三維感知與交互的主要優勢在于兩者之間形成的正向反饋和促進的循環機制,通過交互補充和校正感知所獲取信息中的不完整和不準確部分,并將增強后的信息更好地用于指導后續的交互行為。正是這種反饋增強的機制,使得智能體可以不斷地更正和調整,更加“聰明”和高效能地完成智能任務。

2.2 主動式感知與交互的主要難點

首先是智能任務的解析和場景實例化。如何將一個抽象描述的任務解析為機器人可理解、可執行的感知交互序列,并如何將上述感知交互序列在目標環境中進行實例化,形成感知興趣點(如視點)和交互目標點(如被抓取物體),是驅動智能體進行主動感知與交互首要解決的難題。

其次是感知與交互的耦合、反饋機制。主動感知和交互基于目標任務導向的注意力機制:面向某特定任務,智能體基于在線感知和先驗知識,完成感知和交互相關的推理,并基于推理確定性來驅動和引導智能體進一步的感知和交互。在認知科學中,這種任務相關的注意機制屬于自頂向下的方式,另一種自底向上的方式是純粹基于視覺激勵的前饋注意機制[11]。在人的認知活動中,兩者缺一不可,人的注意力既有任務、目標導引的部分,也有視覺刺激觸發的成分,二者結合形成更全面、正確的認知?,F有深度學習模型大多只針對某個或幾個分析、建?;蚪换サ娜蝿斩O計,并未考慮從獲取、建模、處理、分析、規劃到交互反饋的整個處理管線的完整感知與交互流程,無法實現這些任務的聯合學習。因此,如何實現2種注意機制的結合是三維感知和交互需要解決的重要問題。

3 案例研究介紹與分析

3.1 幾何引導的自主導航與主動重建

對于未知環境的自主建圖與導航是實現智能體對于三維環境的主動式感知與交互的首要任務,也是當前研究熱點之一。

如張量場引導的機器人自主導航與三維掃描[12]。在一個未知室內場景中,如何讓移動機器人在自主導航的同時實現場景的高質量三維掃描,是當前機器人領域很少觸及的難點。一方面,機器人要快速移動到尚未掃描到的地方,同時保證移動過程盡可能平滑。因為移動過程中,突然的轉向和卡頓,均會嚴重影響重建質量。如,機器人在探索中需要避障,為了保證掃描質量,對于障礙物要提前預判,提早規劃路線,因為突然轉向對掃描質量有很大影響。

為了解決此問題,文獻[12]提出一種基于時變方向場的自動場景掃描算法(圖3(a))。機器人在掃描的過程中同時重建三維場景,該方法將實時重建的部分場景,投影到地面上,再以二維投影邊界的切向作為約束,計算一個方向場。于是,機器人沿著此方向場運動,有2個好處:①由于方向場是以障礙物邊界的切向為約束計算的,沿著這個方向場移動,不會撞向障礙物;②方向場是二階連續的,可以保證機器人的移動軌跡的連續性。這2個方面均是高質量掃描的重要保證。

其實在機器人領域,基于向量場的機器人自動導航已有很多研究,但是基于方向場的導航工作尚屬首次。相對于向量場,方向場有以下優點:①方向場由于只有方向沒有朝向,因此避免了由于朝向而產生的二義性,所以奇異點比向量場少得多;②方向場具有二階光滑性,因此通過場對流計算得到的機器人運動路徑足夠光滑;③方向場有限的奇異點,可以使用流場的分裂線(separatrix lines)連接起來,從而形成場景的一個拓撲結構,基于此可以實現機器人的全局導航;此外,該方法還可以對方向場進行優化,如讓鄰近的2個奇異點成對消除,或讓奇異點盡可能隱藏在障礙物附近,而不影響機器人的運動。

針對移動機器人對大規模未知場景的主動式探索、掃描和重建,需要解決如何高效率探索且高質量重建的問題。文獻[13]提出了一種基于最優質量傳輸理論的多機協同掃描方法(圖3(b)),該方法不依賴于特定的機器人平臺,相比于以往單個機器人掃描的工作,在高效率的同時得到高質量的重建結果。

圖3 路徑導航案例((a)基于時變方向場的單機器人自動掃描重建[3];(b)基于最優質量傳輸理論的多機協同掃描重建[4])

該方法的核心思想是將多機協同重建任務公式化為資源分配問題。通過對當前已掃描重建模型的分析,提取需要額外掃描的區域并規劃掃描視角,將其作為重建任務的需求。機器人攜帶掃描設備,作為重建任務的供給。需求(多個掃描視角)和供給(多個機器人)分別表示為空間中的2個分布,構成了資源分配問題?;谧顑炠|量傳輸理論(optimal mass transport,OMT),該工作提出了針對協同重建任務的目標函數及其求解方法,求解得到機器人的任務分配,機器人通過完成掃描任務更新模型,從而迭代地完成漸進式重建。

求解資源分配目標函數的核心是如何利用OMT獲取近似最優解。該目標函數高度離散化,直接求解往往難以得到最優解。文獻[13]提出基于勞埃德算法的近似求解方法,可以高效地求得近似最優解。通過大量模擬實驗和真機實驗,驗證了該方法可在大規模未知場景中驅動多個機器人自動探索、掃描和重建高質量的三維模型,在效率和效果上均超越了以往的多機協同方法。

3.2 幾何引導的主動交互與靈巧抓取

觸碰抓取作為智能體與三維環境的主要交互方式,一直以來都是機器人領域的一個重要研究分支,而當結合了圖形學技術,將感知與交互進行深度融合,以主動觸碰來增強語義理解,以幾何感知來引導物體抓取,為這一方向的發展提供了新思路和新途徑。

針對復雜未知場景的物體分割,文獻[14]提出一種主動式場景重建與物體分割方法,通過機器人主動交互實現場景的分割(圖4(a))。其主要流程是,首先機器人掃描場景需同時進行在線三維重建。對于重建場景,先做過分割,然后采用graph-cut的方法進行初始分割。針對分割不確定的地方,該方法驅動機器人推動一下,就可以得到物理上的可分和不可分,從而得到準確的分割結果。此外,機器人還可以在線學習,對于推動的東西,可以學習其分割,下次再遇到類似情況,可以直接預測分割結果,而不需要再進行物理交互。

為驅動機器人的主動交互,需要度量場景中的不確定性。該方法主要考慮分割和重建2個方面的不確定性,計算2個因素的聯合熵。分割熵的計算相對直接,在graph-cut分割中,每一條被切割的圖邊均有一個切割概率,分割熵就是基于這些邊的切割概率計算。重建熵是該方法的核心技術貢獻。重建三維點云時,一般采用的是泊松重建。該方法是基于點云計算的一個泊松場,該場的零值面表示被重建的曲面。泊松場的零值面有一個重要特點,即該梯度剛好反映點云局部的確定性。點云越稀疏,噪聲外點越大,梯度越小,則重建不確定性越高;點云越稠密,噪聲外點越少,梯度越大,則重建不確定性越低。直觀上講,重建不確定的地方,點云就比較模糊;相反,重建確定的地方,點云比較清晰。因此該方法可以基于泊松場零值面的梯度來計算重建熵。

為了改善物體的抓取效果,文獻[15]提出了基于深度幾何表達的抓取優化算法(圖4(b))。對于給定的RGBD圖像,該方法首先通過一個生成模型顯式地重建了物體的三維幾何,再通過投影得到相應局部視角,兩者共同作為抓取預測網絡的輸入得到最終的抓取姿勢。相比于先前的不考慮物體幾何的抓取預測方法,該方法的抓取成功率有明顯的提升。此外,得益于完整的幾何表達,該方法對于其他視角的抓取姿勢的生成也具有更好的泛化性,并能用于指導更優抓取姿勢的規劃。

高自由度抓取是機器人靈巧操作的重要研究問題,具有廣闊地應用前景。文獻[16]提出基于交互幾何表征學習的高自由度靈巧抓取(圖5)。該工作將機械手與物體之間的夾取交互表示為交互二分面(interaction bisector surface,IBS)。IBS源自于生物信息學領域,近年被引入到圖形學領域,用于描述場景中物體之間的交互關系以實現場景理解與建模。IBS可以很好地刻畫高自由度機械手的每一個手指與物體之間的細粒度空間交互關系,是一種非常有效的交互狀態表示。結合深度強化學習,可以有效建模和學習抓取過程中二者間的動態交互,從而以較高的樣本效率學習高自由度抓取控制策略。此外,基于這種幾何表征習得的控制模型具有較好的動態適應性和跨類別泛化性。

3.3 三維感知與交互的在線學習與規劃

智能體的交互任務往往涉及智能決策,需要進行在線的策略學習和動作規劃。如,在裝配和物流行業,基于機器人的拆、碼垛就是一個典型的涉及在線決策規劃的任務。但是,目前機械臂的智能化水平仍然較低,未對操控過程進行合理優化,而更多是根據預設的指令進行操作。因此,如何利用智能圖形技術,通過獲取到的幾何信息來自主引導機器臂的操控效率和操作步驟的優化逐漸受到關注。

圖4 幾何引導的主動交互與靈巧抓取((a)主動交互場景分割[5];(b)基于深度幾何表征學習的抓取優化[6])

圖5 基于交互二分面的動態交互表征學習實現高自由度靈巧手抓取過程規劃

在物流倉儲場景中,無序混合紙箱碼垛機器人有著大量的應用需求。對于亂序到來的、多種尺寸規格的箱子,如何用機器人實現自動、高效地碼垛,在節省人力的同時提升物流周轉效率,是物流倉儲自動化的一個難點問題。其核心是求解裝箱問題(bin packing problem,BPP)這一經典的NP難題,即為每一個紙箱規劃在容器中的擺放位置,以滿足最大化容器的利用率。求解BPP問題的傳統方法大多是基于啟發式規則的搜索。在Online BPP問題中,機器人僅能觀察到即將到來的個箱子的尺寸信息(即前瞻個箱子),可稱其為BPP-k問題。對按序到來的箱子,機器人必須立即完成規劃和擺放,不允許對已經擺放的箱子進行調整,同時要滿足箱子避障和放置穩定性的要求,最終目標是最大化容器的空間利用率。Online BPP問題的復雜度由箱子規格、容器大小、箱子序列的分布情況和前瞻數量等因素共同決定。由于僅知道部分箱子序列的有限信息,以往的組合優化方法難以勝任。

文獻[17]提出使用深度強化學習求解這一問題(圖6(a))。強化學習是一種通過自我演繹并從經驗中學習執行策略的算法,很適合求解Online BPP這種基于動態變化觀察的序列決策問題。同時,堆箱子過程的模擬仿真非?!傲畠r”,因而強化學習算法可以在模擬環境中大量執行,并從經驗中學習碼垛策略。然而,將強化學習算法應用到Online BPP上有幾個方面的挑戰,首先,如果將水平放置面劃分成均勻網格,BPP的動作空間會非常大,而樣本效率低下的強化學習算法并不擅長應對大動作空間的問題。此外,如何讓強化學習算法更加魯棒、高效地學習箱子放置過程中的物理約束(如碰撞避免、穩定支持等),也是需要專門設計的。

為了提升算法的學習效率,同時保證碼放的物理可行性和穩定性,該方法在Actor-Critic框架基礎上引入了一種“預測-投影”的動作監督機制。該方法除了在學習Actor的策略網絡和Critic的Q值(未來獎勵的期望)網絡之外,還讓智能體“預測”當前狀態下的可行動作空間(可行掩碼,feasibility mask)。在訓練過程中,依據預測得到的可行掩碼將探索動作“投影”到可行動作空間內,再進行動作采樣。這樣的有監督可行性預測方法,一方面可以讓強化學習算法快速學習到物理約束,另一方面也盡可能避免訓練中箱子放置到不可行位置而提前終止序列,從而顯著提升訓練效率。在實際應用場景中,機器人往往無法預先看到傳送帶上即將到來的所有箱子,故無法對整個箱子序列進行全局最優規劃。因而現有的BPP方法無法被直接用于真實物流場景。事實上,人可以根據即將到來的幾個箱子的形狀尺寸,很快地做出決策,并不需要、也無法做到對整個箱子序列的全局規劃。該問題的求解對于開發真正實用的智能碼垛機器人有重要意義。在一項用戶調查中,該方法的擺放性能甚至超越了人類。在包含總共1 851個高難度隨機箱子的序列中,人類獲勝的次數是406次,平均性能表現是52.1%,而強化學習獲勝的次數是1 339次,平均性能表現是68.9%。

圖6 裝箱問題的在線優化與規劃((a)在線裝箱優化[7];(b)轉移裝箱優化[8])

作為裝箱問題的一個變種,文獻[18]研究了轉移裝箱問題(transpose and pack,TAP),如圖6(b)所示。給定一組堆疊的貨物箱子,轉移TAP的目標是逐個轉移這些箱子并將其緊湊地裝箱到目標容器中,其為一個沒有中途緩存空間的拆垛與碼垛問題。由于初始堆疊帶來的箱子可接觸性限制,該問題必須在裝箱問題本就龐大的搜索空間中增加轉移規劃的維度,即找出一個最優的轉移順序。該方法使用優先級圖表示物體轉移的約束條件,并通過在強化學習訓練中獎勵有效且穩定的轉移裝箱方案,訓練了一個神經網絡對解決方案的模式進行編碼和學習。該網絡能在小規模樣本訓練的基礎上,很好地拓展到對較大規模問題實例的求解,具有非常強的實際應用價值。

4 結束語

三維感知與交互主要研究的是對于三維場景的視覺感知(包括幾何、結構、語義等多層次信息的獲取與理解)和交互反饋(包括智能機器人或者虛擬角色在三維空間中的路徑導航、觸碰抓取等多方面操控的探索與優化),是圖形學和虛擬現實的一個重要研究分支,也是圖形學、人工智能和機器人等多門學科進行交叉融合的前沿研究方向。本文嘗試從4個方面探討該方向的開放問題和發展趨勢。

(1) 三維感知的全??晌⒎謨灮?。機器學習技術的引入,特別是三維幾何深度學習的興起,極大促進了數據驅動三維幾何分析與建模的發展。然而,三維深度學習追求“端到端”可學習性,往往忽視了傳統幾何分析與建模的處理管線,帶來樣本效率低、模型泛化能力受限、可解釋性差等問題。更重要的是,現有深度學習模型大多只針對幾何建?;蚶斫獾哪硞€任務而設計,缺乏從獲取、處理、重建到分析、理解的整個幾何計算管線的完整建模,無法面向智能感知任務進行聯合學習和優化。如,如何借助幾何分析(“知”)的學習梯度來自動優化和調整前端的三維獲取過程(“感”),實現以“知”引導“感”的可微分優化感知與建模,進而打通智能任務對主動感知過程的優化和引導。如何將深度學習融入三維幾何獲取、重建、分析和理解的完整管線中,實現“全??晌⒎帧钡闹鲃邮饺S環境感知與建模,是值得深入探索的研究方向。

(2) 目標環境的幾何-結構-語義聯合表達構建。為支持面向智能任務的環境感知和交互,需要基于三維感知和建模的結果來構建和維護目標環境的結構化、語義化三維表達。該表達的基礎是場景/對象的三維幾何表示。在幾何表示的基礎上,通過數據驅動的場景分析,可以進一步得到環境的結構表達。結構涵蓋了場景/對象的組成部分以及各部分之間的空間拓撲關系。結構信息可用于支持結構關系層面的中層次交互任務,如拆卸和安裝等?;趲缀魏徒Y構表示,還可以進一步實現數據驅動的語義分析,得到目標環境的整體或局部語義標簽、功能解析、屬性關聯,以支持語義功能層面的高層次交互任務。如,讓智能體在理解人的意圖后執行高級語義任務。因此,如何實現融合幾何-結構-語義的目標環境聯合表達,以及該聯合表達的動態更新,是實現智能三維感知與交互的基礎。

(3) 感知-交互的聯合優化和反饋增強。由于感知與交互的耦合特性,如何在一個統一計算框架下實現面向智能任務的感知交互聯合優化和反饋增強,是值得研究的重要方向。一個可能的思路是,面向某個特定任務,智能體對目標環境進行探索式環境感知,通過在線數據驅動分析理解完成感知推理,基于推理結果和任務策略實現基于注意力機制的交互規劃,進而驅動和引導智能體對目標環境的進一步感知和交互,同時完成任務策略的學習更新,直到任務完成。

(4) 虛實融合環境下的感知-規劃-交互閉環?;趶娀瘜W習的交互策略學習已經在一些挑戰性任務上取得了成功,如抓取、導航、運動合成等。但是,強化學習面臨樣本效率低、策略遷移困難等難題,極大地制約了其在復雜任務學習方面的應用。特別是面向智能任務的從感知到規劃再到交互的端到端策略學習上,上述問題更加凸顯。為此,通過場景感知不斷構建和更新真實目標環境的虛擬鏡像,基于真實和虛擬樣本同時訓練交互策略,在虛實同步的平行環境中實現感知-學習-規劃-交互的閉環,可有效降低強化學習的采樣代價,也有助于學習易于遷移的策略。當前,數字孿生與強化學習的結合受到了工業和學術界越來越多的關注。此處,基于實時三維感知建立和維護虛實同步的學習環境是數字孿生學習的基礎。因此,感知將承擔學習環境建模(包括幾何、物理、語義、功能等多方面的建模)和智能交互引導的雙重角色。

[1] ZOLLH?FER M, STOTKO P, G?RLITZ A, et al. State of the art on 3D reconstruction with RGB-D cameras[J]. Computer Graphics Forum, 2018, 37(2): 625-652.

[2] PATANE G. STAR - Laplacian spectral kernels and distances for geometry processing and shape analysis[J]. Computer Graphics Forum, 2016, 35(2): 599-624.

[3] MITRA N J, PAULY M, WAND M, et al. Symmetry in 3D geometry: extraction and applications[J]. Computer Graphics Forum, 2013, 32(6): 1-23.

[4] HU R, SAVVA M, VAN KAICK O. Functionality representations and applications for shape analysis[J]. Computer Graphics Forum, 2018, 37(2): 603-624.

[5] XU K, KIM V G, HUANG Q X, et al. Data-driven shape analysis and processing[EB/OL]. [2022-07-10]. https://arxiv.org/abs/1502.06686.

[6] CHAUDHURI S, RITCHIE D, WU J J, et al. Learning generative models of 3D structures[J]. Computer Graphics Forum, 2020, 39(2): 643-666.

[7] GORDON I E. Theories of visual perception[M]. 3rd ed. Hove, East Sussex: Psychology Press, 2004: 117-142.

[8] LUCK S J, FORD M A. On the role of selective attention in visual perception[J]. Proceedings of the National Academy of Sciences of the United States of America, 1998, 95(3): 825-830.

[9] LI Y F, PIZLO Z. Depth cues versus the simplicity principle in 3D shape perception[J]. Topics in Cognitive Science, 2011, 3(4): 667-685.

[10] BARRY C, DOELLER C F. Neuroscience. 3D mapping in the brain[J]. Science, 2013, 340(6130): 279-280.

[11] BUSCHMAN T J, MILLER E K. Top-down versus bottom-up control of attention in the prefrontal and posterior parietal cortices[J]. Science, 2007, 315(5820): 1860-1862.

[12] XU K, ZHENG L T, YAN Z H, et al. Autonomous reconstruction of unknown indoor scenes guided by time-varying tensor fields[J]. ACM Transactions on Graphics, 2017, 36(6): 1-15.

[13] DONG S Y, XU K, ZHOU Q, et al. Multi-robot collaborative dense scene reconstruction[J]. ACM Transactions on Graphics, 2019, 38(4): 84.

[14] XU K, HUANG H, SHI Y F, et al. Autoscanning for coupled scene reconstruction and proactive object analysis[J]. ACM Transactions on Graphics, 2015, 34(6): 177.

[15] YAN X C, HSU J, KHANSARI M, et al. Learning 6-DOF grasping interaction via deep geometry-aware 3D representations[C]//2018 IEEE International Conference on Robotics and Automation. New York: IEEE Press, 2018: 3766-3773.

[16] SHE Q J, HU R Z, XU J Z, et al. Learning high-DOF reaching-and-grasping via dynamic representation of gripper-object interaction[J]. ACM Transactions on Graphics, 2022, 41(4): 1-14.

[17] ZHAO H, SHE Q J, ZHU C Y, et al. Online 3D Bin packing with constrained deep reinforcement learning[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(1): 741-749.

[18] HU R Z, XU J Z, CHEN B, et al. TAP-Net: transport-and-pack using reinforcement learning[J]. ACM Transactions on Graphics, 2020, 39(6): 232.

Geometry-guided active 3D perception and interaction

XU Kai, HU Rui-zhen, YANG Xin

(1. School of Computer Science, National University of Defense Technology, Changsha Hunan 410073, China; 2. School of Computer and Software, Shenzhen University, Shenzhen Guangdong 518060 China; 3. Department of Telecommunications, Dalian University of Technology, Dalian Liaoning 116000, China)

With the proliferation of 3D sensors and the development of large-scale 3D data, visual perception based on 3D reconstruction and understanding has

much attention. Meanwhile, intelligent graphics also leads a breakthrough in active interaction, becoming task-driven and targeting both virtual and real environments. In this sense, computer graphics, which is traditionally a field of information expression, is now expanding into the territory of information sensing. The interaction of computer graphics is also moving towards active interaction driven by intelligent tasks. Alongside this trend, data-driven analysis and modeling of 3D data, especially the corresponding online techniques, have been playing a critical role. This article expounded on active 3D perception and interaction from the perspective of the fusion between graphics and vision, along with several concrete research examples. A special emphasis was put on the advantages and challenges of being active for 3D perception and 3D interaction, and tentative explorations were made on the open problems and trends along this direction.

geometric guidance; 3D perception and interaction; active perception and interaction

TP 391

10.11996/JG.j.2095-302X.2022061049

A

2095-302X(2022)06-1049-08

2022-08-08;

:2022-10-15

國家自然科學基金項目(62132021,61972067);科技創新2030項目(2022ZD0210500)

徐 凱(1982-),男,教授,博士。主要研究方向為幾何建模、三維視覺、數據驅動的圖形學。E-mail:kevin.kai.xu@gmail.com

8 August,2022;

15 October,2022

National Natural Science Foundation of China (62132021, 61972067); National Key Research and Development Program of China (2022ZD0210500)

XU Kai (1982-), professor, Ph.D. His main research interests cover geometric modeling, 3D vision, data-driven graphics. E-mail:kevin.kai.xu@gmail.com

猜你喜歡
驅動建模機器人
基于模糊PI控制的驅動防滑仿真系統分析
屈宏斌:未來五年,雙輪驅動,砥礪前行
聯想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運動”為例
軌旁ATC系統門控柜接收/驅動板改造
在808DA上使用WIFI進行驅動數據同步
基于PSS/E的風電場建模與動態分析
機器人來幫你
認識機器人
機器人來啦
IDEF3和DSM在拆裝過程建模中的應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合