?

服務機器人視覺導航系統的應用研究
——以雙目視覺導航系統為例

2024-02-03 08:52黃琴艷
信息記錄材料 2024年1期
關鍵詞:雙目位姿神經網絡

黃琴艷

(上海信息技術學校 上海 200331)

0 引言

服務機器人應用技術已經不再單純局限于生活空間,相關的技術越來越成熟廣泛,特別芯片和電子產品生產成本的降低,家庭服務機器人的生產成本大幅降低,終端銷售市場規模呈現高速增長的態勢。 根據統計數據顯示,全球服務機器人的市場規模從2016 年的54 億美元增長至2020 年的110.3 億美元,年均復合增長率達19.9%[1]。

作為與人類共同完成或協助人類完成指定任務的智能產業設備,服務機器人主要集成了計算機技術、液壓氣動技術、電子信息技術等,綜合智能認知、智慧運動和自適應學習等為一身的綜合系統[2-3]。 當前研究領域中,視覺感應技術是服務機器人研發中最為核心的技術,技術的高度直接決定了服務機器人產業發展的未來。 而我國的相關技術目前還處于初期階段,還需要廣大的科研工作者共同努力,為其發展提供支撐和貢獻。

1 服務機器人導航技術研究現狀

服務機器人在人類的生活中,主要是為人類提供方便生活的智能化服務,因此,實現服務機器人的自由移動首先要解決其導航問題,在此基礎上,機器人才能自主完成自主移動和物品的準確抓取。 服務機器人運動導航系統的工作原理是機器人在運動時利用自身安裝的傳感器,明確其在工作環境中的所在位置和自主姿態[4]。 當工作目標的坐標方位已知的時候,機器人就可以自主規劃運動,完成人類規劃的任務。 本研究主要針對視覺導航技術開展研究。

1.1 視覺導航系統

人類在自然環境中生活,需要從外獲取大量的信息,其中至少85%以上都是通過視覺獲取的,視覺獲取外部信息時具有全面和時效性強等特點,是人類生活中最為重要的感知內容[5]。 機器人和人類的基本結構不同,因此,人類的視覺技術應用于機器人是通過一定的流程實現的。具體流程為:首先,機器人利用自身傳感器獲取環境信息,實現自主決策和執行任務;其次,通過內部運算芯片、定位算法、機器人自身的攝像機,對識別出的環境及物品進行圖像處理;最后,機器人根據運算數據規劃運動和工作軌跡。

1.2 視覺導航系統關鍵技術

服務機器人的導航依賴于機器人自身的攝像機。 導航方式是雙目視覺導航技術,該技術是通過對兩個不同視角拍攝的圖像進行數據的三維恢復,產生實時的運動位置信息。 由此可見,雙目視覺導航的視野更廣,機器人可以實時取得更加準確的位置數據,直接有效提升了導航的精準性。 因此,當今雙目視覺導航應用得更多、更廣泛。

2 雙目視覺導航技術的定位算法

一個完整的雙目視覺導航過程主要包括攝像機的目標識別、目標定位、環境匹配、三維數據恢復等步驟[6]。 雙目視覺導航技術的工作原理與人類視覺的感知過程十分相似,是從兩個不同的角度分別對同一物體進行實時的圖像定位,從而明確該物體三維實時信息的過程[7]。

雙目視覺導航定位的工作原理圖如圖1 所示,對于環境中的某一位置點P,攝像機的角度中,P點左右兩個成像點分別是PL和PR,機器人此時無法確定P點坐標,而且,它的兩個投射點OL也不能被準確地測量。 當使用OL和OR兩個攝像頭共同對準P點,并準確地測量出PL和PR的投射,那么P的坐標將得到精準的測量,它可以由OLPL和ORPR兩條直線的焦點唯一確定。

圖1 雙目立體視覺原理圖

2.1 雙目視覺系統的標定方法

通過獲取兩個攝影頭的內部和外部信息,可以進行雙目標定,從而確定兩個攝影頭的相互位置。 這包括兩個攝影頭的軸心和方向的變化,也就是兩個攝影頭的外部信息[8]。 如果將P作為一個參考值,假設R1和T1表示左側拍攝器的軸心位置的變化,并且它們的軸心位置將會發生變化,這兩個變化將會導致PW=的值的變化,其中PW=(P1-T1);PW=(P2-T2)。PW代表著一個物體的位置,它位于全球的坐標系,并且它位于兩臺不同的攝影機的坐標系P1和P2。 因此,應使用(P1-T1)=(P2-T2)來表示雙目視覺。

2.2 目標識別技術

通過使用目標識別技術,可以有效地檢測出目標物的存在,從而實現高效的機器人視覺定位。 該技術的核心原則是:從圖像中抽取出有價值的元素,經過深入的數據挖掘和計算,將其轉換成可以被檢測的形式,從而實現快速、高效的目標識別。 當前,最流行的目標鑒定技術包括:以圖像和文字作為指示,以及以物體的外觀和結構作為指示[9]。

2.3 幾何不變矩算法識別

機器人視覺識別技術常用的算法有形狀描述識別、矩識別等。 隨著視覺識別技術的不斷發展,幾何不變矩算法憑借準確、快速等特征,已經成為當前視覺識別算法中廣泛應用的領先技術。

通過幾何不變矩算法,可以將圖像分割成7 個獨立的區域,并通過歐氏距離法來比較它們之間的相似度,從而確定哪些區域更接近目標區域。 這一過程需要對圖像進行二值化處理,以獲得更準確的結果。

幾何不變矩算法由7 個獨立的矩形組成,這些矩形可以是二維的、可變的,也可以是多維的,可以用于實現任何形狀的變換,如旋轉、平移和縮放。

通過幾何不變矩的方法,可以實現對目標的準確識別。

①通過設定一個特定的閾值,可以計算出模板的幾何不變矩。 ②通過使用濾波算法,可以消除圖片上的噪聲,從而更好地進行后期的數據分析。 ③通過利用灰度差的原則,可以把原始的圖片變換成僅包含0 和1 兩個像素的數字,從而實現對圖片的二值化。 ④通過二值化處理,可以提取出圖像中的區域,并計算出每個區域的輪廓。 ⑤通過計算圖像中輪廓的幾何不變矩,以及它們與模板的幾何不變矩之間的歐氏距離,來確定它們之間的關系。 ⑥通過比較各個輪廓的歐氏距離:如果低于預先設定的閾值,就可以斷定該輪廓所在的區域就是目標物;如果未發現圖像輪廓,就需要檢查閾值的設置是否合理,如果符合,就可以斷定該場景中沒有目標物;如果不符合,就需要重新調整閾值。 ⑦通過形心計算,可以獲取目標區域的圖像坐標。

2.4 場景立體匹配

雙目視覺系統在完成定位后,需要將左右兩攝像機的圖像進行匹配,建立兩個圖像之間的聯系,再實現立體空間坐標點的測量。 在實際測量過程中,利用獲取的兩幅圖像來恢復空間中目標點的三維姿態,需要在兩張圖片中找到相應的匹配關系,這一過程也就是場景立體匹配。

在將三維世界的信息投影到二維圖像平面的過程中,部分有用信息喪失,同時大量的噪聲干擾了三維信息恢復的難度,為了降低這些不良因素的影響,減小立體匹配過程中的誤匹配概率,學者們針對立體匹配過程提出了極線約束、唯一性約束、相似性約束、連續性約束和順序一致性約束等幾項約束條件。

2.5 三維信息的場景恢復

對于立體圖像的視覺識別,完成了攝像機標定以及目標識別與立體匹配之后,接下來的工作就是利用這些數據對物體進行三維重構。 對于攝像機任意放置的雙目視覺系統,目標物形心P在圖像像素坐標系下的坐標P1和P2已經通過目標識別以及立體匹配過程得出,設左右攝像機的透視投影矩陣分別是M1與M2,則可以得出Zc1的矩陣。

其中,(u1,v1,1)與(u2,v2,1)分別是目標物形心在左右圖像像素坐標系中的齊次坐標,(X,Y,Z,1)是目標物形心在世界坐標系下的齊次坐標,(i=1,2;P=1,2,3;q=1,2,3,4)分別是Mi在第P行,第q列的元素。 消去Zc1和Zc2,就可以得到關于X,Y,Z的四個線性方程。 其中P1和P2是P的對應點,因此該矩陣有唯一的P值與之對應,而在實際應用中,并不能得到精確解,采用最小二乘法求出P點在世界坐標系下的坐標:P=(ATA)-1ATb。

3 服務機器人視覺重定位技術

重定位技術對于服務機器人的室內長期運行至關重要,它可以幫助機器人更好地適應實際環境。 當系統重新啟動,它將會使用之前儲備的地理信息來完成各種工程操作,例如定位和指引。 通過感應器檢測,可以重新定位已經存儲的地圖上的物體的位置。

經過一周的室內操作,可以創造一張三維地圖M3D,它的原始地理坐標是A,而且它的第一個關鍵幀就是{OM},這樣就可以將整個地圖的空間范圍精確地定義下來。 當機器人在執行任務時,如果相鄰關鍵幀之間的特征能夠很好地匹配,就能夠更精確的預測它的位置。 因此,利用關鍵幀技術來創建一張地圖,其中包含了關鍵幀及其相關的三維數據,這些數據也被用于構成一套完整的地理信息系統。 通過使用地圖上的節點,能夠更好地了解周圍的情況,從而使用機器人來實現自我監控。

3.1 融合特征法和卷積神經網絡的視覺重定位算法

當前,重定位算法的視覺化方法包括特征提取法和卷積神經網絡算法。 利用特征法,研究人員能夠從多個圖像樣本中抽取出有意義的信息,這些信息包括顏色、形狀、亮度和其他因素。 這種方法能夠有效地預測出圖像之間的關系,而且能夠獲得較好的重建效果。 然而,當這些條件不利時,這種方法的準確性會受到影響,有時會出現較大的偏差。 使用卷積神經網絡進行重定位可以提高模型的準確率,因為它能夠從一個模型中提取多個位置,并且能夠根據不同的外部條件進行調整。 然而,這種算法也存在一些缺陷,比如它的準確率可能會受到外部因素的影響。

本文旨在探索一種新的技術,以便讓機器人能夠以更加穩健的方式進行重新定向。 該技術將兩種技術有效地整合,即當需要的特征數量較大時,采用特征分析,而當需要的數據較少時,采用卷積神經網絡來計算。 算法整體結構如圖2 所示。

圖2 視覺重定位的算法實現流程

3.2 重定位算法的設計實現

視覺重定位的算法實現(見圖2),主要通過以下流程:基于視覺詞袋模型的相似圖像檢索—特征法求解位姿—基于卷積神經網絡的位姿求解—算法選擇。 實現的過程的主要內容包括:

(1)以詞袋模型為模式的相似圖像檢索。 詞袋模型是將圖像特征表述為離散的視覺單詞,構成視覺字典,在圖像檢索時,將圖像特征映射到字典中最近鄰視覺單詞上,通過計算視覺字典間距離來度量圖像的相似度。

(2)基于特征法的重定位。 雙目視覺識別系統通過特征提取和匹配,在兩張圖像中獲取匹配的二維目標點,對于深度相機等傳感器可直接獲得二維目標特征點的深度值,然后,使用相關公式求解圖像對應的相機位置。

(3)基于卷積神經網絡的重定位。 通過訓練一個神經網絡實現對輸入圖像的位姿估計,能夠直接估計圖像的絕對位姿。 算法需要使用圖像及對應的位姿作為訓練集,訓練網絡參數。 通過對輸入圖像進行多次裁剪,選擇出與訓練集圖像相似度高的圖像進行位姿回歸。

(4)算法選擇。 特征法只能在匹配的特征點數量足夠且正確匹配情況下獲得較高精度的位姿,若特征點數量稀少則誤差很大或求解位姿失敗。 基于卷積神經網絡算法可估計出任意輸入圖像的位姿,但精度不足。 因此,結合兩種方法的優勢,在特征匹配較好情況下,使用特征法,否則,使用卷積神經網絡的算法。

4 結語

就服務機器人系統的應用而言,要構造出類似人類雙眼的立體視覺導航系統,還有很多關鍵技術需要突破和優化,未來的研究方向首先是如何建立更加有效的雙目體模型,以匹配更多的約束信息,降低立體匹配的難度。 其次是研究新的適用于立體視覺的計算理論和匹配策略,有效解決灰度失真、幾何畸變、噪聲干擾等問題。 最后是應用算法和場景的優化,減少運算量,提升系統的實用性。

隨著光學傳感器、電子芯片技術和無線網絡技術的快速發展,雙目視覺導航技術必將迎來新的技術突破,實現應用場景的全面優化。 服務機器人雙目視覺識別導航技術有著重要的研究價值和廣闊的應用前景,需要廣大的科研工作者共同努力,為其發展提供支撐和貢獻。

猜你喜歡
雙目位姿神經網絡
基于雙目測距的卡爾曼濾波船舶軌跡跟蹤
神經網絡抑制無線通信干擾探究
基于共面直線迭代加權最小二乘的相機位姿估計
基于CAD模型的單目六自由度位姿測量
基于神經網絡的拉矯機控制模型建立
基于雙目視覺圖像的長度測量方法
小型四旋翼飛行器位姿建模及其仿真
復數神經網絡在基于WiFi的室內LBS應用
基于支持向量機回歸和RBF神經網絡的PID整定
基于幾何特征的快速位姿識別算法研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合