?

仿壁虎爬壁機器人的語音識別及語音回放系統研制

2023-02-27 12:40林金洪吳國沛
機械設計與制造 2023年2期
關鍵詞:爬壁測試工具壁虎

林金洪,吳國沛,蔡 蒂,張 鐵

(1.廣州供電局有限公司,廣東 廣州 510620;2.華南理工大學機械與汽車工程學院,廣東 廣州 510641)

1 前言

隨著人工智能技術、通信技術以及機器人技術的高速發展,將語音識別技術應用于機器人的控制中,用語音控制替代繁瑣的鍵盤控制,發展前景良好,研究價值較高。而近年來,各種研究都提出了新的語音增強算法,以提高語音增強技術的適用范圍[1-2],其中,基于深度神經網絡的語音處理方法受到學者關注,其能很好地映射輸入語音和增強語音之間的非線性關系,但是此類方法需要大量訓練樣本且需要較高的模型匹配度,否則去混響效果會受到很大的影響[3-4]。文獻[5]將小波包變換方法引入到語音識別的特征參數提取中,在機器人操作系統(Robot Operating System,ROS)下實現了移動機器人語音控制,但由于深度學習需要大量訓練樣本,實現語音識別方法與移動機器人控制技術完美融合還需要深入研究。

鑒于此,這里在仿生壁虎爬壁機器人的控制中采用語音識別技術,以期研制一種仿壁虎爬壁機器人的語音識別及語音回放系統。本系統實現鍵盤/語音的雙重操縱,方便了使用者的操作。其中硬件電路上采用的語音識別和語音回放技術使機器人具有操作方便的特點。同時,兩模塊電路與以STM32單片機為控制核心的電路之間接口簡單,且調試效果非常理想,以下介紹兩模塊的硬件電路。

2 基于嵌入式系統的壁虎機器人設計

通過對壁虎的身體結構和運動規律的研究[6-8],我們設計了一種四足仿壁虎機器人,其結構示意圖和三維建模示意圖,如圖1所示。該壁虎機器人的四條腿分別位于四角且對稱分布,每條腿由3個電機提供3個旋轉自由度,共同實現抬腿、伸腿及縮腿等動作。而在機器人的整體運動上,機器人可以實現直線行走,橫移行走、整體復位等動作。

圖1 仿壁虎機器人結構圖Fig.1 Structure Diagram of A Gecko-Like Robot

在仿生壁虎爬壁機器人的控制上,采用鍵盤輸入和語音識別輸入相結合的控制方式,有利于方便使用者的操作,同時有利于機器人迅速適應復雜的工作環境。

壁虎機器人的控制系統可分為四大模塊,分別為:主控系統、語音輔助控制部分、鍵盤控制部分和電機驅動部分,如圖2所示。

圖2 壁虎機器人控制系統框圖Fig.2 Gecko Robot Control System Block Diagram

第一部分為主控系統模塊,該模塊用于對整個系統進行監控與分配,包括接收鍵盤/語音控制命令和傳感器位置信號的輸入,以及輸出電機的控制信號;第二部分為語音輔助控制模塊,主要負責語音的識別和回放,將操縱者的控制命令(聲音)轉化成電信號,經編碼轉換后傳輸至主控制系統,同時接收來自主控制系統的反饋電信號,把這些控制指令轉換為操作者可以理解的聲音信號;第三部分是鍵盤控制模塊,在沒有開通語音識別控制系統時,操作人員可以通過操作鍵盤來實現機器人運動方向轉換的需求;第四部分是電機驅動模塊,是實現機器人各關節運動的動力源。

3 壁虎機器人的語音識別系統

3.1 語音識別電路的設計

語言是人與人之間進行交流的最有效工具,同時也是人與機器之間進行通信的新型高效的工具。語音識別技術是讓機器對語音信號進行相應的處理、采樣、識別后,轉換成相應命令的技術,其流程,如圖3所示。將語音控制技術引入到仿生壁虎爬壁機器人的控制之中,將極大地方便于使用者。

圖3 語音識別模塊框圖Fig.3 Block Diagram of Voice Recognition Module

語音信號是非平穩信號,其特性是隨時間變化的[9],由于語音信號由發聲器官的物理運動產生,這種物理運動過程與聲波振動的速度比起來緩慢的多。在(10~30)ms的短時間內,可以認為語音信號的特征基本保持不變,即語音信號存在“短時平穩性”[10]。實際應用中,通常截取一段具有短時平穩性的語音(即1“幀”語音)來進行分析和處理,該段語音的長度稱為幀長[11]。語音信號的這種短時平穩特點決定了對語音采取短時處理方法,也稱為時間處理分析。

3.1.1 預處理及特征參數提取

為了方便系統識別語音信號,需要對原始模擬語音信號進行預處理,從中提?。ɑ驕y量)有代表性的、合適的特征參數,并進行適當的數據壓縮[12]。通過特征參數提取,可為接下來的語音識別提供語音數據,這意味著,特征參數提取效果的好壞會直接影響語音識別效果[13]。

由于原始的模擬信號數據量大,并且包含有很多的隨機因素,從而使語音信號的帶寬不明確,因此在采樣前需要對其進行必要的濾波處理。常用的方法是在電路中接入低通濾波器,將帶寬控制在一定的范圍內,避免高頻成分產生失真[14]。

經過濾波后的語音信號,接著便是進行相應的采樣和量化。對于采樣頻率,CCITT(國際電報電話咨詢委員會)提出的數字電話G.711協議建議:采樣頻率為8kHz[15]。根據采樣定理,如果模擬信號的頻譜帶寬是有限的(即假如信號中最高的頻率低于fmax),那么按頻率≥2fmax來進行采樣,則可從采樣信號中很好地重構原始信號波形。顯然,采用采樣頻率8kHz時,可以取得4kHz以內的語音信號分量。

3.1.2 識別方式

考慮到控制系統的存貯容量和處理速度等因素,以及爬壁機器人使用者的語音識別系統輸入命令的特點,本模塊采用了小詞匯量關鍵詞檢索的模板匹配法作為主要的語音識別方式。

在提取語音的特征參數后,就可以采用模板匹配的方法對特定人的特點詞進行語音識別。在實際中,語音具有很大隨機性,即使是同一個人,在不同時刻發同一個音或說同一個詞,所發聲音的長短也可能不同,從中提取到的語音特征的長度也因此各異,所以,我們不能簡單地將輸入語音特征參數和參考模板進行匹配[16]。

通過訓練(SD/SI,Speaker Dependent/Speaker Independent)和聚類方法,對講話者(使用者)多次重復的語音參數進行一定次數的訓練,可獲得語音識別系統的聲學參數模板[17]。其中SD和SI訓練方法的最大區別是:適對象范圍不同,SD 是特定人語音識別,SI是非特定人語音識別。語音命令訓練好后,通過跳線連接方式將模塊的功能從語音訓練切換至語音識別。

在語音識別階段,所輸入的待識別語音特征矢量被用來與模板中原有的特征矢量進行比較,通過不斷計算兩矢量的距離,從中找到最優匹配路徑,得到兩矢量匹配時積累距離最小的規整函數,由此可保證了兩者之間最大的聲學相似性[18]。

語音識別模塊在完成語音識別任務后,將相應的語音控制信號通過RSC364芯片的輸出端口P0、P1口輸送至控制系統的P1口,如圖5所示。完成信號傳送,其中RSC364芯片結構框圖,如圖4所示。由于RSC364的輸出口線數目多于AT89C52芯片上可以接收數據的口線數目,為節省主控系統的I/O口資源,使用了1個74LS147編碼器,用于在信號傳輸過程中匹配雙方的I/O數目[19]。

圖4 RSC364芯片結構框圖Fig.4 RSC364 Chip Structure Block Diagram

3.2 語音回放模塊

和語音識別模塊相比,語音回放模塊執行著完全相反的功能。它將相應的信息通過濾波、信號放大等處理后,用語音的形式輸出。語音回放技術通常有兩種方法可實現:一種是采用數字語音技術;另外一種是采用模擬語音技術[20]。其中,采用數字語音技術所得到的回訪音質較差,且數據結構比較復雜。故本設計采用模擬語音處理技術,所用的芯片為APR9600語音錄放芯片。模擬語音處理技術,是直接將語音模擬量存儲或取之于特殊的非易失模擬存儲器中,其輸出的音質效果好,結構簡單[21]。

APR9600芯片的結構框圖,如圖6所示。APR9600內部具有可自動增益調節的話筒放大器和內部濾波器,經采樣電路處理后以模擬量的方式存入Flash EPROM(專用快閃存儲器)中。由于Flash EPROM是非易存儲器,長時間斷電,語音不會丟失[22]。放音時,芯片內讀邏輯電路將信號從Flash EPROM中讀出,經低通濾波器后送至功率放大器,直接推動外部的喇叭進行放音。

圖6 APR9600芯片結構圖Fig.6 APR9600 Chip Structure Diagram

語音回放模塊的電路原理圖,如圖7所示。APR9600芯片具有很高的集成度和較為簡單的外圍電路,可簡便、靈活地更改回放內容,控制方式比較簡單。其中,APR9600芯片有8個控制信號輸入接口,即M1~M8口,當這8個輸入口接收到不同的控制信號時,芯片將根據預先錄音信息回放出不同的語音來實現提示功能。通過STM32單片機內部的控制主程序,分別控制單片機的P1.0~P1.2 口三路輸出語音回放芯片的控制信號,并經過一個74LS138譯碼器變成8路輸出,從而匹配APR9600芯片的M1~M8輸入端口,最終控制APR9600芯片輸出相對應的語音信號。

圖7 語音回放模塊電路原理圖Fig.7 Circuit Schematic Diagram of the Voice Playback Module

4 測試工具

為避免人工去統計和計算語音識別的正確率,對此提出了自動化的計算識別率的測試工具。計算識別率的測試工具的工作流程如下:

(1)語音識別系統按照測試用的錄音文件依次播放一段人聲或者噪聲,并記錄該錄音文件的文本內容。

(2)語音識別系統對錄音播放的聲音進行語音識別,并將反饋結果和錄音文件反饋給測試工具。

(3)測試工具對比錄音文件和反饋結果,利用計算公式自動計算語音的識別率,并生成測試結果,并保存。

(4)重復上述3步驟,直到所有錄音樣本播放結束。

為了計算語音識別的速度,同樣設計了計算語音識別速率的測試工具。計算識別速率的測試工具的工作原理如下:語音識別系統播放會在播放錄音文件后發送并保存一個時間戳a,當識別系統對該段錄音識別結束時發送并保存另一個時間戳b,兩個時間戳之差便是語音識別耗時。同樣為了方便對比耗時,測試系統會將識別耗時加入測試報告中。

5 語音識別實驗

考慮實際操作中的情況,下述實驗中,人與語音識別模塊的距離為1m。下述人聲皆是成年男子錄音文件(錄音文件與原人聲失真較?。┎シ女a生,以此確保聲音的一致性。

在爬壁機器人的命令控制識別中,自動化測試工具在2h內完成了2000句命令,測試結果,如表1所示。由表中測試結果對比分析可得,在使用模板人聲配合模板匹配法的語音識別率較高,在平穩噪音和非平穩噪音中高5%和4%。在平均識別用時方面,在平穩噪音和非平穩噪音中模板人聲較非模板人聲低0.5s和0.6s。

表1 命令識別實驗測試結果Tab.1 Test Results of Command Recognition Experiment

爬壁機器人的語音識別模塊為了降低能耗和干擾語音輸入,在正常情況下是處于未工作狀態。對此,對語音識別的喚醒方式進行了樣本測試,如表2所示。其中,數字樣本可為“1863”等4位數字,中文可為“壁虎同學”等4字中文。由表1數據可知,數字識別率較中文高2.6%。

表2 數字喚醒率和中文喚醒率Tab.2 Digital Wake-Up Rate and Chinese Wake-Up Rate

6 總結

在將語音識別技術應用于仿生壁虎爬壁機器人的控制中后,使用者可采用鍵盤輸入和語音識別輸入相結合的控制方式,很大程度上提高了機器人的工作效率以及大大降低的在不同工作條件下的操作難度,有利于機器人迅速適應復雜的工作環境。

在語音識別系統的設計中,采用模板匹配法作為主要的語音識別方式,降低的控制系統對存貯容量的要求,同時提高了處理速度,且由實驗測試可得,采用模板人聲比使用非模板人聲具有更高的識別率。而語音回放模塊使用APR9600語音錄放芯片可獲得較好的音質效果且結構簡單。

對于語音識別系統的喚醒方式,采用數字喚醒的方式能夠降低能耗,降低干擾語音輸入,且具有更高的喚醒識別率。

猜你喜歡
爬壁測試工具壁虎
爬壁機器人系統的Noether 對稱性和守恒量1)
爬壁機器人系統的廣義Lagrange方程
BB壁虎和他的BB朋友們
壁虎
壁虎的尾巴
小壁虎為什么借尾巴?
Http并發連接測試工具
爬壁機器人氣壓吸附及磁吸附專利技術綜述
手車式真空斷路器回路電阻測試電流線接頭研究
淺談響應時間測試分析方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合