多模交互智能終端

2024-03-08 03:31闞保強余容森

長春師范大學學報 2024年2期

闞保強,余容森

(福建師范大學協和學院,福建福州 350003)

0 引言

隨著人工智能的發展,人機交互不再局限于單一的感知通道的輸入輸出模態,多模態人機交互旨在利用語音、圖像、文本等多模態信息進行人與計算機之間的信息交換[1]。單一的人機交互包括基于接觸的交互如智能手機、平板等,基于手勢的交互,基于聲音感知的交互等。但這些都不能給用戶帶來全方位的交互體驗,這時就需要多模態的人機交互,而頭盔就是一種很好的多模態人機交互載體?，F今的頭盔大致可劃分為軍用、工作、運動三大類,這三大類頭盔在舒適性及安全性上已經有了一定的保證,但在適用范圍上還存在極大的局限性,由于一些工作的特殊性,致使單一功能的頭盔不能滿足情況較為復雜場景[2]。因此,需要一種集成多個模塊、有多種功能、可以應用于多個場景的智能頭盔。多場景智能頭盔監測系統的本質需求是適應多場景,頭盔能夠適應的場景數量是不斷變化的,而且頭盔的功能也并非一成不變[3]?，F有的智能頭盔,例如,Helmetphone MT1 Neo智能頭盔,具備拍照、播放音樂、燈光調節、語音導航等功能,不過這些功能需要通過手柄控制,是為用戶騎行而打造的;Daqri Smart Helmet智能頭盔,可以完成數據監測、熱度檢測、人員培訓、人員遠程指導等,但它更注重于AR方向的交互,且價格較貴[4]。本文設計的多模交互智能終端,具有更高的靈活性和可擴展性,不僅擁有人機交互、開放接口以及多個模塊互相交互,還可以根據用戶的行為搜集所需信息,使用戶能夠感知到環境信息,從而實現智能化操作。

本文設計智能頭盔系統的目的是為滿足實時語音和視覺交流,通過本系統可以實現用戶與產品間的無障礙交流,使用戶可以更加便捷地實現自己的需求。比如,在生活方面,基于爬蟲技術和語音合成技術實現智能信息查詢,如用戶通過語音可以直接查詢天氣、音樂、新聞等信息,方便日常生活;在出行方面,伴隨城市的不斷建設發展,往往有很多地方都會讓人感到陌生,路徑規劃可以很好地解決這個問題,幫助用戶穿梭在城市的每一個角落;同時,在人機交互方面,語聊模塊可以輕松實現與用戶的日常對話[5]。本系統開發的就是將樹莓派平臺、GPS模塊、攝像頭、網絡通信技術與頭盔相結合的智能終端,配備了相應的后臺系統,整體集成度較高,能耗小,便于攜帶,可以適應于多種生活場景。并且系統各部分可以相互協作,將采集到的信息進行傳遞,使后臺可以獲取相關數據。同時,這款多模交互智能終端操作比較簡單,功能相對齊全,無論夜間還是白天都可以幫助佩戴者安全地沿著道路前行或轉彎。它可以讓用戶與設備交互,不用通過復雜的操作,使用戶有更好的體驗,讓用戶更快地完成任務,提高工作效率。此外,多模交互智能終端還可以實現智能控制,使用戶能夠實時追蹤自己的位置,實現實時交互。

1 系統總體設計

系統整體包括服務器端和用戶端,其中服務器端提供后端數據處理、目標識別任務,用戶端采用樹莓派、攝像頭、L76X GPS定位模塊、語音采集板等,它們之間使用無線方式傳輸數據。系統總體設計框圖如圖1所示,系統功能描述如圖2所示。

圖1 系統總體設計框圖

系統功能模塊包括管理模塊、系統主體功能模塊和系統表。

(1)管理模塊。管理員通過管理員賬號登錄管理員系統,在系統中管理員通過查看聊天信息來判斷聊天機器人是否正常工作,回答是否準確,也可以通過聊天輸入框對聊天機器人進行測試,并且收集用戶在聊天中出現的問題,用于聊天機器人的訓練,在不斷重復這個過程中,聊天機器人也變得更加智能,為用戶帶來更好的體驗。管理員可以查看障礙物識別的情況,通過查看識別物體的準確率來調整訓練模型,還可以對用戶信息和終端信息進行增、刪、查、改。

(2)系統主體功能模塊。主要與用戶交互的模塊,該模塊應用Raspberry Pi 平臺、網絡通信、語義理解、位置服務等技術,結合了大量的數據和處理方法,主要功能有:天氣查詢——在得到用戶指令后,根據所得城市信息向心知天氣API請求獲取未來三天的天氣情況和出行建議,返回數據后經系統解析并以語音形式反饋給用戶;障礙物識別——將攝像頭所采集的視頻信息發送至服務器,經過Yolov5模型預測障礙物所屬類別,并將識別結果返回到客戶端,以語音形式提醒用戶小心前方障礙物和前方障礙物所屬類別;每日新聞——負責將從天行數據的新聞API中獲取的新聞數據解析后進行語音播報;語聊對話——用戶在與終端對話時,如果未觸發系統其他功能關鍵字就會進入語聊對話,這個部分負責獲取用戶向終端提出的問題,通過Seq2Seq模型的理解給用戶最佳回復;出行規劃——將多模交互智能終端所在位置作為起始點,按照用戶給出的目的地,規劃出一條最短、最優的路徑,用詳細的語音播報這段路程所經過的一些地點、方向和距離;地圖查看——主要實現當前地圖的實時查看獲取。

(3)系統表。主要實現用戶管理和終端管理。

2 系統硬件設計

根據總體設計框圖,硬件部分位于頭盔終端,包括樹莓派、語音處理板、定位模塊、供電單元等,硬件實物如圖3所示。語音的采集與處理是基于WM8960芯片的。定位模塊采用L76X GPS定位模塊,這個定位模塊可以接收GPS、BD2和QZSS的信號,具有體積小、功耗低、定位快等優點。

圖3 智能交互終端硬件

3 系統軟件設計

用戶在使用本系統時需要先通過喚醒詞喚醒系統,然后系統判斷用戶輸入的語句是否有關鍵詞,如果觸發關鍵詞將進入對應的功能模塊,比如檢測到語句中有“新聞”一詞就會將今天的新聞播報出來,如果沒有觸發關鍵詞將進入語聊對話,在這個功能里用戶可以與終端聊一些日常生活的話題。主體流程如圖4所示。

圖4 系統流程圖

4 多模交互的實現

4.1 障礙物識別功能

障礙物的目標檢測,主要通過讀取樹莓派傳輸的視頻流,實時獲取周圍障礙物體的信息,識別出常見的交通標志、人車及生活用品。利用圖像處理、深度學習等技術,從圖像或視頻中定位感興趣的對象,通過目標分類判斷輸入圖像中是否包含目標,用目標定位找出目標物體位置并框出目標,其任務是鎖定圖像中的目標,定位目標位置,確定目標類別[6-8]。本系統是基于Yolov5框架訓練的障礙物的目標檢測,整個系統實現流程如圖5所示,識別檢測均基于樹莓派4B實現。

圖5 障礙物檢測實現過程圖

在圖片數據集上收集常見的障礙物圖片,見圖6(a),本系統使用LabelMe對數據集進行標注,見圖6(b),完成后再訓練Yolov5s模型。訓練結果如圖7所示。

圖6 數據集和標注數據集展示圖

圖7 模型訓練結果圖

4.2 語音交互實現

這個部分是本系統核心之一,由于系統采用模塊的設計手段,所以指令控制和技能選擇都是基于語音識別開發的,對話功能的實現框圖如圖8所示,支持語音輸入和文本輸入。語音識別算法模型和對話聊天算法模型已經通過 TensorFlow 庫實現并做好了封裝,接下來只需使用核心框架下調用模型的接口,使后臺服務端模型的接口處理好聊天信息,再傳送至客服端前端進行展示,下一步傳遞給語音合成,即輸出完成一輪對話。對于聊天機器人模型的實現,首先對原始數據進行初始化,這里本系統由于選擇了開源的語聊庫,需要對原始數據進行清洗,主要包括對大小寫字符、標點符號、數字、空白字符以及自然語言處理停用詞的處理;根據處理后的數據,通過生成詞匯表、轉化詞編碼的方式,將文字與數值之間建立一個映射字典,并對輸入數據進行編碼。接著基于Seq2Seq模型進行訓練和評估。為了將模型回復的文本結果轉化為語音,采用模塊化語音合成,接入不同的語音合成API。

Seq2Seq是一種編碼器-解碼器結構的模型,該模型需要使用兩個RNN(循環神經網絡),一個用于編碼,另一個用于解碼。Seq2Seq是一種能將很多元素相關聯形成記憶的模型,就像人的記憶一樣,其輸出是根據輸入和已有數據推斷出來的。St表示t時刻的記憶,公式如下[9]:

St=f(U×Xt+W×St-1),

(1)

其中,Xt表示t時刻的輸入,U和W為模型的線性關系參數。

St是一個激活函數,可以用來過濾掉一些不重要的信息,留下的信息即為模型的記憶。那么得到這些記憶后就要進行預測,用softmax函數可以預測每個詞出現的概率,但需要在預測時帶入一個權重矩陣V,就可以得到t時刻的輸出Ot,公式如下:

Ot=s(VSt),

(2)

其中,s表示softmax函數。

利用RNN的這種特性,Seq2Seq就能完成對語義理解。為了得到更好的輸出效果,本系統在訓練模型的過程中增加了Attention機制(將編碼器編碼的向量再根據解碼器需要進行動態變化的機制),簡單來說,就是將注意力集中到重要的信息上,可以有效集中資源以提高效率。該模型的提出,使得神經機器翻譯的性能在各個方面的指標都打敗了統計機器翻譯。Seq2Seq模型簡圖如圖9所示,經過GLU(Gated Linear Units)模塊送入編解碼器。Seq2Seq模型訓練圖如圖10所示。

圖9 Seq2Seq模型簡圖

圖10 Seq2Seq模型訓練結果圖

5 實驗結果

系統管理主界面如圖11所示,提供遠程測試和管理功能接口。

圖11 系統管理主界面

語聊對話界面見圖12,主要用于查看用戶聊天信息,可語音聊天,可通過下方的輸入框輸入文字進行聊天,也可以直接通過語音喚醒終端進行語音輸入,語聊內容將以語音播報,同時在頁面查看實時語聊信息。

圖12 語聊對話界面

障礙物識別界面如圖13所示,通過語音在終端進行播放,同時在遠程可以實時監控。

圖13 障礙物識別界面

位置交互模式是通過L76X GPS定位模塊和高德地圖API來實現,用戶說出“位置”關鍵詞就可以得到現在所在位置,說出“路線”關鍵詞和要去的地方就可以得到最短步行路徑。終端向服務器發送位置坐標(圖14),同時智能終端會通過語音合成后播報行進路線,步行最短路徑如圖15所示,Web端定位顯示圖如圖16所示。

圖14 終端向服務器發送位置坐標

圖15 步行最短路徑示意圖

圖16 Web端定位顯示圖

6 結語

目前,人們對智能產品的需求越來越大,本系統設計的出發點就是為了方便用戶的日常生活,將無線通信、障礙物檢測、語音處理與樹莓派平臺相結合,形成了一個多模塊的智能終端,通過對用戶需求的分析,確定系統結構和功能模塊,完成硬件和軟件的搭建。不同環境的實際測試結果顯示,本系統的設計與實現有助于智能出行。