近日,搜狗推出一種人機交互新技術——唇語識別,這也是業內首個公開演示的唇語識別系統。通過機器視覺識別,不用聽聲音,僅靠識別說話人唇部動作,就能解讀說話者所說的內容。
唇語識別是一項基于機器視覺與自然語言處理于一體的技術,因此在研發難度上比語音識別大得多。搜狗首創了復雜端到端深度神經網絡技術進行中文唇語序列建模,通過數千小時的真實唇語數據訓練而成。在非特定人開放口語測試集上,搜狗唇語識別系統已經達到60%以上的準確率,超過Google發布的英文唇語系統50%以上的準確率。在垂直場景如車載、智能家居等場景下,搜狗唇語識別系統甚至已經達到90%的準確率。
當國內大部分企業都扎堆聚集在智能語音、圖像識別等領域時,搜狗唇語識別技術的推出將引領整個行業進入一個全新的發展方向。作為人機交互的形式之一,未來唇語識別技術可以輔助語音交互及圖像識別,在日常生活、安防、公益等各個領域實現廣泛應用。(陳曲)endprint