?

關于語音識別的研究

2017-01-17 20:59周萌

東方教育 2016年8期

關鍵詞：聲學音節發音

周萌

摘要：計算機出現和發展，為很多領域帶來發展可能。在此之前，模式識別信號處理技術和聲學等，僅能夠獨立研究和使用。而計算機不僅提供了融合平臺，也使其得以交互，創造更加出色的功能。本文所研究的語音識別技術，便是通過上述學科實現。語音識別技術，主要應用在醫學、交通、軍事，工業生產等領域。特別是近年來技術成本降低，民用市場不斷擴大，這也對語言識別技術的要求，有了進一步的提升。因此，本文對語音識別進行研究，借助其發展趨勢和技術結構的闡述，幫助讀者認識該技術。同時希望借助本文的研究，為相關研究者提供一定的理論借鑒。

關鍵詞：語音識別；研究趨勢

一、語音識別技術簡介

語言是人類的基本功能，也是展現思維、進行溝通的重要載體。而語音，是由人類人體天賦轉化下，所形成一種表達方式。在科學視野中，這種天賦的轉化，被稱之聲學表現。然而，不可否認的是，雖然語音僅作為一種“天賦表象”，卻是人類目前最為有效的交流手段。

二、語音識別技術的發展歷史

科技引入到聲音的聲學研究，在人類歷史上發起較晚，始于上世紀50年代，研究人員才致力于聲學和語音學的基本概念。第一次實現研究突破是在1952年，學者AT& T Bell在其實驗室，進行了一組當前視野來看，并不復雜的實驗工作。但最終實現了一個單一發音人，孤立發音10個英文數字的語音識別系統，方法主要是度量每個數字的元音音段的共振峰；1956年，RCA Lab 基于Bell的人的研究基礎，尋求另一個方向的實踐研究工作，力求識別單一發音的10個不同的音節，同樣采用了度量共振峰的方法；1959年，組織University College的研究學者，以譜分析和模板匹配的方式，借助構建音素識別器的理念，實現了識別4個元音和9個輔音；1962年，東京大學相關研究部門，對音素識別器的硬件進行實踐性研究工作。以過零率方法分離語音信號的不同部分的識別方式，成為目前較為理想的研究手段之一；1963年，日本NEC Lab對數字進行語音識別技術進行嘗試，并獲得了相對可靠的研究成果。并創造NEC研究語音識別的模板，由此開創了語音識別技術的新領域。值得注意的是，在近四十年來，語音識別技術并未出現質的突破。但是，上述內容60年代所進行的研究，卻成為了支撐人類語言識別技術近半個世紀的基礎。而其最為重要的貢獻，便是通過理論深度研究，于1969年提出時間歸正法。

三、語音識別技術的應用及前景

隨著聲學研究的發展，語音識別技術已然具備了應用的基礎。從現狀來看，中小詞匯量非特定人語音識別系統識別精度已經大于98%，對特定人語音識別系統就更高。隨著科學技術的發展，集成電路的應用，幫助以往過度復雜的識別體系，能在更小的空間的內實現。從在西方經濟發達國家來看，大量的語音識別產品已經進入市場和服務領域。包括手機等移動電子設備，多配備了相對完善的語音機制。并且盲人所使用的電子設備中的語音識別系統，已經達到了以往的軍用標準。用戶將借助移動通訊網絡，以語音識別的口語對話系統，完成日常生活中，如訂購票務、酒店等事宜。據調查統計結果，目前85%以上的使用者，對語音識別信息查詢服務系統的功能性、準確性表示滿意。由此，也可以進行預測：在未來的十年內，語音識別系統的應用范圍將逐漸擴大，而基于各類語言、需求的產品涌現，或借助市場調節機制，有效降低此類系統的應用成本。由此更進一步滿足各類語音需求。但是，以當前的技術來看，語音識別系統的局現性，或將成為阻礙其發展的根本原因。

四、語音識別技術的系統結構

不可否認，語音識別系統是復雜的。但是，在人類漫長研究中，不斷的歸納和總結，最終找到可以大范圍區分的“節點”。由此，幫助語言識別系統的構成更加清晰化。從相關研究發現，一個完整的基于統計的語音識別系統可大致分為兩個部分：

1、語音信號預處理與特征提取

語音識別的基本工作特征，在于識別單元的選擇，這也是能否獲得識別結果的重要基礎。然而，對于單元的選擇，需要合理的區分各個要素，包括單詞（句）、音節和音素三種。在選擇適合的要素后，才能夠進行后續的識別工作。

單詞（句）單元廣泛應用于中小詞匯語音識別系統，但不太適合大詞匯系統，原因在于模型庫太龐大，訓練模型任務繁重，模型匹配算法復雜。故此，看似簡單識別通道，卻因為復雜性降低了時效，最終導致難以準確的完成識別任務。

音節單元是基于我國語言特征，所提出的特殊識別要素。由于漢語言與英語等拉丁語系語種的差異性。我國發展語音識別技術，或難以借助他國成熟經驗。但是，由于漢語音節總數為1300余個，其中包括408個無調音節，對比于大量多音節的拉丁語系，漢語言基礎上的音節單元要素識別，將具備更高的時效性。這也是我國語音識別技術能夠“后發制人”的關鍵。

音素的識別，主要借助線性預測（LP）實現。LP分析技術是目前應用廣泛的特征參數提取技術，許多成功的應用系統都采用基于LP技術提取的倒譜參數。但線性預測模型為純數學模型，未考慮人類聽覺系統對語言的處理特點。

2、聲學模型與模式處理

作為語音識別系統的第二個模塊，也是其重要的基底模塊。聲學模型主要用于搭建聲音體系，并借助特征算法，幫助后續的模式處理，對語音進行深度識別。而模式處理的重要性，在于保證識別結果的準確。通常對語音模型的處理，在理論和數據參數上，已經具備良好的基礎。但是，在識別方面，卻一直難以達成成效。這也是模式處理能力不足所帶來的主要困境。從基本理論層面來看，聲學模型作為語音識別系統底層模型，其關鍵性不言而喻。而聲學模型存在的意義，在于提供計算語言的特征矢量序列，以及合理區分每個發音模板之間的距離。聲學模型的設計和語言發音特點密切相關。聲學模型單元體積對語音訓練數據量大小、系統識別率，以及靈活性有較大影響。

五、語音識別技術的發展障礙

1、技術智能化不足。例如，同一說話者在不同語態時，語音信息有所差異；即使同一說話者以相同方式說話時，其語音模式也受長期時間變化的影響。

2、缺乏模糊語音處理能力。說話者在講話時，不同的語詞可能聽起來很相似。

3、無法兼顧發音變化。單詞或單詞的一部分在發音過程中其音量、音調、重音和發音速度可能不同，使得測試模式和標準模型不匹配。

4、無法消除環境音響。為了提升語音識別技術的準確性，必須提升其收納聲音的范圍。而這樣的選擇，無疑會放大環境因素的影響。原因在于語音識別系統的聲音基礎，是在相對安靜的環境中創造。所以，無法應對自然環境中的噪聲和干擾。而且，在采用抗干擾模式下，語言識別和接受能力又會大幅度下降。這也讓技術遇到兩難的選擇。

參考文獻：

[1] 施超群，陳堅剛.淺析語音識別原理[J].浙江工商職業技術學院學報，2011（03）：94-96.

[2] 韓紀慶，張磊，鄭軼然.語音信號處理（第二版）[M].北京：清華大學出版社，2013.

[3] 陳永彬.語音信號處理[M].上海：上海交通大學出版社，1991.

猜你喜歡

聲學音節發音

r(re)音節單詞的拼讀規則

考試與評價·七年級版(2020年6期)2020-11-02

12bZM12BC2020102_p26

南方周末(2020-01-02)2020-01-02

拼拼讀讀寫寫

快樂作文（1.2年級）(2019年9期)2019-09-10

看音節說句子

作文周刊·小學一年級版(2018年32期)2018-01-15

預測題、模擬試題參考答案

中學生數理化·中考版(2014年5期)2016-12-22

2014年中考聲學預測題

中學生數理化·中考版(2014年5期)2016-12-22

2016年中考聲學預測題

中學生數理化·中考版(2016年5期)2016-05-14

小學生時代·大嘴英語(2015年12期)2016-01-07

Playing with /eI/

小學生時代·大嘴英語(2014年11期)2014-12-04

Playing with u_e

小學生時代·大嘴英語(2014年1期)2014-02-28

東方教育2016年8期

東方教育的其它文章: 織機送經機構的性能測試與評價; 江蘇農業農村節能減排現狀及對策研究; DSP在磁共振數據接收系統中的應用分析; 淺談如何利用信息網絡做好企業職工的思想政治工作; 淺論屋頂花園的發展動態及作用; 淺談美式設計元素在咖啡館設計中的突出作用

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合