?

基于深度學習的語音識別技術在音頻檔案數據化中的應用

2024-03-26 02:30楊巍浙江財經大學王茂煥臺州市檔案館
浙江檔案 2024年2期
關鍵詞:音頻語音深度

楊巍 /浙江財經大學 王茂煥/臺州市檔案館

1 引言

音頻錄像檔案[1]是國家機關、社會組織或個人在履行法定職責過程中采用不同記錄載體形成的、具有憑證、查考和保存價值并歸檔保存的以聲音或影像為主要呈現方式的信息記錄。人工智能技術的發展和應用推動了檔案工作數字化轉型,“數據化”成為新時代評價智慧檔案館的重要指標,將“檔案數字化”轉型為“檔案數據化”是檔案館現代化管理需要首先解決的問題。音頻檔案數據化是將傳統音頻檔案中的模擬音頻向數字音頻轉化,并將數字音頻的文本內容進行識別、分類、著錄和標引等整個過程[2]。音頻檔案數據化主要包括音頻信息文本化[3]、元數據標引和數據庫建設等內容[4]?,F階段,紙質檔案已經能夠通過數字化掃描和OCR識別完成數據化的基礎轉化工作,而含有豐富語義的音頻錄像檔案因其非結構化存儲特性,無法像紙質檔案一樣批量完成文本識別工作,大量記錄珍貴歷史記憶的音頻檔案在檔案館中得不到充分的數據化管理和利用,這成為音頻錄像在檔案大數據時代發揮自身價值的現實屏障。隨著深度學習語音識別技術在社會生活和工作領域中的運用日漸成熟,將其引入檔案數據化工作場景中,推動檔案現代化建設具有重要的現實意義。

語音識別技術是電腦自動辨認或驗證發出語音的說話人,將音頻語音內容轉換成對應的文本的信息技術,包括自動語音識別(automatic speech recognition,ASR)、電腦語音識別(computer speech recognition,CSR)或是語音轉文本識別(speech to text,STT)[5]。識別過程如圖1,系統核心是音頻特征提取模塊、聲學模塊和語言模塊。

圖1 語音識別過程

音頻特征提取模塊負責根據語音信號波形提取有效的聲學特征[6],生成機器可以理解的語言特征向量序列,比如利用梅爾頻率MFCC變換抽取原始語音特征,這類技術比較成熟;聲學模塊利用聲學模型負責將語音特征映射成音素,其中音素是最小語音單位[7],比如“普通人”,可以分解成“p, u, t, o, ng, r, e, n”八個音素,聲學模型是語音識別技術的核心;語言模塊利用語言模型負責基于音素序列預測字符序列的概率,最終選擇概率值最大的字符序列作為解碼的文本結果,比如以上八個音素可能被預測為“撲通人”“普通仁”“普通人”等字符序列,但是“普通人”的概率最大,這類技術主要依托自然語言處理技術的發展?;诼晫W模型的技術迭代,其技術發展從GMM-HMM(傳統聲學模型)、DNN-HMM(神經網絡和傳統聲學融合模型)發展到End-to-End(端到端模型)階段,深度學習語音識別技術日漸成熟,推動現代社會在多場景中落地應用。

2 語音識別技術在音頻檔案數據化管理中的研究現狀

語音識別技術在圖書情報與檔案領域中的應用最早可追溯到1994年美國啟動的“數字圖書館”項目中,卡耐基—梅隆大學在該項目中負責研究如何將圖像、語音和語言識別技術整合起來,使音頻和視頻具備與文字文獻相同的查詢、檢索、分類和摘要功能,從而實現智能搜索和圖像檢索的目標[8]。21世紀初,醫療和法律檔案系統率先掀起利用語音識別技術進行檔案數字化建設的熱潮[9],隨后,數碼音頻筆、智能語音錄入軟件等產品先后問世,其便捷的音頻功能和文字轉換功能受到了檔案工作者的青睞,語音識別法成為和掃描法、人工著錄法同樣重要的檔案數字化方法之一。檔案館將語音識別技術用于口述歷史的記錄和收集工作之中,同時也廣泛用在音視頻檔案數據轉換和整理上[10],如美國互聯網檔案館利用語音識別技術對其前總統特朗普電視演講深度轉錄,保證美國公民更加直觀及時了解特朗普政治觀點[11]。

針對傳統的模擬音頻檔案,深度學習語音識別技術能夠在音頻檔案數據化中智能標注,生成的信息比人工標注更加準確、完整和規范[12]。同時深度學習語音識別技術為音頻檔案檢索打開了新的檢索思路,音頻檔案檢索從單一的關鍵詞檢索上升到大詞匯語音識別、字詞單元檢索、關鍵詞識別和對講話者檢測[13]等基于內容的檢索模式。劉濤認為深度學習語音識別技術所擁有的語音轉換文本中精準的識別能力、智能的分析音頻內容的能力和全內容分析編目能力能解決當前音頻檔案信息著錄有限性和音頻檔案高需求利用之間的矛盾[14]??傮w上看,當前檔案領域對語音技術的研究主要集中在音頻錄像檔案收集、編目、檢索等環節,而對深度學習的語音識別技術在音頻檔案數據化中識別率有多大提升和其在檔案領域具體的應用場景鮮有深度探討,本文利用深度學習的語音識別技術deepspeech2_aishell模型對音頻數據集進行了實證測試,驗證了深度學習語音識別技術識別質量好、識別效率高、準確度精準等優勢,同時探討了深度學習語音識別技術在目前檔案領域中的具體應用場景,以期檔案領域利用深度學習語音識別技術進行音頻檔案數據化管理。

3 深度學習deepspeech2_aishell模型在傳統模擬音頻檔案文本化中的實證測試

傳統音頻檔案文本化是音頻檔案數據化工作中的首要任務,為了進一步加強驗證,筆者以linux系統為例,進行deepspeech2_aishell模型的部署,命令行可以直接在系統的終端shell上執行,開發python代碼進行最終的語音識別,input.wav為原始音頻文件,text為最終輸出的文本內容(如圖2)。選取《中華人民共和國檔案法》總則中的前5條內容,利用朗讀工具生成5個音頻文件,然后利用deepspeech2_aishell模型分別進行語音識別,5段音頻內容,3條錯誤率為0%,2條錯誤率在3%以下,最終識別準確率如表1所示,通過上述實證測試可知,目前人工智能語音識別模型的識別結果,已經達到了比較高的準確率,在實際應用中有很大的可行性。

表1 語音模型識別結果分析

圖2 deepspeech2_aishell模型的部署程序

4 深度學習語音識別技術在音頻檔案數據化中的應用

當前,國內大部分檔案館在傳統音頻數字化中采用人工轉寫方式,效率不高,而利用深度學習語音識別技術,可根據不同的功能需求,設置不同的語音指令和文本輸出來進行交互,批量化、高精度、不間斷地、快速完成音頻檔案信息到文本形式的轉化,不但方便檢索和編輯,還提高了音頻檔案管理的效率,節省了人力成本。同時,語音識別技術還可以對音頻資料進行自動分類和標簽化,進一步提高了音頻檔案的檢索效率和準確性。所以,深度學習語音識別技術在音頻檔案數據化的各方面都有較大的應用價值。

4.1音頻檔案數據庫建設

對音頻檔案著錄標引,建成數據庫是檔案數字化工作的基本需求。傳統音頻檔案數字化參照當前行業標準或國家標準通過人工聽寫、分類、標識,過程煩瑣、編目簡單粗放[15],難以全面描述錄像檔案所載信息。一方面,利用深度學習語音識別技術將錄像檔案文本化后,對文本中的所包含的內容、場景、人物、事件、地點、結果等資源屬性進行結構化的描述,構建以人物、事件為核心屬性的能被機器全文識別的數據庫,并設定相應的語音指令,實現音頻全內容檢索。另一方面,語音識別技術還能對語音中的不同元素(如音色、音調、節奏等)的分類和特定詞匯、短語或句子的標注和描述,促使不同模態的音頻檔案數據結構化存儲。利用深度學習語音識別技術建設音頻檔案數據庫的模式,是在現有錄音檔案數據庫系統上進行簡單擴展就能實現,是音頻檔案數據化發展的方向。

4.2音頻檔案數據知識化加工

語音識別技術為音頻檔案內容知識化加工和二次創作提供了千載難逢的機遇。目前,音頻檔案數字化處理不足,語義理解深度不夠、音頻檔案信息復雜多樣等問題導致音頻檔案知識化效率和質量受到限制。而利用深度學習語音識別技術對文本化的信息進行上下文理解和語義分析,然后自動化著錄音頻的主題、概念、事件、觀點等信息,自動生成內容摘要,聚合音頻數據,構建知識圖譜,形成知識體系,為音頻檔案內容挖掘和知識化加工創造條件。京劇名家檔案故事化手游開發項目[16],其中一個重要的組成部分就是收集京劇名家檔案史料、音像檔案與口述檔案等音頻檔案進行知識化加工,推進音頻檔案故事化呈現,提高音頻檔案內容的張力。比如項目選取了一段關于荀慧生先生的珍貴音頻檔案,為了全方位呈現這位藝術家的風采,項目團隊將音頻檔案進行了故事化處理。他們根據音頻內容,制作了可視化知識圖譜和一段動畫視頻,再現了荀慧生先生舞臺上的場景,同時,項目團隊注重音頻檔案故事與受眾的交互方式,以互動游戲的形式實現對京劇名家檔案數據的故事化呈現,通過這種音頻檔案故事化的方式,觀眾不僅能夠聽到珍貴的歷史音頻檔案,還能夠通過視覺和聽覺的雙重呈現,更好地理解檔案的背景和意義。

4.3音頻檔案視聽服務平臺建設

語音識別技術可以為音頻檔案視聽服務平臺的建設提供有力支持。語音識別技術可以幫助實現語音與文字的快速轉換,通過提高音頻檔案數字化處理效率,完善音頻檔案數據庫建設,構建音頻檔案知識化體系、嵌入語音導航等多個步驟,可以建立一個高效、便捷、智能的音頻檔案視聽服務平臺,為檔案用戶特別是有視聽障礙的特殊群體提供更加人性化的查檔、用檔服務,提升用戶體驗。目前,國家圖書館基于智慧化和新媒體技術手段研發和建設的影音視聽資源知識服務平臺[17],該平臺創新資源生產、加工、組織與應用,運用智慧化和新媒體技術,優化音視頻資源管理機制,深入挖掘資源關聯和內容價值。同時,提供個性化知識服務,適配多終端設備,提升視聽服務效益,助力智慧圖書館的進步與發展。

4.4音頻檔案信息在線擴展泛化

為了盡可能豐富和完善音頻檔案背景信息,深度學習語音識別技術為傳統音頻檔案的傳播、共享等在線擴展泛化過程創造了條件。第一,利用深度學習語音識別技術轉變了音頻檔案的存在模態,將二進制的符號轉變成可標識的結構化信息,以便于音頻檔案信息存儲、傳輸和在線播放。第二,通過數據分析和挖掘技術提升音頻檔案的易讀性,將音頻檔案中的數據信息多角度、多層次地被標注出來,提高音頻檔案的被理解力。第三,利用云計算分布存儲技術保證音頻檔案數據的易用性,建成音頻檔案集中管理數據庫,設定開放權限并連接互聯網,用戶通過身份認證可以即時在線訪問音頻檔案數據,進而提高音頻檔案的利用價值和音頻檔案信息傳遞效率。第四,利用流媒體傳輸和智能推薦技術,將通過開放審核的音頻檔案及時通過流媒體主動推送到用戶的設備上,面向社會及時分享音頻檔案內容,同時加強和用戶的互動,收集音頻檔案相關的信息,不斷補充和完善原有音頻檔案信息內容,能夠更加真實完整全方位還原音頻檔案所記載的歷史事件。荷蘭國家檔案館在“De ijsberg zichtbaar maken”(“讓冰山可見”)[18]人工智能技術轉錄檔案項目中初步嘗試這種模式,該項目通過館藏檔案數字化和新媒體信息技術,將荷蘭皇室的檔案、繪畫、手稿、照片、音頻等多模態檔案數據聚合,利用新媒體技術向公眾推送荷蘭歷史和文化,公眾可以根據自己的知識背景和掌握的歷史信息在線反饋給圖書館,圖書館工作人員根據反饋信息及時補充檔案內容,在線擴展泛化模式成為館藏補充資源、修正資源、完善資源的新模式,截至2023年約有200萬份資源中部分資源已通過在線擴展模式進行了更正、更新和實體資料的補充和完善。

在人工智能技術發展的浪潮中,深度學習語音識別技術逐漸成熟并廣泛應用社會各領域,也推動檔案數字化建設進入新的數據化階段。目前,我國檔案館內館藏大量具有珍貴價值的模擬音頻格式的檔案和部分數字化設備生成的音頻檔案,亟需數字化轉錄和數據化挖掘,人工智能深度學習語音識別技術具有智能化、低成本、高識別率和高精準率等特點,能夠解決音頻檔案數據化工作中的困境,深度學習語音識別技術不局限于轉存音頻檔案,同時創新了檔案工作方式,確保音頻檔案數據化轉化的質量,有利于更加充分挖掘音頻檔案的價值。

猜你喜歡
音頻語音深度
深度理解一元一次方程
魔力語音
基于MATLAB的語音信號處理
基于MQ3與MP3的價廉物美的酒駕語音提醒器
必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
深度觀察
深度觀察
對方正在輸入……
基于Daubechies(dbN)的飛行器音頻特征提取
深度觀察
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合