王嘉文 高定國 尼瓊 巴果
摘要:藏語康巴方言是一種分布在中國西南部的少數民族語言,數據量低且具有豐富的聲調和聲母變化,給語音合成帶來了很大的挑戰。目前,現有的藏語語音合成模型大多基于傳統的聲碼器或神經網絡架構,需要大量的標注數據和復雜的訓練過程,而且合成效果不理想。文章通過改進VITS模型,使其運用于藏語語音合成,在一個小規模的藏語康巴方言語料庫上訓練了VITS模型。實驗結果表明,VITS模型可以很好地應用于藏語康巴方言的語音合成,不僅可以保持語音的自然度和清晰度,還可以準確地反映語音的聲調和聲母變化。
關鍵詞: VITS; 藏語; 康巴方言; 語音合成
中圖分類號:TP18 文獻標識碼:A
文章編號:1009-3044(2024)04-0008-03