谷歌黑科技WaveNet,更先进的语音合成
| 導讀 | Google 的 DeepMind 研究實驗室昨天公布了其在計算機語音合成領域的最新成果——WaveNet。該語音合成系統能夠模仿人類的聲音,生成的原始音頻質量優于目前的文本轉語音系統(text to speech,簡稱 TTS)。 |
DeepMind 宣稱,通過人耳測試,該技術使得模擬生成的語音與人類聲音之間的差異縮小了一半。當然,這種測試不可避免地存在主觀性。WaveNet 目前還沒有被應用到谷歌的任何產品中,而且該系統需要強大的計算能力,近期也無法應用到真實世界場景。
讓人類跟機器自由交談是人機交互研究領域長久以來的夢想。在過去幾年,深度神經網絡的應用大幅度了提高計算機理解自然語音的能力。然而,運用計算機生成語音(語音合成,或者 TTS 系統)仍然主要依靠拼接式 TTS——先錄制單一說話者的大量語音片段,建立一個大型數據庫,然后將語音片段合成完整的話語。這種語音合成方式很難對聲音加以修飾,無法表達強調或者情感。
為了解決語音合成的這一難題,迫切需要運用一種參量改頻式(Parametric)TTS。在這種 TTS 系統中,生成數據所需要的所有信息被存儲于模型的參數中,語音所傳達的內容及語音特征可以通過模型的輸入信息得以控制。然而,目前參量改頻式 TTS 生成的語音聽起來還不如拼接式 TTS 模型生成的語音自然。現有的參量改頻式模型通常將輸出的信息交給信號處理算法處理,從而生成音頻信號。
WaveNet 改變了這種范式,直接用音頻信號的原始波形建模,而且是一次處理一個樣本。通過這種方式生成的語音不但聽起來更加自然,而且使用原始波形還能為任何聲音建模,包括模仿任何人的聲音,還能生成音樂。在測試中,WaveNet 通過分析古典音樂,生成了一段鋼琴曲。
谷歌 DeepMind 的人工智能 AlphaGo 在今年早些時候打敗了韓國圍棋大師李世石九段,引起了世人的關注。谷歌一直對如何應用其人工智能技術守口如瓶,只是稱其已經利用這些技術降低了冷卻公司數據中心所需的電量,讓從 YouTube 到谷歌廣告產品的一系列服務得到了巨大改善。
總結
以上是生活随笔為你收集整理的谷歌黑科技WaveNet,更先进的语音合成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么动物跑的快,智商高?
- 下一篇: 吸烟者的二手烟和二手香烟的危害有什么区别