ivona tts语音合成引擎_耳听也不一定为实,AI语音已能骗得百万巨款
日前,AI換臉應(yīng)用ZAO在國內(nèi)市場引發(fā)了大量的關(guān)注,而人工智能的普及也讓日常生活發(fā)生了不小的改變。但AI作為工具來說,自然是無所謂善惡的,就像ZAO以AI為武器試圖獲取用戶隱私相關(guān)信息一樣,在國外市場AI也成為了犯罪分子手中的工具。
日前根據(jù)《華爾街日報》的報道,有黑客團伙成功模仿了英國某能源公司在德國母公司CEO的聲音,并其手中騙取了22萬歐元。而這一騙局說起來也十分簡單,這家英國能源公司的CEO以為其正在與他老板,也就是母公司的CEO通話,后者要求他將資金匯給匈牙利供應(yīng)商。
這種套路對于國人來說是不是異常熟悉,這正是此前出現(xiàn)QQ冒充老板詐騙的變種或者升級版了。而二者的區(qū)別就在于,騙子是盜取QQ號利用文字詐騙,而海外黑客則技高一籌,直接模仿了老板的聲音。毫無疑問,這伙黑客并不是什么能夠模仿他人聲音的奇人異士,而只是使用AI來復(fù)刻了德國老板的德味英語和說話音調(diào),讓來自英國的下屬認可其就是他老板。那么這一切究竟是怎么做到的呢?我們不妨從頭說起。
首先,我們此前曾經(jīng)提到過,目前在電話營銷領(lǐng)域,機器人的比重越來越大,而且聲音也與真人無異。不過這種模式基于關(guān)鍵詞播放錄音,而錄音本身則是由真人完成,是千篇一律的話術(shù)。而量身定制的詐騙行為,肯定是不會用這樣無法隨機應(yīng)變的方式。
眾所周知,人工智能背后依靠的是機器學(xué)習(xí)和深度學(xué)習(xí)作為技術(shù)支持,大數(shù)據(jù)作為訓(xùn)練對象。比如說,谷歌Duplex作為當下最知名的智能語音代表,其之所以能實現(xiàn)“自然對話”,背后靠的是自然語義理解、自然行為建模,以及自然語氣三大核心,谷歌在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,使用低置信度模型來解決響應(yīng)問題、基于WaveNet和Tacotron的合成TTS(文本到語音)引擎,來控制語音語調(diào)。
其中,TTS引擎就是今天的主角,也正是海外黑客團伙能夠合成他人自然語音的關(guān)鍵。比如說,谷歌旗下的DeepMind團隊在2016年推出的WaveNet,百度方面在2018年拿出的Deep Voice系統(tǒng),就是典型的TTS引擎。但無論是WaveNet還是Deep Voice,其實都是從海量人聲樣本中提取數(shù)據(jù)及特征,并建立一個音頻模型,而語音合成神經(jīng)網(wǎng)絡(luò)則根據(jù)這些模型進行調(diào)整,以設(shè)計出不同特征的聲音。在實踐過程中,Deep Voice能夠?qū)⒏鞣N文本特征(文字、音素、重音)轉(zhuǎn)換為聲學(xué)特征,然后再將這些聲學(xué)特征作為聲音波形合成模型輸入。
當然,WaveNet與Deep Voice還要依靠大數(shù)據(jù)來進行訓(xùn)練,并需要一段時間的學(xué)習(xí),才能達到模仿真人聲音的效果。而科技進步的腳步是不會停下的,谷歌在去年實現(xiàn)了能夠?qū)崟r語音克隆的SV2TTS,這是一個三階深度學(xué)習(xí)框架,只需要5秒鐘的低分辨率原音信息,這一框架就能提取其中的聲紋和聲線來生成梅爾(mel)譜圖,最后基于自回歸波的語音生成網(wǎng)絡(luò),將梅爾譜圖數(shù)據(jù)轉(zhuǎn)換為與原音相似度極高的合成語音波型文件。
而作為國際知名的科技巨頭和創(chuàng)新先鋒,谷歌并沒有將SV2TT敝帚自珍,而是將其上傳到Github等開源社區(qū)中。因此這個詐騙了22萬歐元的黑客團伙,在通過某渠道獲得了德國老板的聯(lián)系方式,通過短暫對話拿到后者語音素材之后,很容易就以此為基礎(chǔ)生成了用于詐騙的實時語音。
那么有沒有辦法針對這種新型高科技詐騙的辦法呢?其實從技術(shù)層面來看很難,所謂以AI制AI的方法也并沒有太多普適性,但大家不妨多一個心眼,如果未來接到了你老板打來要求轉(zhuǎn)賬給其他人的電話,試試用其他方式聯(lián)絡(luò)老板來做個“雙因素驗證”,畢竟騙子也不太可能做到面面俱到。
總結(jié)
以上是生活随笔為你收集整理的ivona tts语音合成引擎_耳听也不一定为实,AI语音已能骗得百万巨款的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: c盘哪些文件可以删除_Win7下C盘哪些
- 下一篇: python no module nam