相芯科技蔡锐涛:AI虚拟形象——没有最完美,只有更完美
生活随笔
收集整理的這篇文章主要介紹了
相芯科技蔡锐涛:AI虚拟形象——没有最完美,只有更完美
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
在LiveVideoStackCon2019深圳音視頻技術大會前夕,我們邀請到了相芯科技資深圖形引擎開發經理蔡銳濤老師接受采訪,從個人成長聊到智能圖形技術方面的創新與應用,再到相芯科技在虛擬形象上的優勢,最后關于5G對于圖形技術的升級方向,蔡老師也給出了自己的答案。文 / 蔡銳濤整理 / LiveVideoStack
LiveVideoStack:蔡銳濤你好,感謝接受LiveVideoStack的采訪,能否向LiveVideoStack的讀者簡單介紹下自己。蔡銳濤:我來自杭州相芯科技有限公司,資深圖形引擎工程師。碩士,畢業于浙江大學CAD&CG實驗室。2016年加入相芯科技,是視頻AR特效SDK的技術負責人,主要從事跨平臺的2D/3D AR圖形引擎的開發工作,對圖形圖像處理中智能美顏、美膚美型、美體瘦身、濾鏡特效、2D/3D貼紙、手勢識別、背景分割、人臉特征點定位、三維人臉重建以及人臉表情動畫合成、角色物理動畫以及真實感渲染等技術有較深入了解,同時也十分關注音視頻領域相關技術。
LiveVideoStack:浙江大學CAD&CG作為國家重點實驗室,在其中的經歷對你有哪些影響?
蔡銳濤:我在本科畢業后到浙大CAD&CG實驗室繼續碩士階段的學習,做三維人臉重建以及人臉表情動畫合成相關工作,對圖形學的認知越來越廣,也發現自己未知的東西也越來越多,探索充滿挑戰和驚喜,也被她深深的吸引。在加入相芯科技后,我主要做的也是與圖形引擎開發有關的工作,相芯科技做的視頻AR特效SDK已經服務于500+ B端客戶,包括百度、阿里等,產品與音視頻結合后可以服務于眾多行業,包括社交、直播、短視頻、在線教育、廣告營銷等。浙大CAD&CG實驗室的經歷讓我對圖形技術有了更深層次的理解,為之后的工作打下了堅實的基礎,在不斷的探索過程中也更加堅定了自己對圖形學的熱愛。LiveVideoStack:對圖形圖像處理技術感興趣的開發者,你有沒有推薦的書籍?蔡銳濤:關于計算機圖形學基礎,可以看看《計算機圖形學》《數字圖像處理》。入門實踐可以看看Khronos小組編寫的王銳教授等譯著的紅寶書《OpenGL編程指南》。細分方向上,幾何處理方面,推薦看看計算幾何Computational Geometry: Algorithms and Applications, Third Edition.。渲染上有兩部經典的書Real-Time Rendering 以及Physically BasedRendering。游戲引擎架構入門有本不錯的書籍Game Engine Architecture,Third Edition,由Milo大神譯著《游戲引擎架構》。當然只學習書本知識是不夠的,要多到實際中去,圖形學在很多方向上,對工程能力要求也較高,建議多多“造輪子”,加深理論理解,提升工程能力。此外,多關注學術前沿,計算機圖形學會議SIGGRAPH,SIGGRAPH Asia等,會議有很多courses也是不錯的學習和實踐的地方。LiveVideoStack:目前,相芯科技在智能圖形技術方面具體有哪些創新與應用?蔡銳濤:基于相芯科技的“數字化身驅動”和“數字化身創建”兩大核心技術,相芯科技已經形成了較為成熟的四大解決方案,即:視頻AR特效、虛擬形象自動生成、AI虛擬助手解決方案和AI虛擬主播解決方案。視頻AR特效相信大家已經很熟悉了,就不做贅述了。虛擬形象自動生成技術僅需一張自拍照片,即可同步生成個性化3D卡通形象,這項個人形象技術,可以輕松接入到各種VR/AR的應用中去,應用前景較為成熟與廣闊。而AI虛擬助手能夠實現與用戶面對面互動的可視化人機交互體驗,企業用戶可選擇通用形象或者通過定制具有品牌IP的聲音、形象獲得專屬的智能助手,無論是嘴型、表情還是聲音,均已達到流暢生動的交互效果。AI虛擬主播解決方案目前比較多的運用在報業和電視臺,只需要輸入文字或音頻,就能快速生成具備精確口型、豐富面部表情以及動作的AI虛擬主播播報視頻,幫助需求方提高新聞內容生產效率,降低制作成本。LiveVideoStack:目前市場上也有其他做AI虛擬主播和AI虛擬助手的廠商,相芯科技相比其他廠商有哪些核心優勢?蔡銳濤:形象方面是我們比較大的優勢。我們具備業內最全面的形象類型,支持2.5D真人、3D卡通人物、3D卡通動物、3D高精度仿真人的形象定制,同時支持半身和全身定制,來滿足不同平臺IP定制化的需求。不僅如此,我們的形象具備豐富的情緒表情和動作姿態。相芯科技自主研發的語音動畫合成技術(STA)將人工智能與計算機圖形學相結合,當計算機獲取語音或者文本中的內容信息后,STA即可通過計算機圖形學合成技術對虛擬形象的面部進行驅動并融合,實現極具逼真感的表情還原。我們也會根據客戶需求,提供包含形象、情緒、動作等多維度形象配置服務,同時兼容市面上的大部分語音廠商,致力于打造更完美的AI虛擬形象。
LiveVideoStack:隨著5G等網絡基礎設施的完善,網絡帶寬更大,網絡傳輸延遲更低,在這個過程中你覺得圖形圖像處理技術有哪些重要的升級方向?蔡銳濤:5G的到來使得很多數據密集型低時延要求的領域都會有新的機會,云計算,邊緣計算,邊云協同,物聯網,自動駕駛,遠程醫療,虛擬現實,超高清視頻等等。在音視頻領域,最直接的結果是圖像清晰度的提升,另外數據量上也會較4G高出一兩個數量級。圖像清晰度的提升,一方面可以直接由硬件設備升級支持,另一方面,整個互聯網上已經積累了海量的中低清圖像視頻,那么,圖像超分辨率,會有很好的應用場景,并且處理海量數據帶來的延遲是個蠻大的挑戰,這里充滿機會。同時,圖形分辨率提升,帶寬也急劇加大,高質量的圖像壓縮算法也有施展拳腳的地方。此外呢,個人覺得VR虛擬現實,AR增強現實,數字化身也會有很好的機會,這三個不同的領域,有個共性,需要高質量的真實感渲染。在當前終端上,由于傳輸帶寬過小,大部分的邏輯計算和圖像渲染都要依賴于本地的硬件水平,增加了用戶的使用成本,并且很難達到實時的要求。如果采用端云結合模式,云端高質量渲染,云端AI計算,終端顯示,可以有效降低用戶使用成本,小于5ms的時延能極大提升體驗,這其中也有不少機會。數字化身也是我們相芯主攻方向之一。
LiveVideoStack?秋季招聘
LiveVideoStack正在招募編輯/記者/運營,與全球頂尖多媒體技術專家和LiveVideoStack年輕的伙伴一起,推動多媒體技術生態發展。同時,也歡迎你利用業余時間、遠程參與內容生產。了解崗位信息請在BOSS直聘上搜索“LiveVideoStack”,或通過微信“Tony_Bao_”與主編包研交流。
總結
以上是生活随笔為你收集整理的相芯科技蔡锐涛:AI虚拟形象——没有最完美,只有更完美的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 音视频技术开发周刊(第120期)
- 下一篇: LiveVideoStackCon深圳