网易易盾李雨珂:服务性能+算法确定性优化,迎接5G时代内容安全爆发式流量增长...
生活随笔
收集整理的這篇文章主要介紹了
网易易盾李雨珂:服务性能+算法确定性优化,迎接5G时代内容安全爆发式流量增长...
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
人工智能取代人類的言論一直甚囂塵上,而深度學習算法通過大量的樣本數據也能幫助人工對圖像、視頻、音頻中的信息做出識別,本次采訪邀請到網易易盾的資深算法專家李雨珂,他將會為大家解答深度學習在實際應用中的樣本攻防問題以及短期內人工審核在內容安全領域的不可替代性。文/ 李雨珂整理 / LiveVideoStackLiveVideoStack:李雨珂你好,感謝接受LiveVideoStack的采訪,能否向LiveVideoStack的讀者簡單介紹下自己和負責的工作?李雨珂:LiveVideoStack的讀者你們好,我是來自網易易盾的人工智能算法工程師,網易易盾是國內領先的內容安全和業務安全服務商。我個人很長時間都在從事算法應用相關的工作,目前主要負責推進人工智能算法在多媒體內容審核中的應用,包括了借助深度學習方法自動鑒別圖像、視頻、音頻中的不良信息。LiveVideoStack:從個人經歷來看,你曾從事過電商領域會員營銷的算法工作,與現在的深度學習圖像算法相比兩者在工作內容上有哪些不同?李雨珂:會員營銷算法主要針對用戶未來行為、偏好的預估,目前往往是傳統機器學習方法和深度方法結合使用。圖像算法和會員營銷算法相比在特征、模型和評估上會有一些差異。特征方面,圖像的特征都是從整圖中提取的,不在需要額外輸入信息,而會員的屬性、歷史行為等特征需要額外進行關聯和收集,從因果關系上來說,一張圖片的內容決定了它的性質,而一個用戶的屬性、歷史行為信息和他未來將要發生的行為之間的關聯性其實不是很強。模型方面,圖像更多是空間上的建模,而會員算法需要考慮時序方面的建模。評估方面,圖像任務往往可以構建出相對充分的測試集,而會員營銷算法的評估更依賴線上的AB測試。總體來說,會員營銷算法的難度在于問題本身的不確定性,而內容安全領域內圖像算法的難點主要在于小目標、模糊目標和多尺度問題。實際上,除了圖像算法外,網易易盾在用戶相關的算法方面也有較好的積累,在內容安全、業務安全場景中也發揮著重要的作用。LiveVideoStack:提到深度學習大眾往往都會將其和人腦智能聯系起來,兩者在你看來有哪些相同和不同的地方?李雨珂:我們對大腦的認識是是極其有限的,深度學習和大腦的工作機制能夠建立一定的聯系,比如感受野、層級結構的概念等等,但這種聯系更多是感官上的聯系,生物大腦的復雜程度是現有的深度學習網絡不可比擬的,單獨一個神經元的結構和性質已經足以讓科研工作者投入長期的研究了。從學習過程來看,深度網絡學習認識貓和狗的區別需要非常大量的樣本,而大腦只需要學習少量幾個例子就可以做推理了。我個人覺得深度學習是一個非常好用的擬合器、分類器,而生物智能有更加全面的能力和潛力,包括推理方面。LiveVideoStack:所有的深度學習模型在上線后都會存在樣本攻防問題,網易易盾在這方面有哪些獨到的應對策略?
李雨珂:網易易盾在這方面確實有很多投入。主要是從兩個方面來做的,一個是前期預防,另一個是后期學習升級。預防方面,我們會從數據擴充、數據增強、訓練方法、算法流程等方面著手,使我們的算法模型天然地可以應對一部分對抗的情況。但由于攻擊的成本相對較低,樣本變化新型多樣,所以在后期我們會結合其他圖像維度、用戶維度等技術手段進行更全面的分析,從而快速有效地緩解這一類問題,此外,我們同時會回流數據進行分析、優化,繼續加強模型的對抗能力。LiveVideoStack:目前的在數據層面深度機器學習還不能做到對數據100%準確率的識別,對小部分嫌疑類型數據通過模型后還需要進行人工的二次審核,隨著技術的發展,深度學習能否做到完全替代人工審核?李雨珂:從審核準確率上來看,我們發現機器其實在圖像任務上是可以接近甚至超過人類的,但機器可能會在人類容易判斷的例子上犯錯,結合剛才提到深度學習和人腦關系的問題,機器更像是死記硬背,而人工擁有舉一反三的優勢。我覺得實際操作過程中需要機器和人工更加有效地配合來提升審核的效果,機器可以協助人工減輕審核負擔,人工可以幫助機器提升自動化效果。由于內容安全領域對審核結果有非常高的要求,而人工有不可替代的優勢,例如人工在簡單樣例上不容易犯錯,并且沒有樣本攻防的問題,所以機器完全取代人工短期來看并不現實。網易易盾擁有專業的內容審核團隊,擁有完善的審核運營策略,是易盾服務效果的重要保障。LiveVideoStack:網易易盾的深度學習圖像算法在內容安全領域相比其他廠商有哪些核心優勢?李雨珂:網易易盾圖像算法在內容安全領域長期深耕細作,根據實際業務需求高效地、集中地進行了效果優化。在數據層面,我們積累了海量的UGC數據并進行了有效的樣本挖掘;在算法層面,我們針對業務場景做了很多網絡結構、訓練方法、模型融合上的定向優化,能夠召回大量困難樣例;在效果保障方面,我們擁有可靠的算法效果測試經驗和完善的測試流程。我覺得我們的核心優勢并不是某一個小點,而是在解決內容安全相關問題的過程中對每一個算法細節都有高質量的把控。LiveVideoStack:5G商用會致使數據流量爆發式增長,這會給深度學習算法帶來哪些挑戰?網易易盾對此都做了哪些準備?李雨珂:這個問題也正是網易易盾正在關心的問題,數據的爆發式增長會給算法服務帶來巨大的壓力,易盾算法團隊在保證算法效果的同時也持續關注算法性能的提升,方法上主要是從模型壓縮和算法流程優化兩方面來進行的,目前來看,我們的算法服務每過一個季度都會產生非常顯著的性能提升。另一方面,數據的增長也對算法的確定性提出了更高的要求,否則留給人工二次審核的數據量會非常龐大,易盾算法團隊也在不斷努力來提高機器正確識別的比例。通過算法性能和算法輸出確定性的提升,網易易盾有信心迎接爆發式增長流量的考驗。
李雨珂:網易易盾在這方面確實有很多投入。主要是從兩個方面來做的,一個是前期預防,另一個是后期學習升級。預防方面,我們會從數據擴充、數據增強、訓練方法、算法流程等方面著手,使我們的算法模型天然地可以應對一部分對抗的情況。但由于攻擊的成本相對較低,樣本變化新型多樣,所以在后期我們會結合其他圖像維度、用戶維度等技術手段進行更全面的分析,從而快速有效地緩解這一類問題,此外,我們同時會回流數據進行分析、優化,繼續加強模型的對抗能力。LiveVideoStack:目前的在數據層面深度機器學習還不能做到對數據100%準確率的識別,對小部分嫌疑類型數據通過模型后還需要進行人工的二次審核,隨著技術的發展,深度學習能否做到完全替代人工審核?李雨珂:從審核準確率上來看,我們發現機器其實在圖像任務上是可以接近甚至超過人類的,但機器可能會在人類容易判斷的例子上犯錯,結合剛才提到深度學習和人腦關系的問題,機器更像是死記硬背,而人工擁有舉一反三的優勢。我覺得實際操作過程中需要機器和人工更加有效地配合來提升審核的效果,機器可以協助人工減輕審核負擔,人工可以幫助機器提升自動化效果。由于內容安全領域對審核結果有非常高的要求,而人工有不可替代的優勢,例如人工在簡單樣例上不容易犯錯,并且沒有樣本攻防的問題,所以機器完全取代人工短期來看并不現實。網易易盾擁有專業的內容審核團隊,擁有完善的審核運營策略,是易盾服務效果的重要保障。LiveVideoStack:網易易盾的深度學習圖像算法在內容安全領域相比其他廠商有哪些核心優勢?李雨珂:網易易盾圖像算法在內容安全領域長期深耕細作,根據實際業務需求高效地、集中地進行了效果優化。在數據層面,我們積累了海量的UGC數據并進行了有效的樣本挖掘;在算法層面,我們針對業務場景做了很多網絡結構、訓練方法、模型融合上的定向優化,能夠召回大量困難樣例;在效果保障方面,我們擁有可靠的算法效果測試經驗和完善的測試流程。我覺得我們的核心優勢并不是某一個小點,而是在解決內容安全相關問題的過程中對每一個算法細節都有高質量的把控。LiveVideoStack:5G商用會致使數據流量爆發式增長,這會給深度學習算法帶來哪些挑戰?網易易盾對此都做了哪些準備?李雨珂:這個問題也正是網易易盾正在關心的問題,數據的爆發式增長會給算法服務帶來巨大的壓力,易盾算法團隊在保證算法效果的同時也持續關注算法性能的提升,方法上主要是從模型壓縮和算法流程優化兩方面來進行的,目前來看,我們的算法服務每過一個季度都會產生非常顯著的性能提升。另一方面,數據的增長也對算法的確定性提出了更高的要求,否則留給人工二次審核的數據量會非常龐大,易盾算法團隊也在不斷努力來提高機器正確識別的比例。通過算法性能和算法輸出確定性的提升,網易易盾有信心迎接爆發式增長流量的考驗。
LiveVideoStack?秋季招聘
LiveVideoStack正在招募編輯/記者/運營,與全球頂尖多媒體技術專家和LiveVideoStack年輕的伙伴一起,推動多媒體技術生態發展。同時,也歡迎你利用業余時間、遠程參與內容生產。了解崗位信息請在BOSS直聘上搜索“LiveVideoStack”,或通過微信“Tony_Bao_”與主編包研交流。
總結
以上是生活随笔為你收集整理的网易易盾李雨珂:服务性能+算法确定性优化,迎接5G时代内容安全爆发式流量增长...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在线教育音视频质量评价与感知系统
- 下一篇: 线上分享致歉通知