为什么视频异常分析是最适合互联网时代的内容管理工具?
信息爆炸——互聯(lián)網(wǎng)時代的內(nèi)容管理難題
人類歷史,經(jīng)歷過多次內(nèi)容傳播方式的大變更,這些變更改變了人與人之間的關(guān)系,改變了人對世界認(rèn)知的方式,也最終改變了人在內(nèi)容傳播鏈中的角色。
曾經(jīng),甲骨文只在貴族內(nèi)部使用,貴族階層從而壟斷了知識。直到竹簡的出現(xiàn)打破了這種貴族壟斷,竹簡的大規(guī)模使用也促成了后來百家爭鳴的出現(xiàn),平民得以第一次觸達(dá)到精英們的思想產(chǎn)物。后來,造紙術(shù)的發(fā)明更是大大降低了信息傳播的難度和成本。紙的普及讓內(nèi)容可以被相對便利而低廉地大量復(fù)制和分發(fā),舊時王謝堂前燕,得以真正地飛入尋常百姓家。當(dāng)然,后來又有廣播、電視的出現(xiàn),這些載體讓內(nèi)容更為“有聲有色”,也進(jìn)一步降低了對于內(nèi)容消費(fèi)端的門檻要求——打破了人接收內(nèi)容需要“識字”的壁壘。
但所有這些的變更,都沒有跳脫出知識和內(nèi)容生產(chǎn)的壟斷,直到互聯(lián)網(wǎng)自媒體時代的到來。這一次,內(nèi)容生產(chǎn)端的壁壘也被打破,每一個人,都可以既是接收者,又是表達(dá)者。很快,信息開始呈現(xiàn)指數(shù)級的爆炸。人們剛剛脫離內(nèi)容匱乏之困不太久,便迎來了內(nèi)容過剩之困,大量內(nèi)容魚龍混雜,人們面對這種復(fù)雜性經(jīng)常手足無措。于是,新的難題被提出,這便是互聯(lián)網(wǎng)內(nèi)容管理。
我們的思考與判斷
互聯(lián)網(wǎng)內(nèi)容管理的第一層是內(nèi)容的管控,即互聯(lián)網(wǎng)內(nèi)容安全;第二層是內(nèi)容的理解和梳理,這兩層能力依托的都是對于互聯(lián)網(wǎng)內(nèi)容的多維和深入的理解,其特征是理解維度全面、梳理粒度精細(xì),其目標(biāo)是內(nèi)容處理可控、內(nèi)容推薦精準(zhǔn)、內(nèi)容使用便利。
難以根除的「異常」內(nèi)容,推動互聯(lián)網(wǎng)視頻異常分析技術(shù)不斷進(jìn)步
首先是內(nèi)容的管控。互聯(lián)網(wǎng)的內(nèi)容管控歷經(jīng)幾番變遷,對于有害內(nèi)容的處理,已從強(qiáng)調(diào)溯源打擊轉(zhuǎn)變?yōu)閺?qiáng)調(diào)第一時間切斷有害傳播并迅速進(jìn)行有效精準(zhǔn)的屏蔽和清理。
是與非,善與惡,從物理世界到網(wǎng)絡(luò)世界,對抗和交戰(zhàn)從未停止,但對抗的本質(zhì)正在改變。在紛繁復(fù)雜的內(nèi)容背后,威脅并非一定來自某個想毀滅世界的瘋子,相反,在很多時候,威脅潛伏在看似平凡的日常生活里。然而,這種“無意”卻匯聚成了惡,有時甚至是極大的惡。
甲子光年曾發(fā)表文章《兒童邪典視頻背后:始作俑者是誰,“幫兇”又是誰”》,詳細(xì)分析了2018年曾引起大范圍輿論關(guān)注的“艾莎門”(Elsagate)兒童邪典視頻事件。在文中,作者將兒童邪典事件的主因歸結(jié)為“無主之惡”。
“無主之惡”有兩層含義:
惡的源頭十分分散,它表現(xiàn)為高度信息化社會中一種特殊的協(xié)作和傳播模式:“Stand Alone Complex”(孤立個體集合體);
促進(jìn)惡發(fā)生和傳播的機(jī)制,最開始被設(shè)計出來時是中性,最后卻“事與愿違”地釀成惡果:在“艾莎門”中,流量經(jīng)濟(jì)+智能推薦算法成了侵害兒童的幫兇。
大量的兒童邪典視頻,被冠以“公主”、“迪士尼”、“米老鼠”等兒童喜愛的題材標(biāo)簽,堂而皇之地出現(xiàn)在各大視頻網(wǎng)站,并被算法自動歸類在兒童頻道。由于視頻標(biāo)題和內(nèi)容粗看與普通的兒童動畫差異不大,父母也未仔細(xì)留意,然而這些視頻充滿暴力、血腥、性暗示等危害兒童心理健康的內(nèi)容,等發(fā)現(xiàn)時,兒童往往已深受其害——表現(xiàn)為對視頻觀看上癮,不看即情緒暴躁。這些喜愛觀看邪典視頻的兒童,在視頻網(wǎng)站的用戶畫像被貼上這個喜好的標(biāo)簽,推薦算法進(jìn)而一次次加強(qiáng)了這種正反饋,從而一步步加深兒童的成癮性。
誠然,這一類視頻的制作者和傳播者有一些是用心險惡的,但也有不少比例的制作者的初衷是想要拿到好看的用戶觀看時長數(shù)據(jù)從而跟廣告商談個好價錢,有的傳播者是主動作惡,也有的可能是因為獵奇和審丑的心理在作祟。
作惡源頭無論在時間、空間還是動機(jī)上都是分散的。所以,面對有害內(nèi)容,溯源不是第一位的反應(yīng),迅速發(fā)現(xiàn)并及時切斷傳播才是最關(guān)鍵的。畢竟,在互聯(lián)網(wǎng)上,各種源頭的有害內(nèi)容,在散落于各處的大量用戶無意識的聯(lián)合下,在各大網(wǎng)站均已普及的內(nèi)容推薦算法的放大作用下,其危害比以往的任何一個時代都更為迅猛。
如何迅速發(fā)現(xiàn)有害內(nèi)容并及時切斷傳播?靠用戶舉報?靠大量人工去把關(guān)內(nèi)容做審核?太多的數(shù)據(jù)事實和案例都在告訴我們,這個時代,面對新的傳播方式和路徑,內(nèi)容管控也需要更聰明和更人性化的解決方案。
靠用戶舉報不用多說,滯后太嚴(yán)重。那么靠人工審核呢?
首先我們需要知道互聯(lián)網(wǎng)上的內(nèi)容的量級。1. 據(jù)不完全統(tǒng)計,當(dāng)前國內(nèi)互聯(lián)網(wǎng)每天產(chǎn)生的數(shù)據(jù)量在0.5EB(1EB = 10243GB)左右,每天成億上兆的圖像視頻在互聯(lián)網(wǎng)上散播一個。2. 僅在YouTube上,全球平均每分鐘就有長達(dá) 400 小時的視頻被上傳。這么多的內(nèi)容,純?nèi)斯徍耸墙^對審核不完的。所以視頻網(wǎng)站的大部分審核由程序根據(jù)文字描述和截圖識別完成。如果發(fā)布人員在提交視頻時精心偽裝,很容易就能蒙混過關(guān)。有疏漏是必然的。
其次我們需要知道長時間觀看有害內(nèi)容對審核員的身心傷害。據(jù)專家預(yù)計,約50%的Facebook內(nèi)容審核員都可能出現(xiàn)心理健康問題。Facebook也因此向現(xiàn)任和前任內(nèi)容審核員們支付5200萬美元的賠償金,以補(bǔ)償他們在工作中出現(xiàn)的心理健康問題。
正如獵豹和羚羊的協(xié)同進(jìn)化一般,一些技術(shù)的發(fā)展,給我們帶來新困擾的同時,另一些技術(shù)的發(fā)展,則給了我們解決困擾的力量。
閃馬在攻克的正是最難的視頻內(nèi)容審核。依賴基于深度學(xué)習(xí)的視頻內(nèi)容審核技術(shù),我們可以做到精準(zhǔn)過濾99.5%的有害內(nèi)容,節(jié)省85%的人工。當(dāng)然,這一過程仍然需要人的參與,但人可以從繁重的實時審核任務(wù)中解放出來,更多充當(dāng)“算法的老師”這一角色。因為算法可以不斷“學(xué)習(xí)”人類,對人工標(biāo)注好的圖片的特定內(nèi)容進(jìn)行分類學(xué)習(xí)并訓(xùn)練迭代,審核的內(nèi)容越多,算法就越火眼金睛,應(yīng)用效果就越好。
以閃馬內(nèi)容審核算法為例,從“智障”到初級審核員水平,我們喂了算法幾百個TB的數(shù)據(jù),到如今算法更是歷經(jīng)多年迭代,單次訓(xùn)練就是幾百萬張圖片的量級,水平超越絕大多數(shù)的人類審核員,效率和可靠性上的優(yōu)勢更為明顯,畢竟機(jī)器不會疲倦。
所以視頻內(nèi)容審核技術(shù)發(fā)展至今,已能幫助人們更細(xì)致更高效地審核視頻內(nèi)容,從而及時發(fā)現(xiàn)有害內(nèi)容并阻斷傳播,并且這種阻斷是更為精準(zhǔn)有效的,不是粗暴的一刀切——比如因為Elsagate 而清除所有帶有“艾莎”標(biāo)簽的視頻。毋庸贅言,這樣的能力正是基于算法對于內(nèi)容的理解上是多維的和深入的。
在有害內(nèi)容有效阻斷之后,我們可以利用跨平臺信息交叉串聯(lián)溯源技術(shù)來順藤摸瓜找到作惡源頭。
化零為整 ,「視頻分析」建立這個時代最大視頻資料庫
互聯(lián)網(wǎng)內(nèi)容管理的第二層要義便是內(nèi)容的梳理從而實現(xiàn)內(nèi)容資源利用上的游刃有余。
都說如今是“內(nèi)容為王”的時代。我們認(rèn)為,內(nèi)容為王,不意味著內(nèi)容獲取越多越好,因為現(xiàn)在內(nèi)容越來越泛濫,人們很容易從其他地方找到類似的東西。相反,能夠真正理解內(nèi)容,能夠把內(nèi)容進(jìn)行有效梳理,包括分類、精煉提取、把不同出處的內(nèi)容有機(jī)聯(lián)系起來等,才能“盤活”已有內(nèi)容以及快速定位匹配需求的內(nèi)容,才能真正決定內(nèi)容僅僅是內(nèi)容還是真正的資產(chǎn)。
內(nèi)容的形式又分為文本、圖片和視頻。視頻是所有內(nèi)容形式中維度最豐富的一種。如今,隨著智能設(shè)備的普及和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的發(fā)展,視頻在媒體中以及人們的日常交流中有著日益重要的作用。在這種時代背景下,人們就開始去研究如何理解、識別、分析并挖掘和利用海量視頻里的這些內(nèi)容。
要利用好視頻內(nèi)容,首先是要有視頻內(nèi)容的理解,內(nèi)容的理解又分為幾個程度:
一、基礎(chǔ)識別
應(yīng)用場景:自動打標(biāo)簽、場景標(biāo)注、自動字幕等
技術(shù)手段:人臉識別、場景物品識別、語音轉(zhuǎn)文字、文字標(biāo)簽提取等
對于一個視頻,我們其實是從多個維度來理解和描述它的內(nèi)容的。一個維度是整體的觀感,也是我們的第一反應(yīng),那就是它的色調(diào)、紋理、風(fēng)格、畫質(zhì)如何。然后,我們需要了解這個視頻涉及到哪些場景,里面有哪些人物,這些人物的特征是什么(包括性別、年齡、特征、服飾、是否是名人等),里面又有哪些物品等等。然后再進(jìn)一步還有更深層次的對視頻內(nèi)容的識別,比如人物的行為識別。
二、組合識別
應(yīng)用場景:自動打點、智能剪輯等
技術(shù)手段:鏡頭拆分、關(guān)鍵鏡頭識別、特征場景識別、視頻片段整體調(diào)性識別
在對視頻做了基礎(chǔ)的識別之后,下一層次就是對于視頻片段的整體理解,比如我們說一個片段的內(nèi)容是悲傷的,對于“悲傷”的識別不是看單個畫面、某個詞、某個特定的物體,而是一個整體的概念。另外,視頻的整體理解也需要把識別的內(nèi)容有機(jī)串聯(lián)起來,比如不僅僅知道有人在跑步有人在跳舞,有公園、馬路,還要知道,什么時候有什么人是在馬路上跑步,什么時候有什么人是在公園里跳舞。做到這個就需要將視頻的內(nèi)容標(biāo)簽按照語義串起來,能夠用包含時間、地點、人物、做什么動作這些基本元素組成的一句簡單的話來描述一個視頻里的事件。
三、高級理解
學(xué)術(shù)上更前沿的方式是像人一樣用自然語言來描述視頻的內(nèi)容。比如李飛飛團(tuán)隊提出了密集事件描述任務(wù),要求模型能夠生成一系列對于視頻中出現(xiàn)的多個事件的描述,并且在時間上對他們進(jìn)行定位。這些事件在視頻中多數(shù)有獨立的起始和結(jié)束時間,有時候也會同時出現(xiàn)或在時域上互相覆蓋。如果說通過組合識別,算法可以這樣描述視頻——某一時刻,一個女人在室內(nèi)唱歌,旁邊有鋼琴,那么用自然語言描述視頻,將會是這樣——視頻中某一時刻,“一個女人開始配合鋼琴家唱歌”,過一會兒,“另外一個男人在跟著音樂跳舞”。
當(dāng)然,這種方式離真正在生產(chǎn)生活中應(yīng)用還有很長一段路要走,但未來可期。
視頻內(nèi)容有效應(yīng)用的第二個要求是內(nèi)容可檢索。
當(dāng)前應(yīng)用最廣泛的內(nèi)容檢索手段是關(guān)鍵詞檢索,正在逐步普及的是以圖/視頻搜視頻。前者很好理解,利用搜索關(guān)鍵詞跟視頻庫的視頻內(nèi)容標(biāo)簽做相似度匹配。后者需要建立專業(yè)的視頻搜索引擎,用戶通過輸入圖片或視頻后,先對輸入的圖片/視頻做內(nèi)容識別,然后根據(jù)對輸入圖片/視頻的識別結(jié)果,在視頻庫中快速檢索到與輸入視頻相似的視頻片段。
以圖/視頻搜視頻這種方式對于搜索性能的考驗是很大的。因此,閃馬面向這種搜索場景做了大量工程優(yōu)化,全鏈路打通性能瓶頸,來保障搜索又快又準(zhǔn)。
有了對視頻內(nèi)容的多維度和深入的理解,以及對于內(nèi)容的快速而精準(zhǔn)的檢索之后,視頻內(nèi)容的精準(zhǔn)推薦、內(nèi)容的提煉、內(nèi)容的素材的隨取隨用等等這一切就是水到而渠成。這些技術(shù)助力人們做互聯(lián)網(wǎng)內(nèi)容的真正的主人。
結(jié)語
茨威格在《人類群星閃耀時》這本書里寫下這句話——“只有一件事會使人疲勞,搖擺不定和優(yōu)柔寡斷。而每做一件事,都會使人身心解放,即使把事情辦壞了,也比什么都不做強(qiáng)。”我深以為然。每個時代有每個時代的難題,但每個時代也有每個時代的幸運(yùn),也許面對這些難題,我們一代人也只能前進(jìn)一小步,但這一小步的前進(jìn),就是我們這代人的驕傲,Just do it!
總結(jié)
以上是生活随笔為你收集整理的为什么视频异常分析是最适合互联网时代的内容管理工具?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python中的逻辑量有什么_pytho
- 下一篇: Python计算二项分布教程