【深度学习】修改每张人像---ImageNet 的衰落
我做了一個機器學習示例,它使用了曾經最受歡迎的ImageNet 數據集,這是目前每個機器學習從業者都知道的經典圖像分類問題。這是一張圖片,對1000個類別中的哪一個進行分類。
但這次我注意到了一些奇怪的地方,首先網站崩潰了,當它恢復時,一切都變了,ImageNet 維護者修改了數據集中的每一張圖像,以模糊人臉。
數據隱私
這一決定背后的理由是崇高的,他們想讓數據集更具“隱私意識”。今天,大多數最先進的計算機視覺模型都在 ImageNet 上進行了預訓練,它們所呈現的自然情境和對象為大多數計算機視覺問題提供了強有力的基礎。
研究小組發布的一篇關于ImageNet中人臉模糊處理的研究報告,告訴了我們原因。日常圖像共享,通常包含敏感信息,向公眾發布大型數據集顯然會帶來許多潛在的巨大隱私風險。由于 ImageNet 的挑戰不是識別人,而是識別物體,因此團隊決定進一步模糊數據集中人的面孔,最后,他們修改了 243,198 張圖片。
我們很難找到一個不同意保護人們隱私的人,數化據匿名是數據科學的核心部分,可以保護從個人身份到健康記錄的所有內容。
在機器學習中,我們有機會以安全為核心。互聯網起源于一個不同的時代,在這個時代,安全和隱私是人們事后才想到的,互聯網的創造者看不到所有可能出錯的事情。但是今天,我們可以看到這些問題離我們很近,我們現在可以通過將隱私和安全作為數據科學的核心來解決這些問題。
但是有一個問題,如果我們想把隱私保護作為機器學習的中心,那么我們必須接受我們的數據會不斷變化,并導致我們面臨更大的問題。
再現性危機
機器學習中存在再現性危機,而且這種危機只會越來越大。
Nature 2016 年再現性調查主要結果
再現性是科學方法的基礎,為了從化學和量子力學方面獲得可靠的見解,我們依賴于再現性,機器學習也不例外。作為計算機視覺背后的主要技術,神經網絡在規模和復雜性上都有了巨大的發展,通常需要大量的GPU集群、大量的數據集,以及對訓練過程進行微妙的調整,而這些往往沒有在出版物中報道。即使發布了源代碼,復制研究的成本也可能使除了資金最雄厚的機構之外的所有機構都無法實現。
這個問題在機器學習研究中變得如此普遍,以至于 2019 年神經信息處理系統 (NeurIPS) 會議引入了一個再現性檢查表,其中包含“數據集或模擬環境的可下載版本的鏈接”。
因此,我們遇到了困難,如果我們不能使用用于訓練模型的原始數據集,我們就無法復制它。我們可以在新數據集上重新訓練模型,但我們無法復制或與之前的研究進行比較。
這意味著所有建立在原始 ImageNet 上的模型現在都無法重新創建。十多年來每個人都引用和依賴的挑戰不再能夠作為標準的計算機視覺基準,因為數據集不一樣。由于缺乏可再現性,ImageNet 已淪為基準計算機視覺數據集。
新希望
這就把我們帶到了問題的關鍵,我們如何在允許數據包含隱私變更的同時保持再現性?
我們必須開始將數據放在首位,數據集開發階段不再只是模型開發之前的一步,這是一個持續的過程,對我們的數據集的更改是不可避免的。從減少偏差到提高準確性,對我們的數據集的修改是不可避免的,我們需要接受數據更改而不是避免數據更改。
但這是否意味著我們失去了再現性?如果我們從一開始就考慮到這一點,那就不會了。我們已經習慣了這種代碼思維方式,我們知道它是動態的,它會改變的。多人將就此進行合作,預計會有新功能、錯誤修復、性能改進的變化,我們也需要將這種想法擴展到數據。
但與在軟件開發中編寫代碼不同,在機器學習中,我們有兩個移動的部分,代碼和數據,它們生成我們的模型。我在完成機器學習循環中寫了大量關于這個主題的文章,重點是,我們需要支持能夠在下圖所示的每個“兩個循環”中進行迭代的流程和工具。
機器學習生命周期中的“兩個循環”。在機器學習開發中,我們有兩個移動部分需要組合在一起來生成我們的模型:代碼和數據。兩個循環代表每個循環的開發生命周期,每個循環都在不斷迭代。
我們不僅需要能夠迭代,還需要跟蹤所有移動的部分以獲得再現性。需要捕獲對數據集的每次修改以及代碼中的任何新訓練技術,以再現由它們生成的模型,當我們的數據發生變化時,我們需要我們的實驗過程來更新。?
這就是Pachyderm 等工具的用處,Pachyderm 是一個具有內置版本控制和數據沿襲功能的數據科學和處理平臺,它的核心是數據版本控制,以支持數據驅動的管道。它的功能就像一個“生命系統”,管道依靠輸入數據來告訴它們何時開始。在我們的例子中,每當數據集被修改時,機器學習模型都會被訓練,從而保持數據的安全性和模型的相關性。
當新的模糊人臉圖像提交到版本化數據存儲庫時,連接的管道會自動重新運行,以保持整個系統的可重現狀態。
如果將 ImageNet 組織為 Pachyderm 中的數據集,則隱私感知版本可能會覆蓋原始數據集。任何連接的模型訓練管道,無論是原始 AlexNet 代碼還是最先進的預訓練模型,都將自動在新數據集上運行,為我們執行的任何實驗提供完全可復制的模型,允許我們的數據更改并保持我們的再現性。
像 Pachyderm 這樣將數據放在首位并考慮變化的工具對于將數據隱私引入 AI 來說至關重要,沒有它們,我們會發現自己迷失在不斷變化的數據和代碼的復雜性中。
結論
在現代化的世界中,數據隱私對于保護我們的安全至關重要。但是,數據隱私的改進往往是以犧牲再現性為代價的。
通過采用支持更改的工具,我們可以在不損害再現性的情況下將隱私更改納入我們的數據集。Pachyderm 一直是我們管理不斷變化的數據的首選工具,它極大地提高了在我的機器學習系統上迭代的可靠性和效率,這些類型的工具對于為 AI 的安全和可靠的未來鋪平道路至關重要。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載黃海廣老師《機器學習課程》視頻課黃海廣老師《機器學習課程》711頁完整版課件本站qq群955171419,加入微信群請掃碼:
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的【深度学习】修改每张人像---ImageNet 的衰落的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: wex5部署教程到数据库
- 下一篇: 【深度学习】preprint版本 | 何