當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Fashion-MNIST数据集发布一周年，论文引用量超250篇

發布時間：2024/10/8 编程问答 30 豆豆

生活随笔收集整理的這篇文章主要介紹了 Fashion-MNIST数据集发布一周年，论文引用量超250篇小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者簡介：肖涵博士，Fashion-MNIST 數據集作者。現為騰訊 AI 部門高級科學家、德中人工智能協會主席。他曾于 2014-2018 年初就職于位于德國柏林的 Zalando 電商，先后在其推薦組、搜索組和 Research 組，擔任高級數據科學家。

肖涵在德國慕尼黑工業大學計算機系取得了博士（2014）和碩士學位（2011），博士方向為對抗機器學習。這期間曾在國立臺灣大學資工所做訪問學者（2013）。赴德前，他曾在北京郵電大學取得了信息通信學士學位（2009）。肖涵所創辦的德中人工智能協會如今擁有 400 余名會員，致力于德中兩國 AI 領域的合作與交流。

個人微信：hxiao1987

Blog：https://hanxiao.github.io

引言

距離我 2017 年 8 月發布 Fashion-MNIST 數據集已經有一年的時間了。正如我在其 README 中寫到的那樣：Fashion-MNIST 的目標是要替代經典數字 MNIST 數據集，幫助研究者更好的評測和理解機器學習算法。在過去的一年里，我看到 ML/AI 社區朝這個方向不斷前進著。越來越多的研究人員、工程師、學生和愛好者和初學者都愛上了這個數據集。?

數據集項目地址：

https://github.com/zalandoresearch/fashion-mnist

今天你可以在網上找到關于 Fashion-MNIST 數以千計的討論、代碼和教程。在 Github [1]，Fashion-MNIST 已經獲得了超過 4100 顆星星，被引用在 400 多個代碼倉庫中，1000 多條 commits 里和 7000 多個代碼片段中。在 Google Scholar [2]?中，超過 250 篇學術論文使用或引用了 Fashion-MNIST 數據集。甚至連來自 AAAS 的「科學」（Science）雜志都引用了這個數據集。而在 Kaggle [3] 上，這個數據集在數千個數據集中是名列前茅，并附有 300 多個 Kernels。目前，所有主流的深度學習庫都內置了這個數據集：你只需要一行 `import`，就可以直接使用它。?

毫無疑問，Fashion-MNIST 是一個非常成功的項目。在這里，我會對它在過去一年里所取得的重要成就做一個總結。

我為什么會做Fashion-MNIST？

2017 年 8 月的一天，那時我還在 Zalando Research 部門工作。我的上司讓我調研一把生成對抗網絡（GAN）并實現其中一兩個模型，借機熟悉一下。我很快就寫完并在 MNIST 數據集上做了測試。但我發現在 MNIST 上的生成結果似乎總是不錯，無論你用的網絡復雜度如何，參數設置如何。

或許因為 MNIST 過于簡單？于是，我決定增加一些難度，把公司數據庫中的衣服圖片扔到網絡里去。很顯然，這就需要我重新寫一個用于輸入處理的 pipeline：把圖片居中、調整白平衡、縮放等等，最后再載入到模型中。最終，我決定將圖片做離線處理后，存儲為 MNIST 的格式，省去了自己寫 data loader。

這就是 Fashion-MNIST 最初的第一個版本，隨后的幾天里，我一直在玩這個新數據集，利用它做各種實驗。同時，我不斷改善它的圖片質量，并在 Tensorflow，Keras 中為它提供更通用的 API 接口。最終，我把它發布為公司內部的一個開源項目（inner source project）。

在我的前同事 Kashif Rasul 和 Lauri Apple 的鼓勵下，我們最終決定把這個數據集發布到 Github 和 arXiv 上。為了在國際上擴大影響力，我也將數據集的說明翻譯成了中文和日文。

剩下的事情可能大家都已經知道了：這個數據集最先被 Reddit 下的 r/MachineLearning 板塊討論，隨后迅速在 HackerNews，Github，Twitter 和 Facebook 上傳播開來。連續三天內，Fashion-MNIST 成為 Github 上最熱門的開源項目之一。幾天后，甚至 Yann LeCun 本人都在他的 Facebook 主頁上發帖鼓勵大家嘗試這個新數據集。

在這次的經歷中，我想特別感謝我的前同事 Lauri Apple 的支持。Lauri 是一位長期致力于開源事業的女性。在一開始，我的想法（采用 Fashion-MNIST 替換 MNIST）遭到其他人的嘲笑和不理解，他們認為圈子里根本不會在乎這個數據集。這個時候，Lauri 站了出來告訴我：那些真正做出改變的人永遠是那些相信改變的人（people who actually make change are the ones who believe that change is possible）。

Fashion-MNIST對學術圈的貢獻

在我今天寫這篇總結的時候，已經有超過 260 篇學術論文在實驗環節引用或使用了 Fashion-MNIST 數據集（根據截止至 9 月 18 日的 Google Scholar結果 [4]）。考慮到數據集僅僅發布 1 年，這個數量還是非常可觀的。經過一番篩選之后，我留下了其中 247 篇放在了一個 Google 表格里 [5]，大家可以自行查閱。

那么這 247 篇論文出自誰之手，在哪發表，又研究了哪些問題？在下面，我會向大家做一個全面的介紹。

頂級AI研究機構青睞Fashion-MNIST

下圖給出了 247 篇論文中按照機構的統計圖。如果一篇論文由多個機構合作完成，則在統計時每個機構都加 1。而如果一篇論文中多個作者來自同一機構，則這一機構只加 1。并且，我還把同組織的機構合并在一起，比如 Google Research，Google Brain，Deep Mind 合并為了 Google；馬普（Max Planck Institute）旗下的信息所、智能所和量子光學所合并為 Max Planck Institute。為了更加清晰的展示，論文數量小于 3 機構沒有在這里展示，但大家仍然可以在上述 Google 文檔 [5] 中查看全部機構的統計列表。

在這個圖表中，我們不難發現來自北美、亞洲和歐洲地區頂尖的 AI 研究機構。在它們之中，Google 以 9 篇使用 Fashion-MNIST 的論文位居榜首。其次是英國劍橋大學，7 篇；IBM Research、加拿大蒙特利爾大學、北京大學和加州大學洛杉磯分校以 6 篇并列第三。中國方面，除北京大學外，中科院、南京大學、清華大學及京東也非常青睞 Fashion-MNIST 這個數據集。

而在工業界，除了已經列出的 Google，IBM Research 和 Microsoft，在完整列表中可以找到更多大家耳順能詳的公司 Facebook（2 篇）, Telefónica Research（2篇），Uber（1 篇），Apple（1 篇）, Samsung（1 篇）, 華為（1 篇）和 Twitter（1 篇）。同時，我還注意到有不少北美地區的機器視覺創業公司也在 Fashion-MNIST 數據集上做了非常有意思的研究，并發表了高質量的論文。

美中兩國在AI領域的競爭和合作

下圖展示了這些文章出自于哪些國家或地區。如果一個論文由多個國家或地區合作完成，則在統計時每個國家或地區時都加 1。而如果一篇論文中多個作者來自同一國家或地區，則這一國家或地區只加 1。為了更清晰的展示結果，論文數量小于 4 的國家或地區沒有在這里展示，但大家仍然可以在這里 [5] 查看全部國家或地區的統計列表。

很明顯，美國以 94 篇引用 Fashion-MNIST 的論文的絕對多數占據了榜首，其次是中國 44 篇。加拿大、英國德國的研究人員也顯示了對這個數據集的濃厚興趣，分列第 3、4、5 位。榜上前 5 名的國家貢獻了大約 50% 的論文量。總體來講，共有來自 38 個國家的研究人員在他們的論文中使用了這個數據集。

盡管中美之間貿易戰的烏云籠罩，AI 領域競爭激烈，但我們仍然看到兩國在 AI 研究領域中大量的合作。在過去的一年內，兩國共有 10 篇合作的論文使用了 Fashion-MNIST 數據集，高于任何其他兩國之間的合作。其次是英國和德國，共合作了 4 篇論文。完整的國家地區合作列表可以在這里 [5] 看到。

把政治偏見放在一旁，我非常愿意看到更多的國家與國家之間在 AI 領域的合作。這也是 Fashion-MNIST 的使命之一：增加整個社區的凝聚力和多元化。特別是今天，當 AI 技術已經越出象牙塔，國與國之間的交流合作變得極為重要。

頂級會議青睞Fashion-MNIST

當然，論文不是靠數量而是靠質量取勝的。那么這些論文都是在哪里發表的呢？他們的質量又如何呢？下圖給出了按照會議和期刊的統計表。我只統計了過去一年中已經確定被正式錄取的論文，而那些正在審核狀態的論文并沒有在這個圖表中展示。完整的列表可以在這里 [5] 查看。

大部分的論文都是在 2018 年涌現出來的，尤其是在諸如 NIPS，ICLR，ICML 等頂會。在 NIPS 2018 中，一共有 17 篇錄用的論文使用了 Fashion-MNIST數據集。而 2017 年這個數字是：零。不過這顯而易見，因為在 NIPS 2017 年的 5 月份的投稿截止時，Fashion-MNIST 還沒有誕生。而在稍后一點的 11 月戒指的 NIPS 2017 Workshop 中，我們已經可以看到研究者在論文中使用了這個數據集。?

除了在會議上發表，也有很多畢業論文和頂級期刊中引用到了 Fashion-MNIST，其中知名的期刊包括：Journal of Machine Learning Research（2 篇），Neurocomputing（2 篇），Nature Communications（1 篇）和 Science（1 篇）。

Fashion-MNIST 在「科學」雜志中被引用

這其中最讓我驕傲的一篇論文引用，發表在 Science 科學雜志上。在這篇題為 All-optical machine learning using diffractive deep neural networks [6] 的 Science 論文中，一個來自加州大學洛杉磯分校的團隊建造了一個全光學的深度“神經”網絡，并且用 3D 打印機打印了出來。這個光學深度神經網絡功能上沒什么不同，它能對 MNIST/Fashion-MNIST 的圖像進行分類，只不過它的分類速度是——光速！

下圖展示了 MNIST 和 Fashion-MNIST 模型上 5 個不同的物理層。這些層可以被 3D 打印出來，而層上面的每個點都有著不同的功能：或是允許光子通過，或是直接把光子反射回去，這就好比神經元之間的連接。在下圖右側，就是一個打印出的 3D 打印的全光學神經網絡。

在實際分類時，這個 3D 打印的網絡被放在如下的儀器中。通過判斷在最后一層上光學信號最強的區域來獲得分類結果。

GAN研究者青睞Fashion-MNIST

生成對抗網絡（GAN）近幾年一直是深度學習領域的研究重點，尤其是在圖像生成、圖像處理等應用領域，GAN 經常能取得驚人的效果。也不難理解為什么 GAN 的研究員喜歡 Fashion-MNIST 這個數據集：它比較輕量；不需要重新寫 data-loader；卻比 MNIST 包含更復雜的和多元的局部模式信息。

對于圖像 GAN 的研究者來說，在打造一個新的算法時，第一個測試就是在 MNIST 和 Fashion-MNIST 上進行測試。下圖展示了 247 篇論文按照關鍵詞分類結果。很多論文作者沒有提供關鍵詞，對于這些論文，我在讀過 Abstract 和 Related Work 后，為這些論文手工總結了一些關鍵詞。為了更清晰的展示結果，論文數量小于 5 的關鍵詞沒有在這里展示，但大家仍然可以在這里 [5] 查看全部關鍵詞的統計列表。

新的機器學習算法也喜歡使用 Fashion-MNIST 來做評測，例如膠囊網絡（Capsule Networks）。膠囊網絡自從發表以來就收到很多的討論：有不少人質疑膠囊網絡從設計上是否為 MNIST 做了特別的優化，而這種結構是否在其他數據集上仍然有效。不說大的 ImageNet 數據集，膠囊網絡是否在 Fashion-MNIST 上仍然有效呢？在過去的一年里，有 9 篇新的膠囊網絡在論文實驗中使用了 Fashion-MNIST 數據集。他們設計了更穩定的路由算法以確保空間特征能夠保留住。

Fashion-MNIST對社區的貢獻

在我發布 Fashion-MNIST 幾周后，我受邀到亞馬遜柏林辦公室做了一個演講 [7]。在問答環節，我被一個研究員問道，是否擔心 Fashion-MNIST 成為那些懶惰的研究員逃避現實問題的一個借口。畢竟，他們現在可以說自己的算法有了份“雙保險”（在兩個 MNIST 上驗證過了）。

這個社區從來沒有讓我失望，這些高質量的論文已經很好的證明了自己。而除了學術圈的論文，這個社區還找到了 Fashion-MNIST 另一個重要用途：教學。在網上你可以找到數以千計的討論、代碼和教程，尤其是在機器學習入門的第一講。

Fashion-MNIST 增加了整個社區的多元化：它吸引了很多年輕的 AI（特別是女性）愛好者、學生甚至是藝術家和設計師。他們在 Twitter 上表示，第一眼看到這個數據集都會覺得非常可愛，因此很想動手實踐。

在 2018 年 9 月，Google 在中國舉辦的開發者大會上，來自 Google 的演講者使用 Fashion-MNIST 作為例子向在場的數百名參會者普及 Keras 深度學習庫和機器學習技術。而就在前幾天，2018 年 10 月，Google Colab 發布的 TPU 示例 [8] 中，也使用了 Fashion-MNIST 作為演示的例子來展現 TPU 的超強算力。

總結

人工智能的進步需要來自整個社區的共同努力。我很欣慰的看到在過去的一年里，Fashion-MNIST 為這個社區做出了自己的貢獻：它不僅吸引了多元化背景的愛好者，也促進研究人員設計更嚴密更具說服力的實驗。所以無論你是研究員、學生、教授還是愛好者，無論你是想把 Fashion-MNIST 用在講座、論文、研討會、競賽還是培訓中，只要你喜歡，都可以去做。最重要的是享受技術帶來的樂趣，讓更多的人體驗到機器學習和人工智能的魅力。

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

生活随笔