介绍arxiv.org的文献更新管理工具arxiv-sanity
我們都知道arxiv.org是一個非常大的預印本資源庫,里面有大量的優質論文,但缺點是瀏覽、搜索和排序不是很方便。這個庫每天會更新大量的論文,可不幸的是,你只能通過這樣超級長的列表去找,還沒有標簽。
這樣特別容易讓人和一些優秀的有趣兒的論文擦肩而過,這些論文可能是和你的研究領域相關的。所以接下來你可能就能猜到這個arxiv-sanity是干什么用的了。
? ? 首先,arxiv-sanity在展示最新更新的文獻時,提供了可讀性更強的縮略圖預覽模式方便讀者來快速預覽,并在縮略圖下方的綠色區域顯示文獻的abstract 。
? ?? 更重要的是,它可以讓你根據自己的閱讀興趣對文獻進行重新排序。比如這里有一篇關于對人體姿態估計的文獻是你感興趣的,點擊右上角的' rank by tf-idf similarity to this',文獻列表會根據按照與這篇文章的相關度進行排序,我們會看到arxiv上所有關于人體姿態識別的論文。這個功能是基于TF-DF算法來實現的,效果很好。(一種文檔特征提取法,它是由Salton在1988 年提出。其中TF 稱為詞頻,? IDF 稱為反文檔頻率, 感興趣的可以自己百度。)
? ? 我們還可以搜索文檔。比如我們搜索Geoff Hinton,我們就可以看到他最近在arxiv發表的文獻了。
? ? 如果你是注冊用戶,在登錄賬戶之后,還可以把自己感興趣的文獻收藏的你的個人圖書館。比如,我喜歡上圖的這篇人體姿態估計的文獻,點擊右上角存盤圖標,(看到了嗎?就在' rank by tf-idf similarity to this'下面),點擊之后就把這篇文獻存在我自己的library里面了。
這時,剛剛黑色的圖標變成了藍色,點擊上面的library標簽,可以看到它出現在了最上方。你可以像這樣收藏很多自己感興趣的文獻。想刪除的時候,在自己的library里面再次點擊那個圖標就可以刪除了。
? ? 另外,library不光是用來收藏和跟進自己領域的論文更新進度,arxiv-sanity可以通過你收藏的內容給你推薦你也許會感興趣的論文。具體怎么實現的呢?library內部的論文會被標記為positive,Library之外的論文標記為negative,然后arxiv-sanity基于bigram文本特征提取來訓練你的personal SVM,然后在reconmmended 標簽里推薦給你。點擊recommended標簽你就可以看到最近兩周arxiv-sanity認為你會感興趣的文獻。當然,你也可以通過設置時間來自己篩選,如去年,上個月,上周,昨天,和全部,看看自己有沒有錯過什么文獻。
? ?? 最后,在介紹一下“top recent”標簽。這里面展示的是arxiv-sanity上被用戶收藏最多的文獻。這些文獻也可以按照時間來篩選。即使你不是注冊用戶,你也可以瀏覽到大家都在收藏的文獻。
在頁面上方可以看到,arxiv-sanity只展示machine learning的論文,如CV,CL等ML的分支領域,因為這是arxiv-sanity作者自己的研究領域。(對,這是人家閑暇時間寫的)。作者已經把arxiv-sanity開源了,所以如果你想根據自己的研究領域新建自己的arxiv-sanity,可以去GitHub自己fork。GitHub搜索 karpathy/arxiv-sanity-preserver。
- cs.CV: Computer Vision and Pattern Recognition 計算機視覺與模式識別;
- cs.CL:Computation and Language 計算語言學;
- cs.LG:Learning 機器學習(計算機科學);
- cs.AI:Artificial Intelligence 人工智能;
- cs.NE:Neural and Evolutionary Computing 神經與演化計算;
- stat.ML:Machine Learning 機器學習(統計學)。
?
?
總結
以上是生活随笔為你收集整理的介绍arxiv.org的文献更新管理工具arxiv-sanity的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SwitchyOmega
- 下一篇: 气候变化如何影响致命的龙卷风?