benchmark datasets是什么
The benchmarking datasets are the basis of fair comparison and validation of computational methods.
什么是 benchmark datasets
benchmark datasets(基準數據庫)是公平比較和驗證計算方法的基礎,基準數據集用于基準測試,是一個算法模型性能的衡量基準,很多特定機器學習問題都需要基準測試數據。
算法在數據集上跑可以理解為跑分,基準數據集就是作為一個評價標準的數據集,大家很多都在上面跑,用來評價一個算法模型的好壞。否則大家都在不同的數據集上跑,如何評價誰的算法好,誰的算法壞呢?
benchmark datasets 和 baseline 有什么區別
benchmark 是一個過程,baseline 是 benckmark 這個過程中的一次實例。
baseline 可以理解為最低的標準,即低于這個標準肯定是不行的;而 benchmark 可以理解為”某一刻度”,這個刻度可高可低,所以 benchmark 本身沒有好壞,單純用來進行比較。
baseline 是客觀的,原始數據要扣除 baseline 才是最終的 value。而 benchmark 相對主觀,是一個標準值,視依據而定,主要用來平行比較。
個人理解
高中我們就學過,科學實驗的一個重要原則在于控制變量,benchmark 和 baseline 其實都是控制變量而已。
我的理解,一般用 benchmark data 做實驗,測試 A B C D 四個模型,然后以結果最差的一個模型,假設是 C,作為 baseline,看看其他模型相對 C 提高了多少。
baseline 的目的是比較提出算法的性能或者用以比較彰顯提出算法的優勢。
一些基準數據庫
- 1 UCL 機器學習知識庫
- 2 Amazon AWS 公開數據集
- 3 Kaggle
- 4 KDnuggets
- 5 美國聯邦政府數據集
- 6 來自 infochimps 公司的數據集
- 7 百萬歌曲數據庫
- 8 蛋白質信息資源數據集
- 9 手寫數字圖像數據集
- 10 人臉識別數據庫
- 11 一些貝葉斯網
- 12 kdd99 數據集
- 13 數據集索引
- 14 華盛頓大學
- 15 搜狗數據資源
參考文章
baseline 和 benchmark 有什么區別?
Special Issue : Benchmarking Datasets in Bioinformatics - MDPI
總結
以上是生活随笔為你收集整理的benchmark datasets是什么的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: steam服务器错误修改器,吞食孔明传
- 下一篇: SCP 从Linux下载文件到Windo