Grid Search 网格搜索 介绍「建议收藏」
什么是Grid Search 網(wǎng)格搜索?
網(wǎng)格搜素是一種常用的調(diào)參手段,是一種窮舉方法。給定一系列超參,然后再所有超參組合中窮舉遍歷,從所有組合中選出最優(yōu)的一組超參數(shù),其實就是暴力方法在全部解中找最優(yōu)解。
為什么叫網(wǎng)格搜索,因為假設(shè)有兩個超參,每個超參都有一組候選參數(shù)。這兩組候選參數(shù)可以兩兩組合,把所有組合列出來就是一個二維的網(wǎng)格(多個超參兩兩組合可以看作是崗高維空間的網(wǎng)格),遍歷網(wǎng)格中的所有節(jié)點,選出最優(yōu)解。所以叫網(wǎng)格搜索。
存在的問題
使用網(wǎng)格搜索會導(dǎo)致,測試集上的表現(xiàn)效果比真實情況要好一些,因為測試集是用來對參數(shù)進(jìn)行調(diào)整,參數(shù)會最終被調(diào)整為在測試集上表現(xiàn)效果最優(yōu)的情況,而測試集樣本量小,真實情況的樣本量應(yīng)該會遠(yuǎn)大于測試集的情況,所以測試集的樣本數(shù)據(jù)分布情況與真實的樣本數(shù)據(jù)分布情況有所偏差。
解決辦法
對數(shù)據(jù)集多一次劃分,模擬真實數(shù)據(jù)集的情況。將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集、測試集。訓(xùn)練集是用于模型訓(xùn)練,驗證集用于模型調(diào)參,測試集用于衡量調(diào)參后模型的好壞。這里有個疑問,如果驗證集劃分的太小,那么驗證集對整體數(shù)據(jù)集的表現(xiàn)越弱,越具有偶然性,那么調(diào)參的結(jié)果可能對于整體數(shù)據(jù)集更差。這里可以引入交叉驗證的方法減少偶然性。
使用場景
網(wǎng)格搜索可以使用在機(jī)器學(xué)習(xí)算法調(diào)參中,而很少使用在深度神經(jīng)網(wǎng)絡(luò)的調(diào)參中。因為網(wǎng)絡(luò)搜索其實并沒有什么特別的優(yōu)化方法,就是簡單的窮舉。這種方法不使用網(wǎng)格搜索手動去窮舉也是可以實現(xiàn)的,只不過網(wǎng)格搜索自動化一些,不需要手工的去一個一個嘗試參數(shù)。本質(zhì)就是把所有參數(shù)的可能都運行了一遍,對于深度神經(jīng)網(wǎng)絡(luò)來說,運行一遍需要很長時間,窮舉的去調(diào)參,效率太低,更何況隨著超參數(shù)數(shù)量的增加,超參組合呈幾何增長。而對于機(jī)器學(xué)習(xí)的算法來說,運行時間相對較短,甚至對于樸素貝葉斯這種算法不需要去多次迭代所有樣本,訓(xùn)練時間很快,可以使用網(wǎng)格搜索來調(diào)參。
總結(jié)
以上是生活随笔為你收集整理的Grid Search 网格搜索 介绍「建议收藏」的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java怎么实现经典游戏泡泡堂
- 下一篇: 开源ETL软件在智能化集成系统中的应用