當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

solver.prototxt文件里面参数含义及其设置

發(fā)布時(shí)間：2024/9/21 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 solver.prototxt文件里面参数含义及其设置小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

solver 是caffe的核心之重，它是整個(gè)模型運(yùn)行的參數(shù)配置文件。運(yùn)行代碼一般為：

#caffe train --solver=*_solver.prototxt

在DL中，損失函數(shù)（loss function）是非凸的，沒(méi)有解析解，我們需要通過(guò)優(yōu)化的方法來(lái)求解。solver的作用就是交替調(diào)用前向（forward）算法和后向（backward）算法來(lái)更新參數(shù)，從而最小化損失（loss），實(shí)際上就是一種迭代的優(yōu)化算法。

接下來(lái)，我們看一個(gè)實(shí)例：

net:"examples/myfile/train_val.prototxt"

test_iter:10

test_interval:50

base_lr:0.001

lr_policy:"step"

gamma:0.1

stepsize:100

momentum:0.9

display:20

max_iter:500

snapshot:40

snapshot_prefix:"examples/myfile"

weight_decay:0.005

solver_mode:GPU

接下來(lái)，我們對(duì)每一行進(jìn)行解析：

net:"examples/myfile/train_val.prototxt"

設(shè)置深度網(wǎng)絡(luò)模型。每一個(gè)模型就是一個(gè)net，需要在一個(gè)專(zhuān)門(mén)的配置文件中對(duì)net進(jìn)行配置，每個(gè)net由許多的layer所組成。上面這句代碼就是設(shè)置訓(xùn)練網(wǎng)絡(luò)的，網(wǎng)絡(luò)模型文件配置，即examples/myfile/文件下的train_val.prototxt里面的配置。

接下來(lái)第二行代碼：

test_iter:10

這個(gè)要與train layer 中的batch_size結(jié)合起來(lái)理解。訓(xùn)練數(shù)據(jù)中測(cè)試樣本總數(shù)為400，一次性執(zhí)行全部數(shù)據(jù)的效率太低，因此我將測(cè)試數(shù)據(jù)分成幾個(gè)批次來(lái)執(zhí)行，每個(gè)批次的數(shù)量就是batch_size。本文，我將batch_size設(shè)置為40，則需要迭代10次才能將400個(gè)數(shù)據(jù)全部執(zhí)行完。因此test_iter設(shè)置為10.執(zhí)行完一次全部數(shù)據(jù)，稱(chēng)之為一個(gè)epoch.

test_interval:50

測(cè)試間隔。也就是每訓(xùn)練50次，才進(jìn)行一次測(cè)試。

base_lr:0.001

lr_policy:"step"

gamma:0.1

stepsize:100

這四行可以放在一起理解，用于學(xué)習(xí)率的設(shè)置。只要是梯度下降法來(lái)求解優(yōu)化，都會(huì)有一個(gè)學(xué)習(xí)率，也叫步長(zhǎng)。base_lr用于設(shè)置基礎(chǔ)學(xué)習(xí)率，在迭代的過(guò)程中，可以對(duì)基礎(chǔ)學(xué)習(xí)率進(jìn)行調(diào)整。怎樣進(jìn)行調(diào)整，就是調(diào)整的策略，由lr_policy來(lái)設(shè)置。

lr_policy可以設(shè)置為下面這些值，相應(yīng)的學(xué)習(xí)率的計(jì)算為：

fixed：保持base_lr不變
step：如果設(shè)置為step，則還需要設(shè)置一個(gè)stepsize，返回base_lr*gamma^(floor(iter/stepsize))，其中iter表示當(dāng)前的迭代次數(shù)
exp：返回base_lr*gamma^iter，iter為當(dāng)前迭代次數(shù)
inv：如果設(shè)置為inv，還需要設(shè)置一個(gè)power，返回base_lr*（1+gamma*iter)^(-power)
multistep：如果設(shè)置為multistep，則還需要設(shè)置一個(gè)stepvalue。這個(gè)參數(shù)和step很相似，step是均勻等間隔變化，而multistep則是根據(jù)stepvalue值變化
poly：學(xué)習(xí)率進(jìn)行多項(xiàng)式誤差，返回base_lr(1-iter/max_iter)^(power)
sigmoid：學(xué)習(xí)率進(jìn)行sigmoid衰減，返回base_lr(1/(1+exp(-gamma*(iter-stepsize))))

multistep示例：

base_lr:0.01

momentum:0.9

weight_decay:0.0005

lr_policy:"multistep"

gamma:0.9

stepvalue:5000

stepvalue:7000

stepvalue:8000

stepvalue:9000

stepvalue:9500

下一行代碼解析：

momentum:0.9

上一次梯度更新的權(quán)重。

下一行代碼解析:

display:20

沒(méi)訓(xùn)練20次，在屏幕顯示一次。如果設(shè)置為0，則不顯示。

max_iter:500

最大迭代次數(shù)。這個(gè)參數(shù)設(shè)置太小，會(huì)導(dǎo)致沒(méi)有收斂，精確度很低。設(shè)置太大，會(huì)導(dǎo)致震蕩，浪費(fèi)時(shí)間。

snapshot:40

snapshot_prefix:"examples/myfile"

快照。將訓(xùn)練出來(lái)的model和solver狀態(tài)進(jìn)行保存，snapshot用于設(shè)置訓(xùn)練多少次后進(jìn)行保存，默認(rèn)為0，不保存。snapshot_prefix:設(shè)置保存路徑。

還可以設(shè)置snapshot_diff，是否保存梯度值，默認(rèn)為false，不保存。

也可以設(shè)置snapshot_format，保存的類(lèi)型。有兩種選擇：HDF5和BINARYPROTO，默認(rèn)為BINARYPROTO

weight_decay:0.005

權(quán)重衰減項(xiàng)，防止過(guò)擬合的一個(gè)參數(shù)。

solver_mode:GPU

設(shè)置運(yùn)行模式。默認(rèn)為GPU，如果你沒(méi)有GPU，則需改成CPU，否則會(huì)出錯(cuò)。

注意：以上的所有參數(shù)均為可選參數(shù)，都有默認(rèn)值，根據(jù)solver（type）方法的不同，還有一些其他的參數(shù)，大家根據(jù)自己的需要自己設(shè)置。

總結(jié)

以上是生活随笔為你收集整理的solver.prototxt文件里面参数含义及其设置的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： faster rcnn流程
下一篇： solver.prototxt参数说明（

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

solver.prototxt文件里面参数含义及其设置

總結(jié)