神经网络的迭代次数是一个线性的变量吗?
每個神經網絡對應每個收斂標準δ都有一個特征的迭代次數n,因此可以用迭代次數曲線n(δ)來評價網絡性能。
如果一個神經網絡對圖片1的迭代次數是n1對圖片2的迭代次數是n2,做一個網絡向網絡輸入50%的1和50%的2得到的迭代次數n12會和n1和n2有什么關系?
制作一個帶一個3*3卷積核的神經網絡,測試集是mnist的0和一張圖片x,將28*28的圖片縮小成9*9,隱藏層30個節點所以網絡的結構是
?
這個網絡分成兩個部分左邊的是讓mnist 0向1,0收斂,右邊的是讓x向 0,1收斂。但是讓左右兩邊的權重實現同步更新,實現權重共享。前面大量實驗表明這種效果相當于將兩個彈性系數為k1,k2的彈簧并聯成一個彈性系數為k的彈簧,并且讓k1=k2=k/2的過程。
將上圖簡寫成
S(mnist0)81-(con3*3)49-30-2-(1,0)
S(x)81-(con3*3)49-30-2-(0,1)
w=w,w1=w1,w2=w2
進一步簡寫成
d2(mnist0, x=1)81-con(3*3)49-30-2-(2*k) ,k∈(0,1)
這個網絡的收斂標準是
if (Math.abs(f2[0]-y[0])< δ? &&? Math.abs(f2[1]-y[1])< δ?? )
本文嘗試了δ從0.5到1e-6在內的26個值,訓練集是mnist0
圖片x就是一張二維數組,讓x=1.
| 具體進樣順序 | ? | ? | ? | ? |
| 進樣順序 | 迭代次數 | ? | ? | ? |
| δ=0.5 | ? | ? | ? | ? |
| mnist 0-1 | 1 | ? | 判斷是否達到收斂 | |
| X | 2 | ? | 判斷是否達到收斂 | |
| 梯度下降 | ? | ? | ? | ? |
| mnist 0-2 | 3 | ? | 判斷是否達到收斂 | |
| X | 4 | ? | 判斷是否達到收斂 | |
| 梯度下降 | ? | ? | ? | ? |
| …… | ? | ? | ? | ? |
| mnist 0-4999 | 9997 | ? | 判斷是否達到收斂 | |
| X | 9998 | ? | 判斷是否達到收斂 | |
| 梯度下降 | ? | ? | ? | ? |
| …… | ? | ? | ? | ? |
| 如果4999圖片內沒有達到收斂標準再次從頭循環 | ? | ? | ||
| mnist 0-1 | 9999 | ? | 判斷是否達到收斂 | |
| X | 10000 | ? | 判斷是否達到收斂 | |
| …… | ? | ? | ? | ? |
| 達到收斂標準記錄迭代次數,將這個過程重復199次 | ? | ? | ? | |
| δ=0.4 | ? | ? | ? | ? |
| …… | ? | ? | ? | ? |
?
用這個方法可以得到網絡
d2(mnist0, x=1)81-con(3*3)49-30-2-(2*k) ,k∈(0,1)
的迭代次數曲線n1。
用同樣的辦法制作另一個網絡
d2(mnist0, x=0.1)81-con(3*3)49-30-2-(2*k) ,k∈(0,1)
讓mnist 0向1,0收斂,右邊的是讓x向 0,1收斂。但讓x=0.1.得到迭代次數曲線n0.1
在《測量一組對角矩陣的頻率和質量》中已經將這兩個迭代次數都測出來了
| ? | 1 | 0.1 |
| δ | 迭代次數n1 | 迭代次數n0.1 |
| 0.5 | 17.40201005 | 17.87437186 |
| 0.4 | 951.2110553 | 1408.577889 |
| 0.3 | 1144.577889 | 1720.517588 |
| 0.2 | 1313.633166 | 1995.110553 |
| 0.1 | 1505.824121 | 2243.834171 |
| 0.01 | 2362.115578 | 3001.552764 |
| 0.001 | 4129.020101 | 4007.532663 |
| 1.00E-04 | 10353.37186 | 5532.668342 |
| 9.00E-05 | 10653.93467 | 5683.753769 |
| 8.00E-05 | 11292.43719 | 6131.934673 |
| 7.00E-05 | 11761.11055 | 6106.919598 |
| 6.00E-05 | 12657.69347 | 6014.688442 |
| 5.00E-05 | 13305.44221 | 6455.321608 |
| 4.00E-05 | 15844.29648 | 6724.738693 |
| 3.00E-05 | 17291.77387 | 7055.80402 |
| 2.00E-05 | 20753.56281 | 7763.41206 |
| 1.00E-05 | 27708.19598 | 8749.050251 |
| 9.00E-06 | 29358.8593 | 8879.41206 |
| 8.00E-06 | 30689.87437 | 9387.150754 |
| 7.00E-06 | 33437.22111 | 9532.648241 |
| 6.00E-06 | 36960.63819 | 9957.683417 |
| 5.00E-06 | 40669.92462 | 10661.56281 |
| 4.00E-06 | 44594.04523 | 11025.0402 |
| 3.00E-06 | 51522.10553 | 11653.63317 |
| 2.00E-06 | 67583.53266 | 13076.9196 |
| 1.00E-06 | 107224.5276 | 15184.58794 |
?
現在做第3個網絡
d2(mnist0? ; 50% x=1, 50%x=0.1)81-con(3*3)49-30-2-(2*k) ,k∈(0,1)
讓mnist 0向1,0收斂,右邊的是讓x向 0,1收斂。但讓x在1和0.1之間隨機。讓1與0.1的比例是1:1.
?
| 具體進樣順序 | ? | ? | ? | |
| 進樣順序 | 迭代次數 | ? | ? | |
| δ=0.5 | ? | ? | ? | |
| mnist 0-1 | 1 | ? | 判斷是否達到收斂 | |
| 50% x=1,50% x=0.1 | 2 | ? | 判斷是否達到收斂 | |
| 梯度下降 | ? | ? | ? | |
| mnist 0-2 | 3 | ? | 判斷是否達到收斂 | |
| 50% x=1,50% x=0.1 | 4 | ? | 判斷是否達到收斂 | |
| 梯度下降 | ? | ? | ? | |
| …… | ? | ? | ? | |
| mnist 0-4999 | 9997 | ? | 判斷是否達到收斂 | |
| 50% x=1,50% x=0.1 | 9998 | ? | 判斷是否達到收斂 | |
| 梯度下降 | ? | ? | ? | |
| …… | ? | ? | ? | |
| 如果4999圖片內沒有達到收斂標準再次從頭循環 | ? | |||
| mnist 0-1 | 9999 | ? | 判斷是否達到收斂 | |
| 50% x=1,50% x=0.1 | 10000 | ? | 判斷是否達到收斂 | |
| …… | ? | ? | ? | |
| 達到收斂標準記錄迭代次數,將這個過程重復199次 | ? | ? | ||
| δ=0.4 | ? | ? | ? | |
| …… | ? | ? | ? | |
相當于分類兩個圖片集,一個圖片集是mnist的0另一個圖片集只有兩張圖片,兩張圖片隨機取樣。
得到的數據
| f2[0] | f2[1] | 迭代次數n1-0.1 | 平均準確率p-ave | δ | 耗時ms/次 | 耗時ms/199次 | 耗時min/199次 | 最大準確率p-max |
| 0.504392749 | 0.496482833 | 16 | 0.500241159 | 0.5 | 1032.487437 | 205482 | 3.4247 | 0.870449173 |
| 0.608226758 | 0.391936599 | 1134.527638 | 0.492051273 | 0.4 | 1267.477387 | 252229 | 4.203816667 | 0.982033097 |
| 0.713814664 | 0.286192435 | 1451.502513 | 0.601689298 | 0.3 | 1334.150754 | 265543 | 4.425716667 | 0.992907801 |
| 0.815849437 | 0.184081652 | 1595.351759 | 0.651443981 | 0.2 | 1363.070352 | 271251 | 4.52085 | 0.996690307 |
| 0.912219268 | 0.087818118 | 1745.78392 | 0.664181427 | 0.1 | 1339.628141 | 266602 | 4.443366667 | 0.995744681 |
| 0.992111381 | 0.007894949 | 2770.829146 | 0.652928947 | 0.01 | 1545.462312 | 307547 | 5.125783333 | 0.996690307 |
| 0.999271145 | 7.30E-04 | 4088.98995 | 0.608686458 | 0.001 | 1813.819095 | 360950 | 6.015833333 | 0.997163121 |
| 0.999927651 | 7.23E-05 | 7854.296482 | 0.569369305 | 1.00E-04 | 1935.939698 | 385252 | 6.420866667 | 0.995271868 |
| 0.999929991 | 7.00E-05 | 8622.899497 | 0.546795443 | 9.00E-05 | 2720.281407 | 541352 | 9.022533333 | 0.997163121 |
| 0.999940592 | 5.95E-05 | 9150.155779 | 0.537728833 | 8.00E-05 | 2833.653266 | 563897 | 9.398283333 | 0.990543735 |
| 0.999946971 | 5.30E-05 | 8925.030151 | 0.545505304 | 7.00E-05 | 2799.869347 | 557174 | 9.286233333 | 0.994799054 |
| 0.99995488 | 4.51E-05 | 9390.949749 | 0.55782696 | 6.00E-05 | 2889.035176 | 574934 | 9.582233333 | 0.997635934 |
| 0.999961445 | 3.86E-05 | 10619.74372 | 0.540173682 | 5.00E-05 | 3134.035176 | 623673 | 10.39455 | 0.996690307 |
| 0.999970219 | 2.98E-05 | 10684.25628 | 0.573904986 | 4.00E-05 | 3151.276382 | 627108 | 10.4518 | 0.995271868 |
| 0.999976706 | 2.33E-05 | 12772.34673 | 0.566287703 | 3.00E-05 | 3547.859296 | 706029 | 11.76715 | 0.994326241 |
| 0.999984778 | 1.52E-05 | 14707.11055 | 0.561645105 | 2.00E-05 | 4023.798995 | 800740 | 13.34566667 | 0.997635934 |
| 0.999992452 | 7.55E-06 | 18918.50754 | 0.551644749 | 1.00E-05 | 4873.386935 | 969809 | 16.16348333 | 0.997163121 |
| 0.999993043 | 6.96E-06 | 21982.04523 | 0.537997315 | 9.00E-06 | 5494.050251 | 1093324 | 18.22206667 | 0.996690307 |
| 0.999994 | 6.00E-06 | 21742.02513 | 0.555940459 | 8.00E-06 | 4965.522613 | 988144 | 16.46906667 | 0.996690307 |
| 0.99999488 | 5.12E-06 | 20971.37186 | 0.551815817 | 7.00E-06 | 5284.075377 | 1051539 | 17.52565 | 0.995744681 |
| 0.999995492 | 4.51E-06 | 21427.84422 | 0.551430913 | 6.00E-06 | 5405.316583 | 1075665 | 17.92775 | 0.996690307 |
| 0.999996169 | 3.83E-06 | 27284.71859 | 0.529814557 | 5.00E-06 | 6364.065327 | 1266451 | 21.10751667 | 0.997635934 |
| 0.99999693 | 3.07E-06 | 32387.41206 | 0.540518194 | 4.00E-06 | 7671.984925 | 1526733 | 25.44555 | 0.995744681 |
| 0.999997682 | 2.31E-06 | 37624.34673 | 0.530453687 | 3.00E-06 | 7199.050251 | 1432611 | 23.87685 | 0.997635934 |
| 0.999998443 | 1.56E-06 | 40271.80402 | 0.551799185 | 2.00E-06 | 7600.959799 | 1512639 | 25.21065 | 0.99858156 |
| 0.999999207 | 7.93E-07 | 60514.71859 | 0.524841703 | 1.00E-06 | 10767.01508 | 2142636 | 35.7106 | 0.997635934 |
?
所以現在有了3個迭代次數分別是
| x=1 | n1 |
| x=0.1 | n0.1 |
| x=1||x=0.1 | n1-0.1 |
?
驗算n1-0.1與n1和n0.1之間的關系
| 1:1 | ? | 1 | 0.1 | 理論值 | 測量值 | ? |
| ? | δ | 迭代次數n1 | 迭代次數n0.1 | (n1+n0.1)/2 | n1-0.1 | 理論值/測量值 |
| 16 | 0.5 | 17.40201005 | 17.87437186 | 17.63819095 | 16 | 1.102386935 |
| 1134.527638 | 0.4 | 951.2110553 | 1408.577889 | 1179.894472 | 1134.527638 | 1.039987421 |
| 1451.502513 | 0.3 | 1144.577889 | 1720.517588 | 1432.547739 | 1451.502513 | 0.986941274 |
| 1595.351759 | 0.2 | 1313.633166 | 1995.110553 | 1654.371859 | 1595.351759 | 1.036995039 |
| 1745.78392 | 0.1 | 1505.824121 | 2243.834171 | 1874.829146 | 1745.78392 | 1.073918212 |
| 2770.829146 | 0.01 | 2362.115578 | 3001.552764 | 2681.834171 | 2770.829146 | 0.967881464 |
| 4088.98995 | 0.001 | 4129.020101 | 4007.532663 | 4068.276382 | 4088.98995 | 0.994934307 |
| 7854.296482 | 1.00E-04 | 10353.37186 | 5532.668342 | 7943.020101 | 7854.296482 | 1.011296189 |
| 8622.899497 | 9.00E-05 | 10653.93467 | 5683.753769 | 8168.844221 | 8622.899497 | 0.947343086 |
| 9150.155779 | 8.00E-05 | 11292.43719 | 6131.934673 | 8712.18593 | 9150.155779 | 0.952135258 |
| 8925.030151 | 7.00E-05 | 11761.11055 | 6106.919598 | 8934.015075 | 8925.030151 | 1.001006711 |
| 9390.949749 | 6.00E-05 | 12657.69347 | 6014.688442 | 9336.190955 | 9390.949749 | 0.994168982 |
| 10619.74372 | 5.00E-05 | 13305.44221 | 6455.321608 | 9880.38191 | 10619.74372 | 0.930378564 |
| 10684.25628 | 4.00E-05 | 15844.29648 | 6724.738693 | 11284.51759 | 10684.25628 | 1.056181852 |
| 12772.34673 | 3.00E-05 | 17291.77387 | 7055.80402 | 12173.78894 | 12772.34673 | 0.953136428 |
| 14707.11055 | 2.00E-05 | 20753.56281 | 7763.41206 | 14258.48744 | 14707.11055 | 0.969496176 |
| 18918.50754 | 1.00E-05 | 27708.19598 | 8749.050251 | 18228.62312 | 18918.50754 | 0.963533888 |
| 21982.04523 | 9.00E-06 | 29358.8593 | 8879.41206 | 19119.13568 | 21982.04523 | 0.869761457 |
| 21742.02513 | 8.00E-06 | 30689.87437 | 9387.150754 | 20038.51256 | 21742.02513 | 0.921648855 |
| 20971.37186 | 7.00E-06 | 33437.22111 | 9532.648241 | 21484.93467 | 20971.37186 | 1.024488756 |
| 21427.84422 | 6.00E-06 | 36960.63819 | 9957.683417 | 23459.1608 | 21427.84422 | 1.094797991 |
| 27284.71859 | 5.00E-06 | 40669.92462 | 10661.56281 | 25665.74372 | 27284.71859 | 0.940663677 |
| 32387.41206 | 4.00E-06 | 44594.04523 | 11025.0402 | 27809.54271 | 32387.41206 | 0.85865282 |
| 37624.34673 | 3.00E-06 | 51522.10553 | 11653.63317 | 31587.86935 | 37624.34673 | 0.839559277 |
| 40271.80402 | 2.00E-06 | 67583.53266 | 13076.9196 | 40330.22613 | 40271.80402 | 1.001450695 |
| 60514.71859 | 1.00E-06 | 107224.5276 | 15184.58794 | 61204.55779 | 60514.71859 | 1.011399527 |
?
從數據看
這個公式是符合的很好的。
由這個實驗結果猜測對一個二分類網絡,分類兩個對象A和B,B中有K張圖片,B的圖片被均勻取樣,最終的迭代次數等于B中每張圖片相對A的迭代次數與每張圖片所占比例的乘積的累加和。
?
實驗數據
| 學習率 0.1 |
| 權重初始化方式 |
| Random rand1 =new Random(); |
| int ti1=rand1.nextInt(98)+1; |
| int xx=1; |
| if(ti1%2==0) |
| { xx=-1;} |
| tw[a][b]=xx*((double)ti1/x); |
| 第一層第二層和卷積核的權重的初始化的x分別為1000,1000,200 |
d2(mnist0? ; 50% x=1, 50%x=0.1)81-con(3*3)49-30-2-(2*k) ,k∈(0,1)
這個實驗的數據比較多有感興趣的朋友可以到我的資源里下載
?
總結
以上是生活随笔為你收集整理的神经网络的迭代次数是一个线性的变量吗?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 测量一组平行线的质量和频率m=n+1
- 下一篇: 金匮还元汤在哪里买?