神经网络迭代次数的数学构成
每個神經網絡對應每個收斂標準δ都有一個特征的迭代次數n,因此可以用迭代次數曲線n(δ)來評價網絡性能。
在《神經網絡的迭代次數是一個線性的變量嗎?》中得到表達式
一個二分類網絡分類兩個對象A和B,B中有K張圖片,B的第i張圖片被取樣的概率為pi,B中第i張圖片相對A的迭代次數為ni最終的迭代次數nt等于pi*ni的累加和。
由此可以構造兩個矩陣一個是隨機矩陣PJ
PJ表明圖片集B中第i張圖片被抽樣到的概率
和矩陣NJ
NJ表明圖片集B中第i張圖片相對A的迭代次數
總的迭代次數nt等于矩陣PJ和NJ的點積
為了驗證這個關系構造了等式
制作一個二分類網絡區分數據集mnist0和數據集B,其中B中只有兩張圖片兩張圖片被抽樣到的概率比是7:3.
?
本文驗算這個表達式是否正確
實驗過程
制作一個帶一個3*3卷積核的神經網絡,測試集是mnist的0和一張圖片x,將28*28的圖片縮小成9*9,隱藏層30個節點所以網絡的結構是
?
這個網絡分成兩個部分左邊的是讓mnist 0向1,0收斂,右邊的是讓x向 0,1收斂。但是讓左右兩邊的權重實現同步更新,實現權重共享。前面大量實驗表明這種效果相當于將兩個彈性系數為k1,k2的彈簧并聯成一個彈性系數為k的彈簧,并且讓k1=k2=k/2的過程。
將上圖簡寫成
S(mnist0)81-(con3*3)49-30-2-(1,0)
S(x)81-(con3*3)49-30-2-(0,1)
w=w,w1=w1,w2=w2
進一步簡寫成
d2(mnist0, x=1)81-con(3*3)49-30-2-(2*k) ,k∈{0,1}
這個網絡的收斂標準是
if (Math.abs(f2[0]-y[0])< δ? &&? Math.abs(f2[1]-y[1])< δ?? )
本文嘗試了δ從0.5到1e-6在內的26個值,訓練集是mnist0
圖片x就是一張二維數組,讓x=1.
| 具體進樣順序 | ? | ? | ? | ? |
| 進樣順序 | 迭代次數 | ? | ? | ? |
| δ=0.5 | ? | ? | ? | ? |
| mnist 0-1 | 1 | ? | 判斷是否達到收斂 | |
| X | 2 | ? | 判斷是否達到收斂 | |
| 梯度下降 | ? | ? | ? | ? |
| mnist 0-2 | 3 | ? | 判斷是否達到收斂 | |
| X | 4 | ? | 判斷是否達到收斂 | |
| 梯度下降 | ? | ? | ? | ? |
| …… | ? | ? | ? | ? |
| mnist 0-4999 | 9997 | ? | 判斷是否達到收斂 | |
| X | 9998 | ? | 判斷是否達到收斂 | |
| 梯度下降 | ? | ? | ? | ? |
| …… | ? | ? | ? | ? |
| 如果4999圖片內沒有達到收斂標準再次從頭循環 | ? | ? | ||
| mnist 0-1 | 9999 | ? | 判斷是否達到收斂 | |
| X | 10000 | ? | 判斷是否達到收斂 | |
| …… | ? | ? | ? | ? |
| 達到收斂標準記錄迭代次數,將這個過程重復199次 | ? | ? | ? | |
| δ=0.4 | ? | ? | ? | ? |
| …… | ? | ? | ? | ? |
?
用這個方法可以得到網絡
d2(mnist0, x=1)81-con(3*3)49-30-2-(2*k) ,k∈{0,1}
的迭代次數曲線n1。
?
用同樣的辦法制作另一個網絡
d2(mnist0, x=0.1)81-con(3*3)49-30-2-(2*k) ,k∈{0,1}
讓mnist 0向1,0收斂,右邊的是讓x向 0,1收斂。但讓x=0.1.得到迭代次數曲線n0.1
?
實驗數據
在《測量一組對角矩陣的頻率和質量》中已經將這兩個迭代次數都測出來了
| ? | 1 | 0.1 |
| δ | 迭代次數n1 | 迭代次數n0.1 |
| 0.5 | 17.40201005 | 17.87437186 |
| 0.4 | 951.2110553 | 1408.577889 |
| 0.3 | 1144.577889 | 1720.517588 |
| 0.2 | 1313.633166 | 1995.110553 |
| 0.1 | 1505.824121 | 2243.834171 |
| 0.01 | 2362.115578 | 3001.552764 |
| 0.001 | 4129.020101 | 4007.532663 |
| 1.00E-04 | 10353.37186 | 5532.668342 |
| 9.00E-05 | 10653.93467 | 5683.753769 |
| 8.00E-05 | 11292.43719 | 6131.934673 |
| 7.00E-05 | 11761.11055 | 6106.919598 |
| 6.00E-05 | 12657.69347 | 6014.688442 |
| 5.00E-05 | 13305.44221 | 6455.321608 |
| 4.00E-05 | 15844.29648 | 6724.738693 |
| 3.00E-05 | 17291.77387 | 7055.80402 |
| 2.00E-05 | 20753.56281 | 7763.41206 |
| 1.00E-05 | 27708.19598 | 8749.050251 |
| 9.00E-06 | 29358.8593 | 8879.41206 |
| 8.00E-06 | 30689.87437 | 9387.150754 |
| 7.00E-06 | 33437.22111 | 9532.648241 |
| 6.00E-06 | 36960.63819 | 9957.683417 |
| 5.00E-06 | 40669.92462 | 10661.56281 |
| 4.00E-06 | 44594.04523 | 11025.0402 |
| 3.00E-06 | 51522.10553 | 11653.63317 |
| 2.00E-06 | 67583.53266 | 13076.9196 |
| 1.00E-06 | 107224.5276 | 15184.58794 |
?
現在做第3個網絡
d2(mnist0? ; 70% x=1, 30%x=0.1)81-con(3*3)49-30-2-(2*k) ,k∈{0,1}
讓mnist 0向1,0收斂,右邊的是讓x向 0,1收斂。但讓x在1和0.1之間隨機。
讓1與0.1的比例是7:3.
| 具體進樣順序 | ? | ? | ? | ? |
| 進樣順序 | 迭代次數 | ? | ? | ? |
| δ=0.5 | ? | ? | ? | ? |
| mnist 0-1 | 1 | ? | 判斷是否達到收斂 | |
| 70% x=1,30% x=0.1 | 2 | ? | 判斷是否達到收斂 | |
| 梯度下降 | ? | ? | ? | ? |
| mnist 0-2 | 3 | ? | 判斷是否達到收斂 | |
| 70% x=1,30% x=0.1 | 4 | ? | 判斷是否達到收斂 | |
| 梯度下降 | ? | ? | ? | ? |
| …… | ? | ? | ? | ? |
| mnist 0-4999 | 9997 | ? | 判斷是否達到收斂 | |
| 70% x=1,30% x=0.1 | 9998 | ? | 判斷是否達到收斂 | |
| 梯度下降 | ? | ? | ? | ? |
| …… | ? | ? | ? | ? |
| 如果4999圖片內沒有達到收斂標準再次從頭循環 | ? | ? | ||
| mnist 0-1 | 9999 | ? | 判斷是否達到收斂 | |
| 70% x=1,30% x=0.1 | 10000 | ? | 判斷是否達到收斂 | |
| …… | ? | ? | ? | ? |
| 達到收斂標準記錄迭代次數,將這個過程重復199次,取平均 | ? | ? | ? | |
| δ=0.4 | ? | ? | ? | ? |
| …… | ? | ? | ? | ? |
相當于分類兩個圖片集,一個圖片集是mnist的0另一個圖片集只有兩張圖片,兩張圖片被取樣的概率是7:3
得到的數據
| 用0和x二分類 | ? | ? | ? | ? | ? | ? | ? | ? |
| 1:0.1=7:3 | ? | ? | ? | ? | ? | ? | ? | ? |
| ? | ? | ? | ? | ? | ? | ? | ? | ? |
| f2[0] | f2[1] | 迭代次數n | 平均準確率p-ave | δ | 耗時ms/次 | 耗時ms/199次 | 耗時min/199次 | 最大準確率p-max |
| 0.502766167 | 0.498438788 | 16.89447236 | 0.500913551 | 0.5 | 713.4773869 | 141997 | 2.366616667 | 0.926713948 |
| 0.608346966 | 0.391795164 | 1069.512563 | 0.477824109 | 0.4 | 889.9497487 | 177116 | 2.951933333 | 0.946099291 |
| 0.713220097 | 0.286685412 | 1283.241206 | 0.550461527 | 0.3 | 918.8994975 | 182877 | 3.04795 | 0.994799054 |
| 0.81561914 | 0.184037021 | 1421.693467 | 0.592434988 | 0.2 | 946.2060302 | 188295 | 3.13825 | 0.996690307 |
| 0.912185353 | 0.087938344 | 1701.321608 | 0.638827708 | 0.1 | 991.1859296 | 197262 | 3.2877 | 0.996690307 |
| 0.991788205 | 0.008210193 | 2598.407035 | 0.605723654 | 0.01 | 676.4773869 | 134619 | 2.24365 | 0.996690307 |
| 0.999231196 | 7.69E-04 | 4168.899497 | 0.55280421 | 0.001 | 1414.160804 | 281418 | 4.6903 | 0.996690307 |
| 0.999924902 | 7.51E-05 | 8854.396985 | 0.515128836 | 1.00E-04 | 2244.592965 | 446674 | 7.444566667 | 0.998108747 |
| 0.999928081 | 7.19E-05 | 9283.763819 | 0.530389536 | 9.00E-05 | 2297.58794 | 457220 | 7.620333333 | 0.994326241 |
| 0.999935669 | 6.43E-05 | 9880.266332 | 0.520472338 | 8.00E-05 | 2392.567839 | 476122 | 7.935366667 | 0.986761229 |
| 0.999944152 | 5.58E-05 | 10601.24121 | 0.532264158 | 7.00E-05 | 2505.40201 | 498591 | 8.30985 | 0.997163121 |
| 0.999952671 | 4.73E-05 | 10848.90955 | 0.53355192 | 6.00E-05 | 2547.145729 | 506914 | 8.448566667 | 0.997635934 |
| 0.99995988 | 4.01E-05 | 11631.47236 | 0.535542963 | 5.00E-05 | 2689.668342 | 535245 | 8.92075 | 0.993380615 |
| 0.999968882 | 3.11E-05 | 12720.22613 | 0.55244069 | 4.00E-05 | 2134.442211 | 424754 | 7.079233333 | 0.998108747 |
| 0.999976519 | 2.35E-05 | 13737.0201 | 0.544514535 | 3.00E-05 | 3031.844221 | 603338 | 10.05563333 | 0.991962175 |
| 0.999984538 | 1.55E-05 | 17248.18593 | 0.52698243 | 2.00E-05 | 3657.703518 | 727887 | 12.13145 | 0.994799054 |
| 0.999992179 | 7.83E-06 | 22052.75879 | 0.528897442 | 1.00E-05 | 4364.21608 | 868495 | 14.47491667 | 0.995271868 |
| 0.99999317 | 6.83E-06 | 24384.80905 | 0.511448495 | 9.00E-06 | 4749.442211 | 945139 | 15.75231667 | 0.996690307 |
| 0.999993717 | 6.28E-06 | 26705.69347 | 0.521218385 | 8.00E-06 | 4640.160804 | 923393 | 15.38988333 | 0.998108747 |
| 0.999994442 | 5.55E-06 | 27993.34171 | 0.527341198 | 7.00E-06 | 5443.035176 | 1083165 | 18.05275 | 0.995271868 |
| 0.999995217 | 4.78E-06 | 28507.85427 | 0.513510816 | 6.00E-06 | 5401.894472 | 1074977 | 17.91628333 | 0.99858156 |
| 0.99999597 | 4.03E-06 | 32254.60804 | 0.531187854 | 5.00E-06 | 5895.522613 | 1173209 | 19.55348333 | 0.991016548 |
| 0.999996785 | 3.22E-06 | 33503.83417 | 0.52082873 | 4.00E-06 | 6474.693467 | 1288464 | 21.4744 | 0.997635934 |
| 0.99999755 | 2.45E-06 | 40578.65829 | 0.532316428 | 3.00E-06 | 7652.869347 | 1522922 | 25.38203333 | 0.997163121 |
| 0.999998323 | 1.68E-06 | 52578.50754 | 0.510424463 | 2.00E-06 | 9643.909548 | 1919170 | 31.98616667 | 0.988652482 |
| 0.99999916 | 8.40E-07 | 74879.58291 | 0.515432957 | 1.00E-06 | 14311.54271 | 2847998 | 47.46663333 | 0.992907801 |
所以現在有了3個迭代次數分別是
| x=1 | n1 |
| x=0.1 | n0.1 |
| 0.7x=1||0.3x=0.1 | n1-0.1 |
驗算n1-0.1與n1和n0.1之間的關系
| 7:3 | ? | 1 | 0.1 | 理論值 | 實測值 | ? |
| δ |
| 迭代次數n1 | 迭代次數n0.1 | 0.7*n1+0.3*n0.1 |
| 理論值/實測值 |
| 0.5 | 16.89447236 | 17.40201005 | 17.87437186 | 17.54371859 | 16.89447236 | 1.038429506 |
| 0.4 | 1069.512563 | 951.2110553 | 1408.577889 | 1088.421106 | 1069.512563 | 1.017679589 |
| 0.3 | 1283.241206 | 1144.577889 | 1720.517588 | 1317.359799 | 1283.241206 | 1.026587825 |
| 0.2 | 1421.693467 | 1313.633166 | 1995.110553 | 1518.076382 | 1421.693467 | 1.067794441 |
| 0.1 | 1701.321608 | 1505.824121 | 2243.834171 | 1727.227136 | 1701.321608 | 1.015226708 |
| 0.01 | 2598.407035 | 2362.115578 | 3001.552764 | 2553.946734 | 2598.407035 | 0.982889401 |
| 0.001 | 4168.899497 | 4129.020101 | 4007.532663 | 4092.573869 | 4168.899497 | 0.98169166 |
| 1.00E-04 | 8854.396985 | 10353.37186 | 5532.668342 | 8907.160804 | 8854.396985 | 1.005959053 |
| 9.00E-05 | 9283.763819 | 10653.93467 | 5683.753769 | 9162.880402 | 9283.763819 | 0.986979051 |
| 8.00E-05 | 9880.266332 | 11292.43719 | 6131.934673 | 9744.286432 | 9880.266332 | 0.986237223 |
| 7.00E-05 | 10601.24121 | 11761.11055 | 6106.919598 | 10064.85327 | 10601.24121 | 0.949403289 |
| 6.00E-05 | 10848.90955 | 12657.69347 | 6014.688442 | 10664.79196 | 10848.90955 | 0.983028931 |
| 5.00E-05 | 11631.47236 | 13305.44221 | 6455.321608 | 11250.40603 | 11631.47236 | 0.967238341 |
| 4.00E-05 | 12720.22613 | 15844.29648 | 6724.738693 | 13108.42915 | 12720.22613 | 1.030518562 |
| 3.00E-05 | 13737.0201 | 17291.77387 | 7055.80402 | 14220.98291 | 13737.0201 | 1.035230553 |
| 2.00E-05 | 17248.18593 | 20753.56281 | 7763.41206 | 16856.51759 | 17248.18593 | 0.977292201 |
| 1.00E-05 | 22052.75879 | 27708.19598 | 8749.050251 | 22020.45226 | 22052.75879 | 0.998535034 |
| 9.00E-06 | 24384.80905 | 29358.8593 | 8879.41206 | 23215.02513 | 24384.80905 | 0.95202817 |
| 8.00E-06 | 26705.69347 | 30689.87437 | 9387.150754 | 24299.05729 | 26705.69347 | 0.90988303 |
| 7.00E-06 | 27993.34171 | 33437.22111 | 9532.648241 | 26265.84925 | 27993.34171 | 0.938289166 |
| 6.00E-06 | 28507.85427 | 36960.63819 | 9957.683417 | 28859.75176 | 28507.85427 | 1.012343878 |
| 5.00E-06 | 32254.60804 | 40669.92462 | 10661.56281 | 31667.41608 | 32254.60804 | 0.981795099 |
| 4.00E-06 | 33503.83417 | 44594.04523 | 11025.0402 | 34523.34372 | 33503.83417 | 1.030429638 |
| 3.00E-06 | 40578.65829 | 51522.10553 | 11653.63317 | 39561.56382 | 40578.65829 | 0.974935237 |
| 2.00E-06 | 52578.50754 | 67583.53266 | 13076.9196 | 51231.54874 | 52578.50754 | 0.974381951 |
| 1.00E-06 | 74879.58291 | 107224.5276 | 15184.58794 | 79612.54573 | 74879.58291 | 1.063207655 |
?
?
從數值看
這個公式還是符合的很好的。
表明這個表達式是有價值的。
?
實驗參數
| 學習率 0.1 |
| 權重初始化方式 |
| Random rand1 =new Random(); |
| int ti1=rand1.nextInt(98)+1; |
| int xx=1; |
| if(ti1%2==0) |
| { xx=-1;} |
| tw[a][b]=xx*((double)ti1/x); |
| 第一層第二層和卷積核的權重的初始化的x分別為1000,1000,200 |
總結
以上是生活随笔為你收集整理的神经网络迭代次数的数学构成的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 神经网络迭代次数的线性累加现象
- 下一篇: 如何做布丁果冻简单的方式?