當前位置：首頁 > 人工智能 > 卷积神经网络 >内容正文

卷积神经网络

【数据挖掘】卷积神经网络 ( 视觉原理 | CNN 模仿视觉 | 卷积神经网络简介 | 卷积神经网络组成 | 整体工作流程 | 卷积计算图示 | 卷积计算简介 | 卷积计算示例 | 卷积计算参数 )

發(fā)布時間：2025/6/17 卷积神经网络 58 豆豆

文章目錄

- - - I . 人類的視覺原理
    - II . 卷積神經(jīng)網(wǎng)絡(luò) 模仿視覺原理
    - III . 卷積神經(jīng)網(wǎng)絡(luò)簡介
    - IV . 卷積神經(jīng)網(wǎng)絡(luò) 組成
    - V . 卷積神經(jīng)網(wǎng)絡(luò) 工作流程
    - VI . 降低樣本參數(shù)數(shù)量級
    - VII . 卷積計算圖示分析
    - VIII . 卷積計算簡介
    - IX . 卷積計算示例
    - X . 卷積本質(zhì)
    - XI . 卷積計算參數(shù)

I . 人類的視覺原理

1 . 深度學習與大腦認知 :

① 深度學習基礎(chǔ) : 大腦對外界事務(wù)的認知原理 , 是很多深度學習算法的基礎(chǔ) , 這里討論人類的視覺原理 ,

② 視覺原理 : 視覺識別信息處理過程 , 是由可視皮層完成的 , 并且可視皮層是分級的 ;

③ 卷積神經(jīng)網(wǎng)絡(luò)來源 : 卷積神經(jīng)網(wǎng)絡(luò) 受人類視覺原理啟發(fā) , 而開發(fā)出來的 ;

2 . 視覺原理與可視皮層分層 :

① 信號輸入 : 視覺輸入原始信號 , 即大腦從瞳孔中攝入一張由像素值組成的圖片 ;

② 識別邊緣 ( 可視皮層底層 ) : 將輸入的像素值 , 進行初步處理 , 識別像素的邊緣 , 方向信息 ;

③ 識別形狀 ( 可視皮層中層 ) : 將邊緣信息抽象成形狀信息 , 如圓形 , 方形等 ;

④ 判定類別 ( 可視皮層上層 ) : 在上述識別形狀的基礎(chǔ)上 , 判定該形狀是什么類型的事務(wù) , 如桌子 , 汽車等 ;

II . 卷積神經(jīng)網(wǎng)絡(luò) 模仿視覺原理

卷積神經(jīng)網(wǎng)絡(luò) 原理 :

① 模擬視覺原理 : 人類視覺識別涉及到了不同層級的可視皮層 , 每層分別處理不同的事務(wù) ;

② 構(gòu)建多層神經(jīng)網(wǎng)絡(luò)模型 : 模仿上述分層的課視頻曾 , 創(chuàng)建多層神經(jīng)網(wǎng)絡(luò)模型 , 如卷積神經(jīng)網(wǎng)絡(luò) ;

③ 分層工作機制 : 多層神經(jīng)網(wǎng)絡(luò)模型機制 , 在底層識別圖像的邊緣特征 , 上一層逐漸識別形狀 , 最上層對圖像像素進行判定分類 ;

III . 卷積神經(jīng)網(wǎng)絡(luò)簡介

卷積神經(jīng)網(wǎng)絡(luò) 簡介 :

① CNN 卷積神經(jīng)網(wǎng)絡(luò) 處理的數(shù)據(jù)類型 : CNN 卷積神經(jīng)網(wǎng)絡(luò) , 是特殊的神經(jīng)網(wǎng)絡(luò) , 其通常用于處理網(wǎng)格狀的數(shù)據(jù) , 如時間序列 ( 音頻數(shù)據(jù) ) , 或圖片數(shù)據(jù) ;

② CNN 適用場景 : CNN 卷積神經(jīng)網(wǎng)絡(luò)其本質(zhì)是一個多層神經(jīng)網(wǎng)絡(luò) , 該模型適合處理大型圖像相關(guān)的機器學習問題 ;

③ CNN 成就 : CNN 在深度神經(jīng)網(wǎng)絡(luò) 中是應(yīng)用最早 , 最成功的的領(lǐng)域 ;

④ CNN 的計算 : 卷積神經(jīng)網(wǎng)絡(luò)其本質(zhì)還是神經(jīng)網(wǎng)絡(luò) , 其基本的計算由矩陣相乘變成了卷積 ;

⑤ CNN 處理圖像原理 : 處理大型圖像時 , 將圖像識別問題 降維處理 , 從底層向高層 , 不斷抽取特征時 , 其維度越降越低 , 最終將其變成可訓練的模型 ;

IV . 卷積神經(jīng)網(wǎng)絡(luò) 組成

卷積神經(jīng)網(wǎng)絡(luò) 構(gòu)成 :

① 組成 : 卷積神經(jīng)網(wǎng)絡(luò)由 卷積層 , 池化層 , 全連接層 , 組成 ;

② 卷積組 : 卷積層與池化層 , 配對組合 , 即 $1$ 個卷積 + $1$ 個池化 , 組成 $1$ 個卷積組 ; 整個卷積神經(jīng)網(wǎng)絡(luò)中有多個卷積組 ;

③ 工作機制 : 按照上述分層 , 逐層提取數(shù)據(jù) ( 圖像 ) 特征 , 這些特征通過全連接層結(jié)合起來 , 完成最終的分類判定操作 ;

V . 卷積神經(jīng)網(wǎng)絡(luò) 工作流程

卷積神經(jīng)網(wǎng)絡(luò) 工作流程 :

① 卷積 : 通過卷積模擬特征 ;

② 池化 : 通過卷積的權(quán)值共享 , 池化 , 可以降低整體網(wǎng)絡(luò)的參數(shù)數(shù)量級 ;

③ 連接分類 : 上述卷積池化后的結(jié)果通過傳統(tǒng)的神經(jīng)網(wǎng)絡(luò) 進行分類即可 ;

VI . 降低樣本參數(shù)數(shù)量級

1 . 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)分析圖片 : 使用傳統(tǒng)神經(jīng)網(wǎng)絡(luò) 分析一張圖片 , 如果該圖片有 $100$ 萬像素 , 那么需要將每個像素值都作為一個屬性值輸入到神經(jīng)網(wǎng)絡(luò)中 , 那么其隱藏層有 $100$ 萬神經(jīng)元單元 , 如果這樣的圖片有幾萬張 , 這個數(shù)量級太復(fù)雜 ;

2 . 卷積神經(jīng)網(wǎng)絡(luò) 減少參數(shù)數(shù)量級原理 :

① 底層特征局部性 : 圖像的最底層的特征都是局部性的 , 使用一個小的過濾器 , 如 $10 \times 10$ 像素 , 就可以將圖像的邊緣特征表示出來 ; 邊緣底層特征是橫向 , 垂直 , 斜線 , 等邊緣形狀特征 ;

② 圖像特征類似 : 圖像中的特征 , 不管是相同圖像 , 還是不同圖像 , 其中的片段的特征是類似的 , 可以使用 同一組分類器 描述 不同的圖像 特征 ; 如訓練識別一只貓的圖像 , 在這張圖片上的貓 , 與另外一張圖片的貓 , 其片段特征的是類似的 ;

③ 降低數(shù)量級 : $100$ 萬像素的圖片 , 可以使用 $1$ 萬個 $10 \times 10$ 像素的過濾器 , 描述圖片底部的特征 ;

VII . 卷積計算圖示分析

1 . 原始輸入與卷積核 :

① 原始輸入 : 需要識別的圖像 ;

② 卷積核 : 可以看做是滑動窗口 , 在圖像上滑動 ;

2 . 第 $1$ 次卷積 : ${a , b , e , f \}$ 與卷積核 ${w, x, y , z\}$ 進行卷積計算 : 如下圖 , 對應(yīng)位置的值相乘 , 然后將 $4$ 個乘積相加 , 這個操作表示一次卷積運算 , 結(jié)果是 $(a w + b x + e y + f z)$ ;

3 . 第 $2$ 次卷積 : ${b,c,f,g \}$ 與卷積核 ${w, x, y , z\}$ 進行卷積計算 : 如下圖 , 對應(yīng)位置的值相乘 , 然后將 $4$ 個乘積相加 , 這個操作表示一次卷積運算 , 結(jié)果是 $(w b + x c + y f + z g)$ ;

4 . 第 $3$ 次卷積 : ${c,d,g,h\}$ 與卷積核 ${w, x, y , z\}$ 進行卷積計算 : 如下圖 , 對應(yīng)位置的值相乘 , 然后將 $4$ 個乘積相加 , 這個操作表示一次卷積運算 , 結(jié)果是 $(w c + x d + y g + z h)$ ;

5 . 第 $4$ 次卷積 : ${e , f,i,j \}$ 與卷積核 ${w, x, y , z\}$ 進行卷積計算 : 如下圖 , 對應(yīng)位置的值相乘 , 然后將 $4$ 個乘積相加 , 這個操作表示一次卷積運算 , 結(jié)果是 $(w e + x f + y i + z j)$ ;

6 . 第 $5$ 次卷積 : ${f,g,j,k\}$ 與卷積核 ${w, x, y , z\}$ 進行卷積計算 : 如下圖 , 對應(yīng)位置的值相乘 , 然后將 $4$ 個乘積相加 , 這個操作表示一次卷積運算 , 結(jié)果是 $(w f + x g + y j + z k)$ ;

7 . 第 $6$ 次卷積 : ${g,h,k,l \}$ 與卷積核 ${w, x, y , z\}$ 進行卷積計算 : 如下圖 , 對應(yīng)位置的值相乘 , 然后將 $4$ 個乘積相加 , 這個操作表示一次卷積運算 , 結(jié)果是 $(w g + x h + y k + z l)$ ;

8 . 卷積結(jié)如下 : 變成了一個 $\times 3$ 的圖像 ;

9 . 卷積效果 :

① 卷積結(jié)果 : 原來的輸入圖像是 $\times 4$ 像素 , 經(jīng)過卷積后 , 變成了 $\times 3$ 的圖像 ;

② 效果 : 維度降低了 , 參數(shù)變少了 ;

③ 卷積核維度 : 如果使用 $\times 3$ 的卷積核 , 那么維度降低的更多 ;

VIII . 卷積計算簡介

1 . 卷積計算 :

① 輸入圖 : 要分析的圖片 , 又叫做特征圖 ;

② 卷積核 :大小是固定的 , 用于掃描輸入圖 ; 可以由學習得到 , 也可以使用事先設(shè)計好的卷積核 ;

③ 內(nèi)積運算 : 就是所有對應(yīng)元素相乘 , 然后求和的結(jié)果 ;

③ 卷積計算過程 : 使用卷積核掃描輸入圖 , 如上示例 , 將掃描到的輸入圖的部分內(nèi)容 , 與卷積核的內(nèi)容 , 進行內(nèi)積運算 ;

2 . 常用的卷積核 :

① 常用卷積核 1 :

000

0	0	0
0	0	0

② 常用卷積核 2 :

-1-1-1

0	0	0
1	1	1

③ 常用卷積核 3 :

-101

-1	0	1
-1	0	1

IX . 卷積計算示例

計算圖中的最后兩個空白位置的卷積 :

輸入圖是 $5×55\times 5$ 的 , 卷積核是 $\times 3$ 的 ;

黃色部分是卷積核為 : $[101010101]\begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \end{bmatrix}$

卷積計算過程如下 :

① 第 $3$ 行第 $2$ 列卷積結(jié)果 : 卷積核 $[101010101]\begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \end{bmatrix}$ 與 $[011010110]\begin{bmatrix} 0 & 1 & 1 \\ 0 & 1 & 0 \\ 1 & 1 & 0 \end{bmatrix}$ 進行卷積運算 , 如下 :

$\times 0 ) + (0 \times 1 ) + (1 \times 1 ) + \\\\ (0 \times 0 ) + (1 \times 1) + (0 \times 0 ) + \\\\ (1 \times 1 ) + (0 \times 1) + (1 \times 0) = 3$

② 第 $3$ 行第 $3$ 列卷積結(jié)果 : 卷積核 $[101010101]\begin{bmatrix} 1 & 0 & 1 \\ 0 & 1 & 0 \\ 1 & 0 & 1 \end{bmatrix}$ 與 $[111110100]\begin{bmatrix} 1 & 1 & 1 \\ 1 & 1 & 0 \\ 1 & 0 & 0 \end{bmatrix}$ 進行卷積運算 , 如下 :

$\times 1 ) + (0 \times 1 ) + (1 \times 1 ) + \\\\ (0 \times 1 ) + (1 \times 1) + (0 \times 0 ) + \\\\ (1 \times 1 ) + (0 \times 0) + (1 \times 0) = 4$

X . 卷積本質(zhì)

1 . 卷積及卷積核本質(zhì) :

① 卷積核本質(zhì) : 卷積核的本質(zhì)相當于一個過濾器 , 可以過濾識別圖像的各個區(qū)域的特征 , 獲取這些區(qū)域的特征值 ;

② 卷積核來源 : 卷積核一般是在學習訓練過程中得到的 ;

③ 卷積結(jié)果的意義 : 每個卷積核代表了一種圖像的特征模式 , 如果某個區(qū)域與該卷積核進行內(nèi)積運算 , 卷積出的值很大 , 說明該區(qū)域與該卷積核圖像類似 ;

④ 多個卷積核 : 在實際使用中 , 一個卷積神經(jīng)網(wǎng)絡(luò) , 可能會有多個卷積核 ;

2 . 卷積核底層紋理 :

① 底層紋理模式 : 如果有 $n$ 個卷積核 , 可以理解為該圖像有 $n$ 種底層的紋理模式 , 使用這些紋理模式的特征可以繪制出一幅圖像 , 也能從一堆雜亂的圖像中識別出該圖像 ;

② 底層紋理示例 : 下圖是常用的 $24$ 種卷積核 , 也就是 $24$ 種底層紋理模式 ; 如第 $4$ 行 , 第 $2$ 列 , 三條垂直的線 , 亮線表示 1 , 暗線表示 0 , 因此可以使用卷積核 $[100100100]\begin{bmatrix} 1 & 0 & 0 \\ 1 & 0 & 0 \\ 1 & 0 & 0 \end{bmatrix}$ 表示 , 該紋理 , 最左側(cè)是亮的 , 右邊兩個是暗的 ;

XI . 卷積計算參數(shù)

1 . 通道數(shù) : 卷積核的個數(shù) ;

① 輸入通道數(shù) : 上一層輸出的通道數(shù)量 , 即卷積核的個數(shù) ;

② 輸出通道數(shù) : 本層輸出的通道數(shù)量 , 即卷積核的個數(shù) ;

2 . 卷積核大小 :

① 卷積核大小關(guān)聯(lián)性 : 與卷積計算后 , 每個卷積結(jié)果輸出值 , 與多大范圍的輸入圖像有關(guān) , 即上面說的過濾器大小 , 底層紋理大小 , 滑動窗口大小 ;

② 建議取值 : 建議使用奇數(shù)大小 , 這樣能保證卷積計算后 , 有唯一的一個中心點 ;

③ 卷積核效果 : 卷積核越大 , 分類效果越好 ;

④ 卷積核參數(shù)數(shù)量 : 卷積核增大 , 其參數(shù)就會指數(shù)級增加 , 參數(shù)個數(shù)是卷積核的平方 , 即進行內(nèi)積運算的參數(shù)個數(shù) ; 如卷積核為 $3$ , 那么參數(shù)有 $9$ 個 , 卷積核為 $5$ , 參數(shù)有 $25$ 個 ;

3 . 填充 : 不想降維 , 先將輸入圖對稱補 $0$ , 然后進行滑動窗口 , 卷積計算 ;

① 降低維度 : 卷積之后 , 不想降維 , 如前面的 $\times 5$ 的輸入圖 , 使用 $\times 3$ 卷積核 , 卷積之后變成了 $\times 3$ 的圖像 , 這里就將輸入圖的維度下降了 ;

② 對稱補 $0$ : 如果不想降低輸入圖的維度 , 可以使用填充 , 即先在周邊位置使用 $0$ 補充 , 注意對稱補充 , 不要在一個邊上補 $0$ , 然后再進行卷積計算 ;

4 . 步長 : 每次卷積核的移動距離 ( 單位 : 像素 ) , 即每次移動滑動窗口 ( 卷積核 ) 的距離 , 單位是像素 , 之前的兩個例子都是每次移動一個像素值 ;

總結(jié)

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【数据挖掘】神经网络后向传播算法 (
下一篇：【数据挖掘】卷积神经网络 ( 池化 |