卷積神經網路 (Convolutional Neural , CNN)

woff · 發表於 2021-2-7 10:25:56

當我們剛開始接觸深度學習的時候，最常看到的例子便是使用 MINST 資料庫進行手寫數字的辨識。概念如下圖所示，將所有像素灰階數值壓成一維資料後再丟進全連接層進行學習。

卷積神經網路 Convolutional Neural CNN

(圖片來源 : 3Blue1Brown Youtube : 究竟神經網路是什麼？第一章深度學習)

如果在進行一般的圖片辨識時，我們不會使用上面的方式，因為這樣子做會有幾個問題 :

(1) 在一般的圖片辨識問題中，事實上會有一些 pattern 可能會出現在圖片中的某個部位，且這樣的 pattern 可能由許多個鄰近像素構成，如果依照上面的方式會破壞這樣的 pattern 結構。

(2) 全連接層搭配高像素的圖片，會讓整個計算成本大幅增加。

基於上面幾個理由便衍伸出 Convolutional Neural Network ( CNN ) 卷積神經網路來進行圖像辨識。

整個 CNN 結構主要分成幾個部分 : 卷積層 ( Convolution layer )、池化層 (Pooling layer) 以及最後一個全連接層 ( Fully Connected layer )。

卷積神經網路 Convolutional Neural CNN

Convolution Layer 卷積層

卷積層主要是由許多不同的 kernel 在輸入圖片上進行卷積運算。

什麼是卷積 ? 在這邊卷積其實就是兩個步驟組成的運算 : 滑動 + 內積，利用 filter 在輸入圖片上滑動並且持續進行矩陣內積，卷積後得到的圖片我們稱之為 feature map。[1]

卷積神經網路 Convolutional Neural CNN

(圖片取自 : [ 機器學習 ML NOTE ] Convolution Neural Network 卷積神經網路)

kernel 我們也稱為 filter ，我認為 filter 這樣的概念可以讓人更體會卷積層的作用，一般我們使用修圖軟體的各種濾鏡功能即是不同的 kernel 在圖片上作用後的結果。
( 想知道許多不同的 filter 造成的效果可以參考 Wikipedia – Kernel ( image processing ))

在全連接層神經網路中經由學習不斷更新的權重，在 CNN 這邊指的就是 filter ，如上圖 3X3 的 filter 內就相當於有 9 個權重。我們可以想像，CNN 訓練的過程就是不斷地在改變 filter 來凸顯這個輸入圖像上的特徵。

不過，CNN 還是有一些值得注意的地方 :

1. 每一層卷積層的 filter 不會只有一個

我們引用 CNN 的經典論文 GradientBased Learning Applied to Document Recognition 中的 LeNet-5 結構，第一層的卷積層就給了 6 個 3X3 kernel，也就是說在這同一層中就有 54 個權重需要同時更新，而這六個 filter 也會相對應給出六個 feature map 。

卷積神經網路 Convolutional Neural CNN