當(dāng)前位置：首頁 > 人工智能 > pytorch >内容正文

pytorch

【深度学习】手撕 CNN 之 AlexNet（PyTorch 实战篇）

發(fā)布時(shí)間：2025/3/12 pytorch 28 豆豆

生活随笔收集整理的這篇文章主要介紹了【深度学习】手撕 CNN 之 AlexNet（PyTorch 实战篇）小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

今天我們將使用?PyTorch?來復(fù)現(xiàn)AlexNet網(wǎng)絡(luò)，并用AlexNet模型來解決一個(gè)經(jīng)典的Kaggle圖像識(shí)別比賽問題。

正文開始！

1.?數(shù)據(jù)集制作

在論文中AlexNet作者使用的是ILSVRC 2012比賽數(shù)據(jù)集，該數(shù)據(jù)集非常大（有138G），下載、訓(xùn)練都很消耗時(shí)間，我們?cè)趶?fù)現(xiàn)的時(shí)候就不用這個(gè)數(shù)據(jù)集了。由于MNIST、CIFAR10、CIFAR100這些數(shù)據(jù)集圖片尺寸都較小，不符合AlexNet網(wǎng)絡(luò)輸入尺寸227x227的要求，因此我們改用kaggle比賽經(jīng)典的“貓狗大戰(zhàn)”數(shù)據(jù)集了。?

該數(shù)據(jù)集包含的訓(xùn)練集總共25000張圖片，貓狗各12500張，帶標(biāo)簽；測(cè)試集總共12500張，不帶標(biāo)簽。我們僅使用帶標(biāo)簽的25000張圖片，分別拿出2500張貓和狗的圖片作為模型的驗(yàn)證集。我們按照以下目錄層級(jí)結(jié)構(gòu)，將數(shù)據(jù)集圖片放好。

為了方便大家訓(xùn)練，我們將該數(shù)據(jù)集放在百度云盤，下載鏈接：

鏈接：https://pan.baidu.com/s/1UEOzxWWMLCUoLTxdWUkB4A?

提取碼：cdue

1.1 制作圖片數(shù)據(jù)的索引

準(zhǔn)備好數(shù)據(jù)集之后，我們需要用PyTorch來讀取并制作可以用來訓(xùn)練和測(cè)試的數(shù)據(jù)集。對(duì)于訓(xùn)練集和測(cè)試集，首先要分別制作對(duì)應(yīng)的圖片數(shù)據(jù)索引，即train.txt和test.txt兩個(gè)文件，每個(gè)txt中包含每個(gè)圖片的目錄和對(duì)應(yīng)類別class（cat對(duì)應(yīng)的label=0，dog對(duì)應(yīng)的label=1）。示意圖如下：

制作圖片數(shù)據(jù)索引train.txt和test.txt兩個(gè)文件的python腳本程序如下：

import?ostrain_txt_path?=?os.path.join("data",?"catVSdog",?"train.txt") train_dir?=?os.path.join("data",?"catVSdog",?"train_data") valid_txt_path?=?os.path.join("data",?"catVSdog",?"test.txt") valid_dir?=?os.path.join("data",?"catVSdog",?"test_data")def?gen_txt(txt_path,?img_dir):f?=?open(txt_path,?'w')for?root,?s_dirs,?_?in?os.walk(img_dir,?topdown=True):??#?獲取?train文件下各文件夾名稱for?sub_dir?in?s_dirs:i_dir?=?os.path.join(root,?sub_dir)?????????????#?獲取各類的文件夾?絕對(duì)路徑img_list?=?os.listdir(i_dir)????????????????????#?獲取類別文件夾下所有png圖片的路徑for?i?in?range(len(img_list)):if?not?img_list[i].endswith('jpg'):?????????#?若不是png文件，跳過continue#label?=?(img_list[i].split('.')[0]?==?'cat')??0?:?1?label?=?img_list[i].split('.')[0]#?將字符類別轉(zhuǎn)為整型類型表示if?label?==?'cat':label?=?'0'else:label?=?'1'img_path?=?os.path.join(i_dir,?img_list[i])line?=?img_path?+?'?'?+?label?+?'\n'f.write(line)f.close()if?__name__?==?'__main__':gen_txt(train_txt_path,?train_dir)gen_txt(valid_txt_path,?valid_dir)

運(yùn)行腳本之后就在./data/catVSdog/目錄下生成train.txt和test.txt兩個(gè)索引文件。

1.2 構(gòu)建Dataset子類

PyTorch 加載自己的數(shù)據(jù)集，需要寫一個(gè)繼承自torch.utils.data中Dataset類，并修改其中的__init__方法、__getitem__方法、__len__方法。默認(rèn)加載的都是圖片，__init__的目的是得到一個(gè)包含數(shù)據(jù)和標(biāo)簽的list，每個(gè)元素能找到圖片位置和其對(duì)應(yīng)標(biāo)簽。然后用__getitem__方法得到每個(gè)元素的圖像像素矩陣和標(biāo)簽，返回img和label。

from?PIL?import?Image from?torch.utils.data?import?Datasetclass?MyDataset(Dataset):def?__init__(self,?txt_path,?transform?=?None,?target_transform?=?None):fh?=?open(txt_path,?'r')imgs?=?[]for?line?in?fh:line?=?line.rstrip()words?=?line.split()imgs.append((words[0],?int(words[1])))?#?類別轉(zhuǎn)為整型intself.imgs?=?imgs?self.transform?=?transformself.target_transform?=?target_transformdef?__getitem__(self,?index):fn,?label?=?self.imgs[index]img?=?Image.open(fn).convert('RGB')?#img?=?Image.open(fn)if?self.transform?is?not?None:img?=?self.transform(img)?return?img,?labeldef?__len__(self):return?len(self.imgs)

getitem是核心函數(shù)。self.imgs是一個(gè)list，self.imgs[index]是一個(gè)str，包含圖片路徑，圖片標(biāo)簽，這些信息是從上面生成的txt文件中讀取；利用Image.open對(duì)圖片進(jìn)行讀取，注意這里的img是單通道還是三通道的；self.transform(img)對(duì)圖片進(jìn)行處理，這個(gè)transform里邊可以實(shí)現(xiàn)減均值、除標(biāo)準(zhǔn)差、隨機(jī)裁剪、旋轉(zhuǎn)、翻轉(zhuǎn)、放射變換等操作。?

1.3 加載數(shù)據(jù)集和數(shù)據(jù)預(yù)處理?

當(dāng)Mydataset構(gòu)建好，剩下的操作就交給DataLoder來加載數(shù)據(jù)集。在DataLoder中，會(huì)觸發(fā)Mydataset中的getiterm函數(shù)讀取一張圖片的數(shù)據(jù)和標(biāo)簽，并拼接成一個(gè)batch返回，作為模型真正的輸入。

pipline_train?=?transforms.Compose([#隨機(jī)旋轉(zhuǎn)圖片transforms.RandomHorizontalFlip(),#將圖片尺寸resize到227x227transforms.Resize((227,227)),#將圖片轉(zhuǎn)化為Tensor格式transforms.ToTensor(),#正則化(當(dāng)模型出現(xiàn)過擬合的情況時(shí)，用來降低模型的復(fù)雜度)transforms.Normalize((0.5,?0.5,?0.5),?(0.5,?0.5,?0.5))#transforms.Normalize(mean?=?[0.485,?0.456,?0.406],std?=?[0.229,?0.224,?0.225]) ]) pipline_test?=?transforms.Compose([#將圖片尺寸resize到227x227transforms.Resize((227,227)),transforms.ToTensor(),transforms.Normalize((0.5,?0.5,?0.5),?(0.5,?0.5,?0.5))#transforms.Normalize(mean?=?[0.485,?0.456,?0.406],std?=?[0.229,?0.224,?0.225]) ]) train_data?=?MyDataset('./data/catVSdog/train.txt',?transform=pipline_train) test_data?=?MyDataset('./data/catVSdog/test.txt',?transform=pipline_test)#train_data?和test_data包含多有的訓(xùn)練與測(cè)試數(shù)據(jù)，調(diào)用DataLoader批量加載 trainloader?=?torch.utils.data.DataLoader(dataset=train_data,?batch_size=64,?shuffle=True) testloader?=?torch.utils.data.DataLoader(dataset=test_data,?batch_size=32,?shuffle=False) #?類別信息也是需要我們給定的 classes?=?('cat',?'dog')?#?對(duì)應(yīng)label=0，label=1

在數(shù)據(jù)預(yù)處理中，我們將圖片尺寸調(diào)整到227x227，符合AlexNet網(wǎng)絡(luò)的輸入要求。均值mean = [0.5, 0.5, 0.5]，方差std = [0.5, 0.5, 0.5]，然后使用transforms.Normalize進(jìn)行歸一化操作。?

我們來看一下最終制作的數(shù)據(jù)集圖片和它們對(duì)應(yīng)的標(biāo)簽：

examples?=?enumerate(trainloader) batch_idx,?(example_data,?example_label)?=?next(examples) #?批量展示圖片 for?i?in?range(4):plt.subplot(1,?4,?i?+?1)plt.tight_layout()??#自動(dòng)調(diào)整子圖參數(shù)，使之填充整個(gè)圖像區(qū)域img?=?example_data[i]img?=?img.numpy()?#?FloatTensor轉(zhuǎn)為ndarrayimg?=?np.transpose(img,?(1,2,0))?#?把channel那一維放到最后img?=?img?*?[0.5,?0.5,?0.5]?+?[0.5,?0.5,?0.5]plt.imshow(img)plt.title("label:{}".format(example_label[i]))plt.xticks([])plt.yticks([]) plt.show()

2. 搭建AlexNet神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，并定義前向傳播的過程

class?AlexNet(nn.Module):"""Neural?network?model?consisting?of?layers?propsed?by?AlexNet?paper."""def?__init__(self,?num_classes=2):"""Define?and?allocate?layers?for?this?neural?net.Args:num_classes?(int):?number?of?classes?to?predict?with?this?model"""super().__init__()#?input?size?should?be?:?(b?x?3?x?227?x?227)#?The?image?in?the?original?paper?states?that?width?and?height?are?224?pixels,?but#?the?dimensions?after?first?convolution?layer?do?not?lead?to?55?x?55.self.net?=?nn.Sequential(nn.Conv2d(in_channels=3,?out_channels=96,?kernel_size=11,?stride=4),??#?(b?x?96?x?55?x?55)nn.ReLU(),nn.LocalResponseNorm(size=5,?alpha=0.0001,?beta=0.75,?k=2),??#?section?3.3nn.MaxPool2d(kernel_size=3,?stride=2),??#?(b?x?96?x?27?x?27)nn.Conv2d(96,?256,?5,?padding=2),??#?(b?x?256?x?27?x?27)nn.ReLU(),nn.LocalResponseNorm(size=5,?alpha=0.0001,?beta=0.75,?k=2),nn.MaxPool2d(kernel_size=3,?stride=2),??#?(b?x?256?x?13?x?13)nn.Conv2d(256,?384,?3,?padding=1),??#?(b?x?384?x?13?x?13)nn.ReLU(),nn.Conv2d(384,?384,?3,?padding=1),??#?(b?x?384?x?13?x?13)nn.ReLU(),nn.Conv2d(384,?256,?3,?padding=1),??#?(b?x?256?x?13?x?13)nn.ReLU(),nn.MaxPool2d(kernel_size=3,?stride=2),??#?(b?x?256?x?6?x?6))#?classifier?is?just?a?name?for?linear?layersself.classifier?=?nn.Sequential(nn.Dropout(p=0.5,?inplace=True),nn.Linear(in_features=(256?*?6?*?6),?out_features=500),nn.ReLU(),nn.Dropout(p=0.5,?inplace=True),nn.Linear(in_features=500,?out_features=20),nn.ReLU(),nn.Linear(in_features=20,?out_features=num_classes),)def?forward(self,?x):"""Pass?the?input?through?the?net.Args:x?(Tensor):?input?tensorReturns:output?(Tensor):?output?tensor"""x?=?self.net(x)x?=?x.view(-1,?256?*?6?*?6)??#?reduce?the?dimensions?for?linear?layer?inputreturn?self.classifier(x)

在構(gòu)建AlexNet網(wǎng)絡(luò)里，參數(shù)num_classes指的是類別的數(shù)量，由于論文中AlexNet的輸出是1000個(gè)類別，我們這里的數(shù)據(jù)集只有貓和狗兩個(gè)類別，因此這里的全連接層的神經(jīng)元個(gè)數(shù)做了微調(diào)。num_classes=2，輸出層也是兩個(gè)神經(jīng)元，不是原來的1000個(gè)神經(jīng)元。FC6由原來的4096個(gè)神經(jīng)元改為500個(gè)神經(jīng)元，FC7由原來的4096個(gè)神經(jīng)元改為20個(gè)神經(jīng)元。

這里的改動(dòng)大家注意一下，根據(jù)實(shí)際數(shù)據(jù)集的類別數(shù)量進(jìn)行調(diào)整。整個(gè)網(wǎng)絡(luò)的其它結(jié)構(gòu)跟論文中的完全一樣。

3. 將定義好的網(wǎng)絡(luò)結(jié)構(gòu)搭載到GPU/CPU，并定義優(yōu)化器

#創(chuàng)建模型，部署gpu device?=?torch.device("cuda"?if?torch.cuda.is_available()?else?"cpu") model?=?AlexNet().to(device) #定義優(yōu)化器 optimizer?=?optim.Adam(model.parameters(),?lr=0.001)

4. 定義訓(xùn)練過程

def?train_runner(model,?device,?trainloader,?optimizer,?epoch):#訓(xùn)練模型,?啟用?BatchNormalization?和?Dropout,?將BatchNormalization和Dropout置為Truemodel.train()total?=?0correct?=0.0#enumerate迭代已加載的數(shù)據(jù)集,同時(shí)獲取數(shù)據(jù)和數(shù)據(jù)下標(biāo)for?i,?data?in?enumerate(trainloader,?0):inputs,?labels?=?data#把模型部署到device上inputs,?labels?=?inputs.to(device),?labels.to(device)#初始化梯度optimizer.zero_grad()#保存訓(xùn)練結(jié)果outputs?=?model(inputs)#計(jì)算損失和#多分類情況通常使用cross_entropy(交叉熵?fù)p失函數(shù)),?而對(duì)于二分類問題,?通常使用sigmodloss?=?F.cross_entropy(outputs,?labels)#獲取最大概率的預(yù)測(cè)結(jié)果#dim=1表示返回每一行的最大值對(duì)應(yīng)的列下標(biāo)predict?=?outputs.argmax(dim=1)total?+=?labels.size(0)correct?+=?(predict?==?labels).sum().item()#反向傳播loss.backward()#更新參數(shù)optimizer.step()if?i?%?100?==?0:#loss.item()表示當(dāng)前l(fā)oss的數(shù)值print("Train?Epoch{}?\t?Loss:?{:.6f},?accuracy:?{:.6f}%".format(epoch,?loss.item(),?100*(correct/total)))Loss.append(loss.item())Accuracy.append(correct/total)return?loss.item(),?correct/total

5. 定義測(cè)試過程

def?test_runner(model,?device,?testloader):#模型驗(yàn)證,?必須要寫,?否則只要有輸入數(shù)據(jù),?即使不訓(xùn)練,?它也會(huì)改變權(quán)值#因?yàn)檎{(diào)用eval()將不啟用?BatchNormalization?和?Dropout,?BatchNormalization和Dropout置為Falsemodel.eval()#統(tǒng)計(jì)模型正確率,?設(shè)置初始值correct?=?0.0test_loss?=?0.0total?=?0#torch.no_grad將不會(huì)計(jì)算梯度,?也不會(huì)進(jìn)行反向傳播with?torch.no_grad():for?data,?label?in?testloader:data,?label?=?data.to(device),?label.to(device)output?=?model(data)test_loss?+=?F.cross_entropy(output,?label).item()predict?=?output.argmax(dim=1)#計(jì)算正確數(shù)量total?+=?label.size(0)correct?+=?(predict?==?label).sum().item()#計(jì)算損失值print("test_avarage_loss:?{:.6f},?accuracy:?{:.6f}%".format(test_loss/total,?100*(correct/total)))

6. 運(yùn)行

#調(diào)用 epoch?=?20 Loss?=?[] Accuracy?=?[] for?epoch?in?range(1,?epoch+1):print("start_time",time.strftime('%Y-%m-%d?%H:%M:%S',time.localtime(time.time())))loss,?acc?=?train_runner(model,?device,?trainloader,?optimizer,?epoch)Loss.append(loss)Accuracy.append(acc)test_runner(model,?device,?testloader)print("end_time:?",time.strftime('%Y-%m-%d?%H:%M:%S',time.localtime(time.time())),'\n')print('Finished?Training') plt.subplot(2,1,1) plt.plot(Loss) plt.title('Loss') plt.show() plt.subplot(2,1,2) plt.plot(Accuracy) plt.title('Accuracy') plt.show()

經(jīng)歷 20 次 epoch 的 loss 和 accuracy 曲線如下：

經(jīng)過20個(gè)epoch的訓(xùn)練之后，accuracy達(dá)到了87.94%。

7. 保存模型

print(model) torch.save(model,?'./models/alexnet-catvsdog.pth')?#保存模型

AlexNet 的模型會(huì)打印出來，并將模型模型命令為 alexnet-catvsdog.pth 保存在固定目錄下。

8.?模型測(cè)試

下面使用一張貓狗大戰(zhàn)測(cè)試集的圖片進(jìn)行模型的測(cè)試。

from?PIL?import?Image import?numpy?as?npif?__name__?==?'__main__':device?=?torch.device('cuda'?if?torch.cuda.is_available()?else?'cpu')model?=?torch.load('./models/alexnet-catvsdog.pth')?#加載模型model?=?model.to(device)model.eval()????#把模型轉(zhuǎn)為test模式#讀取要預(yù)測(cè)的圖片#?讀取要預(yù)測(cè)的圖片img?=?Image.open("./images/test_cat.jpg")?#?讀取圖像#img.show()plt.imshow(img)?#?顯示圖片plt.axis('off')?#?不顯示坐標(biāo)軸plt.show()#?導(dǎo)入圖片，圖片擴(kuò)展后為[1，1，32，32]trans?=?transforms.Compose([transforms.Resize((227,227)),transforms.ToTensor(),transforms.Normalize((0.5,?0.5,?0.5),?(0.5,?0.5,?0.5))])img?=?trans(img)img?=?img.to(device)img?=?img.unsqueeze(0)??#圖片擴(kuò)展多一維,因?yàn)檩斎氲奖４娴哪Ｐ椭惺?維的[batch_size,通道,長(zhǎng)，寬]，而普通圖片只有三維，[通道,長(zhǎng)，寬]#?預(yù)測(cè)?#?預(yù)測(cè)?classes?=?('cat',?'dog')output?=?model(img)prob?=?F.softmax(output,dim=1)?#prob是2個(gè)分類的概率print("概率：",prob)value,?predicted?=?torch.max(output.data,?1)predict?=?output.argmax(dim=1)pred_class?=?classes[predicted.item()]print("預(yù)測(cè)類別：",pred_class)

輸出：

概率： tensor([[1.0000e+00, 5.8714e-13]], grad_fn=<SoftmaxBackward>)
預(yù)測(cè)類別： cat

模型預(yù)測(cè)結(jié)果正確！

好了，以上就是使用 PyTorch?復(fù)現(xiàn) AlexNet 網(wǎng)絡(luò)的核心代碼。建議大家根據(jù)文章內(nèi)容完整碼一下代碼，可以根據(jù)實(shí)際情況使用自己的數(shù)據(jù)集，并調(diào)整FC6、FC7、Output?Layer的神經(jīng)元個(gè)數(shù)。

完整代碼我已經(jīng)放在了?GitHub 上，地址：

https://github.com/RedstoneWill/CNN_PyTorch_Beginner/tree/main/AlexNet

往期精彩回顧適合初學(xué)者入門人工智能的路線及資料下載(圖文+視頻)機(jī)器學(xué)習(xí)入門系列下載中國(guó)大學(xué)慕課《機(jī)器學(xué)習(xí)》（黃海廣主講）機(jī)器學(xué)習(xí)及深度學(xué)習(xí)筆記等資料打印《統(tǒng)計(jì)學(xué)習(xí)方法》的代碼復(fù)現(xiàn)專輯 AI基礎(chǔ)下載機(jī)器學(xué)習(xí)交流qq群955171419，加入微信群請(qǐng)掃碼：

總結(jié)

以上是生活随笔為你收集整理的【深度学习】手撕 CNN 之 AlexNet（PyTorch 实战篇）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：浏览器tab标签显示网站标志图标
下一篇：后台返回给前端json字段的大小写问题，