pyTorch实现C3D模型的视频行为识别实践
1、3D卷積t簡介
2、C3D模型原理與PyTorch實現(xiàn)
????2.1、C3D模型結(jié)構(gòu)
????2.2、C3D視頻動作識別(附PyTorch代碼)
????2.3、測試結(jié)果
參考
?
1、3D卷積的簡介
????在圖像處理領(lǐng)域,被卷積的都是靜態(tài)圖像,所以使用2D卷積網(wǎng)絡(luò)就足以。而在視頻理解領(lǐng)域,為了同時保留時序信息,就需要同時學(xué)習(xí)時空特征,如果用2DCNN來處理視頻,那么將不能考慮編碼在連續(xù)多幀之間的運動信息,而C3D網(wǎng)絡(luò)就在這樣的背景下橫空出世了。
?
??? 3D convolution 最早應(yīng)該是在“3D convolutional neural networks for human action”中被提出并用于行為識別的。該論文提出的模型嘗試從空間和時間維度中提取特征,從而捕獲在多個相鄰幀中編碼的運動信息。
?
主要貢獻如下:
?
??? 1、我們提出應(yīng)用3D卷積運算從視頻數(shù)據(jù)中提取空間和時間特征以進行動作識別。這些3D特征提取器在空間和時間維度上操作,從而捕獲視頻流中的運動信息。
?
??? 2、我們開發(fā)了基于3D卷積特征提取器的3D卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)。該CNN架構(gòu)從相鄰視頻幀生成多個信息信道,并在每個信道中分別執(zhí)行卷積和子采樣。最終的特征表示是通過組合所有頻道的信息獲得的。
?
??? 3、我們提出通過增加具有作為高級運動特征計算的輔助輸出的模型來規(guī)范3D CNN模型。我們進一步提出通過組合各種不同架構(gòu)的輸出來提高3D CNN模型的性能。
?
具體操作:通過同時堆疊多個連續(xù)幀形成的立方體與一個3D核進行卷積。通過這個構(gòu)建,卷積層上的特征圖連接到了前一層的多個連續(xù)幀,從而捕捉動作信息。
?
?
2、C3D模型原理與PyTorch實現(xiàn)
2.1、C3D模型結(jié)構(gòu)
?
?
? ? 3D ConvNets 更適合學(xué)習(xí)時空特征,通過3D卷積和3D池化,可以對時間信息建模,而2D卷積只能在空間上學(xué)習(xí)特征。3D和2D的區(qū)別如下:
?
????2D卷積網(wǎng)絡(luò)輸入圖像會產(chǎn)生圖像,輸入視頻輸出的也是圖像,3D卷積網(wǎng)絡(luò)輸入視頻會輸出另外一個視頻,保留輸入的時間信息。
2D和3D卷積運算。a)在一個圖像上應(yīng)用2D卷積會產(chǎn)生一個圖像。b)在視頻卷上應(yīng)用2D卷積(多個幀作為多個通道)也會產(chǎn)生一個圖像。c)在視頻卷上應(yīng)用3D卷積可產(chǎn)生另一個卷,保留輸入信號的時間信息。
?
3D卷積核時間深度搜索。不同卷積核時間深度設(shè)置在UCF101測試集split-1上的精度。2D ConvNet效果最差,3×3×3卷積核的3D ConvNet在實驗中表現(xiàn)最佳。
?
結(jié)構(gòu)如下圖:
C3D架構(gòu)。C3D網(wǎng)絡(luò)有8個卷積層,5個最大池化層和2個全連接層,最后是softmax輸出層。所有的3D卷積核都是3×3×3,在空間和時間上都有步長1。濾波器的數(shù)量表示在每個框中。3D池化層由pool1到pool5表示。所有池化核為2×2×2,除了pool1為1×2×2。每個全連接層有4096個輸出單元。
?
網(wǎng)絡(luò)架構(gòu):上圖的發(fā)現(xiàn)表明,3×3×3卷積核的均勻設(shè)置是3D ConvNets的最佳選擇。這個發(fā)現(xiàn)與2D ConvNets一致。使用大型數(shù)據(jù)集,可以根據(jù)機器內(nèi)存限制和計算承受能力,盡可能深入地訓(xùn)練具有3×3×3核的3D ConvNet。使用目前的GPU內(nèi)存,我們設(shè)計了3D ConvNet,具有8個卷積層、5個池化層、兩個全連接層,以及一個softmax輸出層。網(wǎng)絡(luò)架構(gòu)如圖3所示。為了簡單起見,我們從現(xiàn)在開始將這個網(wǎng)絡(luò)稱為C3D。所有3D卷積濾波器均為3×3×3,步長為1×1×1。為了保持早期的時間信息設(shè)置pool1核大小為1×2×2、步長1×2×2,其余所有3D池化層均為2×2×2,步長為2×2×2。每個全連接層有4096個輸出單元。
import torchimport torch.nn as nnfrom mypath import Pathclass C3D(nn.Module): """ The C3D network. """ def __init__(self, num_classes, pretrained=False): super(C3D, self).__init__() self.conv1 = nn.Conv3d(3, 64, kernel_size=(3, 3, 3), padding=(1, 1, 1)) self.pool1 = nn.MaxPool3d(kernel_size=(1, 2, 2), stride=(1, 2, 2)) self.conv2 = nn.Conv3d(64, 128, kernel_size=(3, 3, 3), padding=(1, 1, 1)) self.pool2 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2)) self.conv3a = nn.Conv3d(128, 256, kernel_size=(3, 3, 3), padding=(1, 1, 1)) self.conv3b = nn.Conv3d(256, 256, kernel_size=(3, 3, 3), padding=(1, 1, 1)) self.pool3 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2)) self.conv4a = nn.Conv3d(256, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1)) self.conv4b = nn.Conv3d(512, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1)) self.pool4 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2)) self.conv5a = nn.Conv3d(512, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1)) self.conv5b = nn.Conv3d(512, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1)) self.pool5 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2), padding=(0, 1, 1)) self.fc6 = nn.Linear(8192, 4096) self.fc7 = nn.Linear(4096, 4096) self.fc8 = nn.Linear(4096, num_classes) self.dropout = nn.Dropout(p=0.5) self.relu = nn.ReLU() self.__init_weight() if pretrained: self.__load_pretrained_weights() def forward(self, x): # print ('1:',x.size()) x = self.relu(self.conv1(x)) # print ('2:',x.size()) x = self.pool1(x) # print ('3:',x.size()) x = self.relu(self.conv2(x)) # print ('4:',x.size()) x = self.pool2(x) # print ('5:',x.size()) x = self.relu(self.conv3a(x)) # print ('6:',x.size()) x = self.relu(self.conv3b(x)) # print ('7:',x.size()) x = self.pool3(x) # print ('8:',x.size()) x = self.relu(self.conv4a(x)) # print ('9:',x.size()) x = self.relu(self.conv4b(x)) # print ('10:',x.size()) x = self.pool4(x) # print ('11:',x.size()) x = self.relu(self.conv5a(x)) # print ('12:',x.size()) x = self.relu(self.conv5b(x)) # print ('13:',x.size()) x = self.pool5(x) # print ('14:',x.size()) x = x.view(-1, 8192) # print ('15:',x.size()) x = self.relu(self.fc6(x)) # print ('16:',x.size()) x = self.dropout(x) x = self.relu(self.fc7(x)) x = self.dropout(x) logits = self.fc8(x) # print ('17:',logits.size()) return logits def __load_pretrained_weights(self): """Initialiaze network.""" corresp_name = { # Conv1 "features.0.weight": "conv1.weight", "features.0.bias": "conv1.bias", # Conv2 "features.3.weight": "conv2.weight", "features.3.bias": "conv2.bias", # Conv3a "features.6.weight": "conv3a.weight", "features.6.bias": "conv3a.bias", # Conv3b "features.8.weight": "conv3b.weight", "features.8.bias": "conv3b.bias", # Conv4a "features.11.weight": "conv4a.weight", "features.11.bias": "conv4a.bias", # Conv4b "features.13.weight": "conv4b.weight", "features.13.bias": "conv4b.bias", # Conv5a "features.16.weight": "conv5a.weight", "features.16.bias": "conv5a.bias", # Conv5b "features.18.weight": "conv5b.weight", "features.18.bias": "conv5b.bias", # fc6 "classifier.0.weight": "fc6.weight", "classifier.0.bias": "fc6.bias", # fc7 "classifier.3.weight": "fc7.weight", "classifier.3.bias": "fc7.bias", } p_dict = torch.load(Path.model_dir()) s_dict = self.state_dict() for name in p_dict: if name not in corresp_name: continue s_dict[corresp_name[name]] = p_dict[name] self.load_state_dict(s_dict) def __init_weight(self): for m in self.modules(): if isinstance(m, nn.Conv3d): # n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels # m.weight.data.normal_(0, math.sqrt(2. / n)) torch.nn.init.kaiming_normal_(m.weight) elif isinstance(m, nn.BatchNorm3d): m.weight.data.fill_(1) m.bias.data.zero_()def get_1x_lr_params(model): """ This generator returns all the parameters for conv and two fc layers of the net. """ b = [model.conv1, model.conv2, model.conv3a, model.conv3b, model.conv4a, model.conv4b, model.conv5a, model.conv5b, model.fc6, model.fc7] for i in range(len(b)): for k in b[i].parameters(): if k.requires_grad: yield kdef get_10x_lr_params(model): """ This generator returns all the parameters for the last fc layer of the net. """ b = [model.fc8] for j in range(len(b)): for k in b[j].parameters(): if k.requires_grad: yield kif __name__ == "__main__": inputs = torch.rand(1, 3, 16, 112, 112) net = C3D(num_classes=101, pretrained=True) outputs = net.forward(inputs)????print(outputs.size())C3D卷積網(wǎng)絡(luò)將完整的視頻幀作為輸入,并不依賴于任何處理,可以輕松地擴展到大數(shù)據(jù)集。
?
2.2、C3D視頻動作識別
?
?
2.2.1、UCF101數(shù)據(jù)集
?
?
?
數(shù)據(jù)集由101個人類動作類別的13,320個視頻組成。我們使用此數(shù)據(jù)集提供的三個拆分設(shè)置。
train_dataloader = DataLoader(VideoDataset(dataset=dataset, split='train', clip_len=16), batch_size=4, shuffle=True, num_workers=0) val_dataloader = DataLoader(VideoDataset(dataset=dataset, split='val', clip_len=16), batch_size=4, num_workers=0) test_dataloader = DataLoader(VideoDataset(dataset=dataset, split='test', clip_len=16), batch_size=4, num_workers=0) trainval_loaders = {'train': train_dataloader, 'val': val_dataloader} trainval_sizes = {x: len(trainval_loaders[x].dataset) for x in ['train', 'val']} test_size = len(test_dataloader.dataset)?
2.2.2、分類模型
?
?
?
提取C3D特征并將其輸入到用于訓(xùn)練模型
?
2.3、測試結(jié)果
?
?
?
參考:
https://www.jianshu.com/p/09d1d8ffe8a4
https://zhuanlan.zhihu.com/p/61570133
?
關(guān)注公眾號,回復(fù)【C3D】即可獲得完整的項目代碼以及文檔說明。
?
注意:數(shù)據(jù)集為UCF101數(shù)據(jù)集,可以自行下載。
?
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的pyTorch实现C3D模型的视频行为识别实践的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Apache httpd 配置HTTPS
- 下一篇: 【Jetson-Nano】2.Tenso