基于FPGA实现的MobileNet V1,FPGA深度学习加速器设计 CNN Accelerators based on FPGAs
Automatic Generation of Multi-precision Multi-arithmetic CNN Accelerators for FPGAs
最近arXiv上掛出來一篇文章,采用FPGA實現(xiàn)MobileNet V1,并且完全是不借助片外資源,用的是on-chip memory,沒有利用off-chip RAM。整個模型在FPGA的內(nèi)部有限資源上實現(xiàn)的。能夠使得幀率在3000 FPS,這個是最近我看到的一個很快的實現(xiàn)速度了。整個網(wǎng)絡采用了多精度實現(xiàn),而且是軟硬件結(jié)合的方式。整個實現(xiàn)流程如圖所示。
文中也提到了常規(guī)算法,在FPGA上實現(xiàn)所采用的方式,即將計算展開,叫做roll-unroll,?flatten。本文采用的flattened streaming cores來進行計算。整個卷積的計算采用的寄存器實現(xiàn),能夠高效的進行操作。這個工程量還是非常大的。下圖展示了常規(guī)卷積的實現(xiàn)過程,一個周期cycle計算每一層output的c'個通道上的每一個點的值。采用移位或者乘法器的方式實現(xiàn)。第二個分圖展示的是depthwise convolution的計算過程,對每一層單獨使用一層filter。這個表示也是standard convolution和depthwise convolution的原理解釋。
對于多精度,多bit數(shù)的執(zhí)行,將activation的值,設置為8 bit 定點數(shù),只是說定點量化的整數(shù)和小數(shù),是可以varying from convolution layer。每一層各有不同,是 一個貪心搜索算法來搜索得到的。?
同時,作者也單獨把BN層來進行量化,這里是16位?定點數(shù)。
整體實現(xiàn)難度很大,需要仔細的去看實現(xiàn)細節(jié)。在真實實現(xiàn)過程中,問題還是很多。各種配置文件。c++寫一些比較上層難以優(yōu)化和實現(xiàn)的算法和代碼。下端verilog寫卷積的模板文件,以及可分離卷積,這些規(guī)則極強,大量for循環(huán)計算的模塊,Verilog效率高。混合精度的實現(xiàn),需要利用寄存器來發(fā)揮優(yōu)勢,而浮點數(shù)據(jù)的操作,就要消耗更多資源,這時候需要用上層一點的類似于HLS來實現(xiàn)。整個流水的設計,需要緊密的在每一層上做好時鐘計算和設計,上一層的網(wǎng)絡輸出結(jié)果,以如何的方式,直接接入下一層的計算。整個流水排開之后,才能達到所敘述的3000fps。單獨處理一張圖片,應該是不能達到的。
?具體實現(xiàn)過程還有很多細節(jié),作者的最優(yōu)權(quán)重搜索算法,如何對應不同的input size,模型大小,做擴展,而且是可配置的,這些在FPGA實現(xiàn)上,算是一個優(yōu)點。因為其他的FPGA實現(xiàn)的方法,都是寫完一個,就定死,不方便在重新改寫模型的大小,因為里面涉及時序,涉及流水的對齊。這個軟件定義模型,然后在硬件綜合生成電路,再轉(zhuǎn)換為bit流的方式,可以加快各種模型原型實現(xiàn)的速度。總體不錯。如果想更仔細的看里面的各種細節(jié),查看原文吧。
論文鏈接:Automatic Generation of Multi-precision Multi-arithmetic CNN Accelerators for FPGAs?https://arxiv.org/pdf/1910.10075v1.pdf?
**如果有用,記得點贊👍加收藏哦。!!!!**
總結(jié)
以上是生活随笔為你收集整理的基于FPGA实现的MobileNet V1,FPGA深度学习加速器设计 CNN Accelerators based on FPGAs的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 面向Mobile device的CNN模
- 下一篇: 上海欢乐谷对医务人员免费到什么时候