QDROP: RANDOMLY DROPPING QUANTIZATION FOR EXTREMELY LOW-BIT POST-TRAINING QUANTIZATION
QDROP:用于極低比特訓練后量化的隨機丟棄量化
Xiuying Wei 1, 2 ? , Ruihao Gong 1, 2 ? , Yuhang Li 2 , Xianglong Liu 1 , Fengwei Yu 2 1 State Key Lab of Software Development Environment, Beihang University, 2 SenseTime Research { weixiuying,gongruihao,liyuhang1 } @sensetime.com,xlliu@buaa.edu.cn
摘要
????最近,訓練后量化(PTQ)引起了人們的廣泛關注,以產生無需長時間再訓練的高效神經網絡。盡管成本低,但當前的PTQ工作在極低的位設置下往往會失敗。在本研究中,我們率先證實,將激活量化適當納入PTQ重建有利于最終精度。為了深入理解其內在原因,建立了一個理論框架,表明優化的低位模型在校準和測試數據上的平坦度至關重要。基于這一結論,提出了一種簡單而有效的方法,稱為QDROP,該方法在PTQ期間隨機丟棄激活的量化。在計算機視覺(圖像分類、目標檢測)和自然語言處理(文本分類和問答)等各種任務上的大量實驗證明了其優越性。使用QDROP,首次將PTQ的極限推到2位激活,精度提升可達51.49%。
 ????QDROP為PTQ建立了一個新的技術水平,沒有任何花哨。我們的代碼位于https://github.com/wimh966/QDrop并已集成到MQBench(https://github.com/ModelTC/MQBench ).
1引言
????近年來,深度學習已應用于各行各業,為人們的生產和活動提供了極大的便利。在深度神經網絡的表現不斷提高的同時,內存和計算成本也快速增加,給邊緣設備帶來了新的挑戰。模型壓縮技術,如網絡剪枝(Han等人,2015)、蒸餾(Hinton等人,2015)、網絡量化(Jacob等人,2018)和神經架構搜索(Zoph&Le,2016)等,致力于減少計算和存儲開銷。在本文中,我們研究了量化,它采用低比特表示權重和激活,以實現定點計算和更少的內存空間。
 ????根據量化算法的成本,研究人員通常將量化工作分為兩類:(1)量化感知訓練(QAT)和(2)訓練后量化(PTQ)。
 ????QAT通過利用整個數據集和GPU工作來微調預訓練的模型。相反,由于PTQ不需要端到端的訓練,因此獲得量化模型所需的計算量要少得多。因此,由于PTQ在實踐中的低成本和易于使用的特點,近年來,PTQ(Cai等人,2020;Wang等人,2020;Hubara等人,2021;Banner等人,2019;Nahshan等人,2019;Zhang等人,2021a;Li等人,2021c)受到了注意力。
 ????傳統上,PTQ通過執行舍入到最近運算來追求精度,其重點是最小化參數空間中與全精度(FP)模型的距離。在最近的進展中,Nagel等人(2020年);李等人(2021a)考慮了最小化模型空間中的距離,即最終損失目標。他們使用泰勒展開來分析損耗值的變化,并推導出一種通過學習舍入方案來重構預訓練模型特征的方法。
 ????這種方法在4位量化中是有效的,甚至可以將權重量化的限制推到2位。然而,極低比特激活量化面臨更多挑戰,仍然無法實現令人滿意的精度。我們認為,一個關鍵原因是現有的理論只將權重量化作為擾動進行模型,而忽略了激活。
 ????這將導致相同的優化模型,無論激活使用哪一位,這顯然違反直覺,從而導致次優解。
 ????本文首次深入研究了PTQ中激活量化的影響。
 ????我們經驗地觀察到,感知激活量化有利于極低比特PTQ重建,并且令人驚訝地發現,只有部分激活量化更可取。
 ????直觀的理解是,合并激活將導致不同的優化權重。
 ????受此啟發,我們對激活量化如何影響權重調整進行了理論研究,得出的結論是,將激活量化納入重建有助于模型在校準數據上的平坦度,而減少部分量化有助于測試數據上的平坦度?;诮涷灪屠碚摪l現,我們提出了在PTQ重建過程中隨機丟棄量化的QDROP,以從一般角度追求平坦度。通過這種簡單有效的方法,我們在各種任務上建立了最先進的PTQ,包括圖像分類、計算機視覺的目標檢測以及自然語言處理的文本分類和問答。
 ????為此,本文做出以下貢獻:1。我們前所未有地證實了在PTQ重建中涉及激活量化的好處,并意外地觀察到部分參與激活量化的性能優于整體。
 ????2.建立了一個理論框架,深入分析了將激活量化納入權重調整的影響。利用該框架,我們得出結論,校準數據和測試數據上優化的低位模型的平坦度對最終精度至關重要。
 ????3.在實證和理論分析的基礎上,我們提出了一種簡單而有效的方法QDROP,從總體上實現了平面度。QDROP易于實現,并且可以作為各種神經網絡的即插即用模塊,持續增強現有方法,包括諸如ResNets的CNN和諸如BERT的Transformers。
 ????4、在大量任務和模型上的大量實驗證明,我們的方法為PTQ建立了新的技術水平。使用QDROP,2位訓練后量化第一次成為可能。
2準備工作
????基本符號。在本文中,矩陣(或張量)標記為X,而向量表示為X。有時我們用w表示權重矩陣w的展平版本。運算符·標記為標量乘法,標記為矩陣或向量的元素乘法。對于矩陣乘法,我們將W x表示為矩陣向量乘法,或將W x表示為矩陣矩陣乘法。
 ????對于具有激活函數的前饋神經網絡,我們將其表示為G(w,x),損失函數表示為L(w,x),其中x和w分別表示網絡輸入和權重。注意,我們假設x是從訓練數據集D t中采樣的,因此最終損失由網絡正向函數的表示,我們可以將其寫成:
 
 ,其中W i,j表示連接第j個激活神經元和第i個輸出的權重。括號上標()是層索引。f(·)表示激活功能。
 ????訓練后量化。均勻量化器映射連續值x∈ R轉化為不動點整數。例如,激活量化函數可以寫成,其中b·e表示舍入到最近的算子,s是兩個后續量化級別之間的步長。雖然四舍五入到最近操作使x?和x之間的均方誤差最小化,但參數空間的最小化肯定不能等于最終任務損失的最小化(李等人,2021a),即。然而,在訓練后設置中,我們只有一個很小的子集,它只包含1k個圖像。因此,在數據有限的情況下,很難最小化最終損失目標。
 ????最近,一系列工作(Nagel等人,2020;Li等人,2021a)學習向上或向下取整,并將新的取整機制視為權重擾動,即w?=w+? w以預先訓練的網絡氣體為例,他們利用泰勒展開來分析目標,這揭示了權重之間的量化相互作用:
 
 ,其中
 
 是預期的二階導數。上述目標可以轉化為輸出黑森加權的輸出變化。
 
 。
 ????關于上述最小化,他們僅通過重構每個塊/層輸出來微調權重(參見圖1中的情況1)。但他們沒有研究輸出重建期間的激活量化,僅將權重量化建模為噪聲。激活量化的步長在重構階段之后確定。
 ????直觀地說,當將全精度模型的激活量化為2位或3位時,應該有不同的合適權重。然而,由于忽略激活量化,現有工作導致相同的優化權重。因此,我們認為在量化神經網絡時,激活量化引起的噪聲應與權重一致考慮。
3方法
????在本節中,為了揭示在輸出重構之前引入激活量化的影響,我們首先進行了實證實驗,并提出了兩個觀察結果。然后建立了一個理論框架來研究激活量化如何影響優化權重。最后,結合分析結論,提出了一種簡單而有效的QD-ROP方法。
 
 圖1:優化第k個塊的權重舍入時涉及激活量化的3種情況。激活在藍色塊內量化,在橙色塊內不量化。
 
 表1:ImageNet數據集在不同情況和不同模型下的2位或3位訓練后量化精度。
3.1經驗觀察
????為了研究重建層/塊輸出時激活量化的影響,我們在ImageNet(Russakovsky等人,2015)數據集上進行了初步實驗。我們的實驗基于開源代碼李等人(2021a),但我們將引入從1到k的激活量化? 第k個塊重建前1個塊。我們在圖1中給出了一個簡單的可視化,顯示了將激活量化置于不同階段的3種情況。情況1意味著在重構塊輸出期間,所有激活都保持在32位全精度,這也被納格爾等人(2020)的現有工作所采用;李等人(2021a)。情況2和情況3用于將激活量化合并到重構階段。然而,情況3將省略當前塊的量化,而情況2將不會。表1列出了這三種情況的詳細結果(為了在2位上獲得崩潰結果,對ResNet-18、ResNet-50和W3A3的2位(W2A2)量化進行了比較)將該算法放在算法2中。
 ????根據比較,我們可以得到兩個觀察結果:1。對于極低比特量化(例如W2A2),當在權重調整期間考慮激活量化時,將有巨大的精度提高。通過與案例1和案例2的比較,這一點得到了證實。我們發現情況1幾乎不收斂,而情況2達到了良好的精度。這表明,單獨優化權重和激活無法找到最優解。
 ????引入激活量化后,權重將學習減少激活量化的影響。
 ????2.部分引入分塊激活量化優于引入整體激活量化。情況3沒有量化當前調諧塊內的激活,但實現了比情況2更好的結果。這啟發我們,我們為權重調整引入多少激活量化將影響最終精度。
3.2激活量化如何影響權重調整
????經驗觀察突出了PTQ管道期間激活量化的重要性。為了進一步探索激活量化將如何影響權重調整,我們構建了一個理論框架,在權重和激活都被量化的情況下分析最終損失目標,這為極低比特訓練后量化提供了高精度的線索。
 ????傳統上,激活量化可以建模為注入施加在全精度對應物上的某種形式的噪聲,定義為e=(a?? a)。為了消除激活范圍1的影響,我們將噪聲轉換為乘法形式,即a?=a·(1+u),其中u的范圍受位寬度和舍入誤差的影響。新形式噪聲的詳細說明見附錄A。
 ????這里,采用1+u(x)表示激活噪聲,因為它與特定的輸入數據點x有關。有了噪聲,我們在計算損耗函數時添加了另一個參數,并在PTQ中定義了我們的優化目標:
 
 我們在此使用一種可以吸收激活時的噪聲并轉移到權重的變換,其中權重的擾動表示為1+v(x)(v(x)在矩陣乘法格式中使用)。
 ????考慮一個簡單的矩陣向量乘法,通過向前傳遞,我們得到了由
 
 通過取得出的 ,激活向量上的量化噪聲可以移植到權重擾動(1+v(x))。注意,對于特定的輸入數據點x,有兩個不同的。Sec提供證據。B、 1。
 ????還要注意,對于卷積層,我們不能應用這種變換,因為卷積的輸入是一個矩陣,將導致不同的V。盡管如此,我們可以給出一個吸收u(x)并保持相應v(x)的形式引理(嚴格證明見附錄B.2節):引理1。對于量化(卷積)神經網絡,激活量化對訓練后量化中最終損失目標的影響可以轉化為權重擾動。
 
 。
 ????通過將插值到引理1中,我們可以得到最終定理:定理1。對于具有量化權重w?和激活擾動1+u(x)的神經網絡G,我們有:
 
 在這里,定理1將優化目標分為兩項。項(7-1)與(Nagel等人,2020;Li等人,2021a)中探索的等式(2)相同,揭示了重量量化如何與損失函數相互作用。項(7-2)是通過引入激活量化的額外損耗變化。
 ????在解釋等式(7)的另一種方式中,項(7-2)表示權重量化網絡G(w?,x)上具有抖動的損耗變化。這種噪聲與某些魯棒性相關。
 ????正如一些關于泛化和平坦性的著作(Dinh等人,2017;Hochreiter&Schmid-huber,1997)所述,直觀地說,平坦最小值意味著在參數擾動下損失變化相對較小,否則,最小值是尖銳的。在本文中,我們遵循(Neyshabur等人,2017)中定義的平坦度概念,該概念從統計期望的角度考慮了損失變化。正如(Neyshabur等人,2017年)和(姜等人,2019年)所述,我們考慮相對于參數幅度的擾動幅度,并將公式視為
 
 ,其中vis的每個元素是從噪聲分布D和L中采樣的隨機變量,代表訓練集上的優化目標。從這個角度來看,項(7-2)可以解釋為具有與輸入數據相關的擾動的平面度,因此我們可以實現以下推論。
 ????推論1。在校準數據x上,在激活量化噪聲u(x)的情況下,存在相應的權重攝動v(x),其滿足訓練的量化模型在攝動v(x)下更平坦。
 ????第2節討論了推論1、情況2和3。3.1享受更平坦的損失景觀,受益于感知激活量化。這解釋了它們與案例1相比的優越性。圖2中校準數據(左部分)的銳度測量進一步驗證了這一點。在擾動幅值相似的情況下,情況2和3的損耗衰減比情況1小。
 
 圖2:測量三種情況下不同數據分布的銳度。我們采用(Keskar等人,2016)中定義的測量。在損失變化率相同的情況下,那些能夠承受較大擾動幅度的人可以享受更平坦的損失景觀。
3.3 QDROP
????如上所述,理論證明引入激活量化可以產生比現有工作更平坦的模型,平坦度的方向取決于數據分布。由于PTQ對校準數據特別敏感(Yu等人,2021),我們需要在Sec中傳輸調查。3.2將校準數據輸入測試設置中,以便徹底了解。具體來說,我們在測試集上考慮等式(7),并在下面分別檢查兩項?;谶@些分析,我們將推導出QDROP方法,以在測試數據上追求卓越的表現。
 ????測試集上的項(7-1)。如第。3.2通過量化激活和權重,我們還優化了表示校準數據平坦度的項(7-2)。這一術語將鼓勵量化模型學習平坦的最小值。因此,AdaRound的傳統目標(項(7-1))自然可以更好地概括測試數據(即測試集上的
 
 項(7-2))。此外,我們還應該關注測試數據中的項(7-2),即第2.2節中揭示的
 
 。3.2,術語(7-2)表示利用其在校準數據上的情況的平面度。在這里,我們進一步研究了測試樣本的平面度。注意,v(x)從u(x)轉換而來,并且該激活量化噪聲隨輸入數據而變化。圖2顯示了這3種情況的平面度的測試數據和校準數據之間存在差距。根據推論1,這3種情況實際上在數學上引入了不同的u,因此將導致不同的平面度方向,由
 
 給出。對于情況1,在不考慮平面度的情況下,校準期間沒有激活量化。
 ????案例2表明激活擾動完全存在,因此在校準數據上具有良好的平坦性。然而,由于校準數據和測試數據不匹配,情況2極有可能導致過度擬合(更多細節見表8)。情況3,實際上通過降低一些激活量化以及稍微不同的權重擾動來實現最佳表現,并且可能不限于校準數據的平坦度(更多證據可在表9中找到)。這激勵我們從一般角度追求一個平坦的最小值,即僅優化校準集上的目標是次優測試集。
 ????QDROP。受此啟發,我們提出QDROP,以進一步增加盡可能多的方向上的平面度。特別是,我們隨機禁用并啟用每個正向傳遞的激活量化:
 
 我們將其命名為QDROP,因為它隨機丟棄激活量化。理論上,通過隨機掩碼一些u(x),QDROP可以具有更多樣的v(x)并覆蓋更多平面度方向,從而使測試樣本更平坦,這有助于實現最終的高精度。圖3支持我們的分析,其中QDROP比案例3具有更平滑的損失情況,在測試數據的3個案例中獲勝。同時,它確實是案例3的細粒度版本,因為案例3以塊方式丟棄量化,而我們的QDROP以元素方式操作。
 ????討論。QD-ROP可以被視為現有方案的一種廣義形式。情況1和2分別對應于p=1和p=0的下降概率。情況3相當于以丟棄概率p=1設置正在優化的塊,并且保持其他部分的量化。注意,p服從伯努利分布,因此最大熵可以設為0.5(秦等人,2020),這有助于在各個方向上實現平坦度。
 ????QDROP易于實現各種神經網絡,包括CNN和Transformers,且即插即用,額外的計算復雜度很小。使用QDROP,選擇優化順序的復雜問題,即Sec中的不同情況。3.1,可以避免。
 
 
 圖3:QDROP的量化重量損失面,測試數據和ResNet-18 W3A3的情況1和3。為了更好地區分情況1和3,我們放大了局部損耗面,擾動v 1和v 2幅值為[-0.025,0.025]。
 
 表2:QDROP的影響。
4個實驗
????在本節中,我們進行了兩組實驗來驗證QDROP的有效性。以秒為單位。4.1,我們首先對有無下降量化的影響進行消融研究,并分析不同下降率的選擇。以秒為單位。4.2,我們將我們的方法與其他現有的視覺和語言任務方法進行了比較,包括ImageNet上的圖像分類、MS COCO上的目標檢測以及GLUE benchmark和SQuAD上的自然語言處理。
 ????實施細節。我們的代碼基于PyTorch-Paszke等人(2019)。我們將默認丟棄概率設為0.5,除非我們明確提到它。權重調整方法與Nagel等人(2020)相同;李等人(2021a)。每一個塊或層輸出被重構20k次迭代。對于ImageNet數據集,我們采樣1024個圖像作為校準集,而COCO使用256個圖像。在自然語言處理中,我們采樣了1024個示例。除非線性規劃任務外,我們還將第一層和最后一層層保留在8位,并采用每通道權重量化。我們使用W4A4表示4位權重和激活量化。更多模型選擇和其他設置見附錄E。
 ????但需要注意的是,規則的第一和最后一個層8位意味著8位權重和第一和最后一個層的輸入,而B RECQ使用另一個設置,該設置不僅保持第一個層的輸入8位,而且還保持第一個層的輸出(第二個層的輸入)。這確實比常規方法性能更好,只需再保留一個層的8位輸入,但在硬件上可能不實用。因此,我們將其與B RECQ的設置進行了比較,以顯示我們的方法的優越性,并通過實驗提供了一個實用的基線。符號?用于標記B RECQ的設置。
4.1 BLAIN研究
????QDROP的影響。我們提出了QDROP,在這里我們想測試有或沒有QDROP的PTQ的效果。我們使用ImageNet分類基準,將權重參數量化為2位,將激活量化為2/4位。如表2所示,QDROP提高了針對ImageNet上6個模型評估的所有位設置的準確性。此外,將QDROP應用于輕型網絡架構時,收益更為明顯:在W2A4下,MNasNet的增量為2.36%,在W2A2下,RegNet-3.2GF的增量為12.6%。
 ????下降概率的影響。我們還探討了PTQ中的丟棄概率。我們在[0,0.25,0.5,0.75,1]中選擇p,并在MobileNetV2和RegNet-600MF上進行測試。結果如圖5所示。我們發現0.5通常在5個候選者中表現最好。雖然每個ar體系結構都可能有一個細粒度的最佳解決方案,但我們將避免繁瑣的超參數搜索,并繼續使用0.5。
 
 圖5:丟棄概率對ImageNet的影響。
4.2文獻比較
????ImageNet。我們選擇了ResNet-18和-50(He等人,2016年)、MobileNet V2(Sandler等人,2018年)、搜索MNasNet(Tan等人,2019年)和RegNet(Radosavovic等人,2020年)。我們在表3中總結了結果。首先,研究了W4A4量化??梢杂^察到,QDROP提供0~ 與包括AdaRound、BRECQ在內的強基線相比,精度提高了3%。
 ????至于我們的方法與W4A4上的AdaQuant之間的差距,我們認為在量化節點的位置等設置上存在一些離散性,并將這種解釋放在第二節中。C、 3。通過W2A4量化,QDROP可以將ResNet-50和RegNet-3.2GF的精度分別提高0.5%和4.6%。此外,為了充分利用QDROP的限制,我們使用2/3位權重和激活進行了更具挑戰性的案例。根據表3的最后兩行,我們提出的QDROP始終取得了良好的結果,而現有方法的精度下降不可忽略。
 ????對于W3A3,在MobileNetV2上的差異更大,我們的方法達到了58%的準確性,而B RECQ僅得到23%。在W2A2設置中,PTQ變得更加困難。QDROP在很大程度上超越了競爭方法:ResNet-18上升了12.18%,ResNet-50上升了29.66%,RegNet-3.2GF上升了51.49%。
 ????可可女士。在這一部分中,我們使用MS COCO數據集驗證了QDROP在目標檢測任務上的表現。我們使用兩階段更快的RCNN(Ren等人,2015)和一階段RetinaNet(Lin等人,2017)模型。主干網選自ResNet-18、ResNet-50和MobileNet V2。注意,我們將第一個層和最后一個層設置為8位,并且不量化模型的頭部,但是,頸部(FPN)是量化的。實驗表明,使用QDROP的W4A4量化幾乎不會影響更快的RCNN映射。對于RethinaNet,我們的方法在MobileNetV2主干上有5個映射改進。在低比特設置W2A4中,我們的方法在更快的RCNN和視網膜網絡上都有很大的改進,最高可達6.5 mAP。
 ????GLUE benchmark和SQuAD。我們在自然語言處理任務中測試QDROP,包括GLUE基準和SQuAD1.1。它們都是在典型的非線性規劃模型上進行的,即BERT(Devlin等人,2018)。
 ????與QAT方法(Bai等人,2020)相比,QAT方法通常采用數據增強技巧來實現原始數據的幾十倍,我們僅隨機提取1024個示例,而無需任何額外的數據處理。除了AdaQuant和B RECQ的精度大大降低外,我們的QDROP在QNLI(8.7%)、QQP(4.6%)和RTE(7.2%)方面優于所有任務。
 ????至于SST-2,盡管下降量化幾乎沒有增強,但它確實在4.4%內接近FP32值。對于STS-B,我們認為原始微調模型是用有限的數據進行訓練的的,這可能不是很有代表性。
 ????4.3 R QDROP的穩健性在這一部分中,我們討論了QDROP在更具挑戰性的情況下的有效性,包括更少的數據和跨域情況。關于校準數據的大小,我們考慮了另外4種選擇??梢杂^察到,在每種設置下,減少一些量化表現更好,甚至與沒有減少一半原始校準數據相當。受Yu等人(2021)的啟發,我們還通過1024個例子從域外數據重構塊輸出,即CIFAR100(Krizhevsky等人,2009)、MS COCO和ImageNet上的測試。結果見表6,其中我們的QDROP仍然穩定工作。
 
 表3:ImageNet上具有低比特激活的不同訓練后量化策略的準確性比較。*表示我們根據開源代碼實現的?意味著使用B RECQ的第一和最后一個層8位設置,除了第一和最后一個層中的輸入和權重外,還保留第一個層的輸出8位。
 
 表4:MS COCO上典型訓練后量化策略的mAP比較。請注意,對于B RECQ,我們沒有對頭部進行量化,并將主干中的第一和最后一個層保持為8位。其他符號與表3一致。
 
 表5:NLP任務與E8W4A4上其他方法的表現比較。在這里,我們使用符號EeWwAa額外表示嵌入位,并在GLUE和SQuAD1.1上進行實驗。
 
 圖6:校準數據大小對ImageNet的影響。
 
 表6:跨域數據。
5結論
????在本文中,我們介紹了QDROP,一種新的訓練后量化機制。QDrop旨在通過一個微小的校準集實現良好的測試精度。這是通過朝著平坦的極小值進行優化來實現的。我們將PTQ目標從理論上分解為平面度問題,并從一般角度改進平面度。我們全面驗證了QDROP在各種任務上的有效性。它可以實現幾乎無損的4位量化網絡,并可以顯著改善2位量化結果。
致謝
????我們衷心感謝匿名評論者的認真評論和寶貴建議,以使這一點更好。我們感謝張和陳對這項工作的幫助。
 ????這項工作得到了國家自然科學基金62022009和61872021的部分資助,青年學者感覺時間研究基金,以及北京Nova科技計劃Z19110000119050的部分資助。
參考文獻
Haoli Bai, Wei Zhang, Lu Hou, Lifeng Shang, Jing Jin, Xin Jiang, Qun Liu, Michael Lyu, and Irwin King. Binarybert: Pushing the limit of bert quantization. arXiv preprint arXiv:2012.15701 , 2020.
Ron Banner, Yury Nahshan, and Daniel Soudry. Post training 4-bit quantization of convolutional networks for rapid-deployment. In Advances in Neural Information Processing Systems , 2019.
Yaohui Cai, Zhewei Yao, Zhen Dong, Amir Gholami, Michael W Mahoney, and Kurt Keutzer. Zeroq: A novel zero shot quantization framework. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition , pp. 13169–13178, 2020.
Yoni Choukroun, Eli Kravchik, Fan Yang, and Pavel Kisilev. Low-bit quantization of neural net- works for efficient inference. In ICCV Workshops , pp. 3009–3018, 2019.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805 , 2018.
Laurent Dinh, Razvan Pascanu, Samy Bengio, and Yoshua Bengio. Sharp minima can generalize for deep nets, 2017.
Zhen Dong, Zhewei Yao, Yaohui Cai, Daiyaan Arfeen, Amir Gholami, Michael W Mahoney, and Kurt Keutzer. Hawq-v2: Hessian aware trace-weighted quantization of neural networks. arXiv preprint arXiv:1911.03852 , 2019.
Steven K Esser, Jeffrey L McKinstry, Deepika Bablani, Rathinakumar Appuswamy, and Dharmen- dra S Modha. Learned step size quantization. arXiv preprint arXiv:1902.08153 , 2019.
Angela Fan, Pierre Stock, Benjamin Graham, Edouard Grave, Re?mi Gribonval, Herve Jegou, and Armand Joulin. Training with quantization noise for extreme model compression. arXiv preprint arXiv:2004.07320 , 2020.
Pierre Foret, Ariel Kleiner, Hossein Mobahi, and Behnam Neyshabur. Sharpness-aware minimiza- tion for efficiently improving generalization. arXiv preprint arXiv:2010.01412 , 2020.
Yonggan Fu, Qixuan Yu, Meng Li, Vikas Chandra, and Yingyan Lin. Double-win quant: Aggres- sively winning robustness of quantized deep neural networks via random precision training and inference. In International Conference on Machine Learning , pp. 3492–3504. PMLR, 2021.
Song Han, Huizi Mao, and William J Dally. Deep compression: Compressing deep neural networks with pruning, trained quantization and huffman coding. arXiv preprint arXiv:1510.00149 , 2015.
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recog- nition. In Proceedings of the IEEE conference on computer vision and pattern recognition , pp. 770–778, 2016.
Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531 , 2015.
Sepp Hochreiter and Ju?rgen Schmidhuber. Flat minima. Neural computation , 9(1):1–42, 1997.
Itay Hubara, Yury Nahshan, Yair Hanani, Ron Banner, and Daniel Soudry. Accurate post training quantization with small calibration sets. In International Conference on Machine Learning , pp. 4466–4475. PMLR, 2021.
Pavel Izmailov, Dmitrii Podoprikhin, Timur Garipov, Dmitry Vetrov, and Andrew Gordon Wil- son. Averaging weights leads to wider optima and better generalization. arXiv preprint arXiv:1803.05407 , 2018.
Benoit Jacob, Skirmantas Kligys, Bo Chen, Menglong Zhu, Matthew Tang, Andrew Howard, Hartwig Adam, and Dmitry Kalenichenko. Quantization and training of neural networks for efficient integer-arithmetic-only inference. In Proceedings of the IEEE conference on computer vision and pattern recognition , pp. 2704–2713, 2018.
Yiding Jiang, Behnam Neyshabur, Hossein Mobahi, Dilip Krishnan, and Samy Bengio. Fantastic generalization measures and where to find them. arXiv preprint arXiv:1912.02178 , 2019.
Prad Kadambi, Karthikeyan Natesan Ramamurthy, and Visar Berisha. Comparing fisher information regularization with distillation for dnn quantization. 2020.
Nitish Shirish Keskar, Dheevatsa Mudigere, Jorge Nocedal, Mikhail Smelyanskiy, and Ping Tak peter Tang. On large-batch training for deep learning: Generalization gap and sharp minima. arXiv preprint arXiv:1609.04836 , 2016.
Alex Krizhevsky, Geoffrey Hinton, et al. Learning multiple layers of features from tiny images. 2009.
Yuhang Li, Xin Dong, and Wei Wang. Additive powers-of-two quantization: An efficient non- uniform discretization for neural networks. arXiv preprint arXiv:1909.13144 , 2019.
Yuhang Li, Ruihao Gong, Xu Tan, Yang Yang, Peng Hu, Qi Zhang, Fengwei Yu, Wei Wang, and Shi Gu. Brecq: Pushing the limit of post-training quantization by block reconstruction. arXiv preprint arXiv:2102.05426 , 2021a.
Yuhang Li, Mingzhu Shen, Jian Ma, Yan Ren, Mingxin Zhao, Qi Zhang, Ruihao Gong, Fengwei Yu, and Junjie Yan. MQBench: Towards reproducible and deployable model quantization benchmark. In Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 1) , 2021b. URL https://openreview.net/forum?id=TUplOmF8DsM .
Yuhang Li, Feng Zhu, Ruihao Gong, Mingzhu Shen, Xin Dong, Fengwei Yu, Shaoqing Lu, and Shi Gu. Mixmix: All you need for data-free compression are feature and data mixing. In Proceedings of the IEEE/CVF International Conference on Computer Vision , pp. 4410–4419, 2021c.
Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dolla?r. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision , pp. 2980–2988, 2017.
Markus Nagel, Mart van Baalen, Tijmen Blankevoort, and Max Welling. Data-free quantization through weight equalization and bias correction. In Proceedings of the IEEE/CVF International Conference on Computer Vision , pp. 1325–1334, 2019.
Markus Nagel, Rana Ali Amjad, Mart Van Baalen, Christos Louizos, and Tijmen Blankevoort. Up or down? adaptive rounding for post-training quantization. In International Conference on Machine Learning , pp. 7197–7206. PMLR, 2020.
Yury Nahshan, Brian Chmiel, Chaim Baskin, Evgenii Zheltonozhskii, Ron Banner, Alex M Bronstein, and Avi Mendelson. Loss aware post-training quantization. arXiv preprint arXiv:1911.07190 , 2019.
Behnam Neyshabur, Srinadh Bhojanapalli, David McAllester, and Nathan Srebro. Exploring generalization in deep learning, 2017.
Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, et al. Pytorch: An imperative style, high-performance deep learning library. Advances in neural information processing systems , 32: 8026–8037, 2019.
Haotong Qin, Ruihao Gong, Xianglong Liu, Mingzhu Shen, Ziran Wei, Fengwei Yu, and Jingkuan Song. Forward and backward information retention for accurate binary neural networks. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) , June 2020.
Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, and Piotr Dolla?r. Designing network design spaces. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition , pp. 10428–10436, 2020.
Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems , pp. 91–99, 2015.
Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, Alexander C. Berg, and Li Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV) , 115(3):211–252, 2015. doi: 10.1007/s11263-015-0816-y.
Mark Sandler, Andrew Howard, Menglong Zhu, Andrey Zhmoginov, and Liang-Chieh Chen. Mo- bilenetv2: Inverted residuals and linear bottlenecks. In Proceedings of the IEEE conference on computer vision and pattern recognition , pp. 4510–4520, 2018.
Mingzhu Shen, Feng Liang, Ruihao Gong, Yuhang Li, Chuming Li, Chen Lin, Fengwei Yu, Junjie Yan, and Wanli Ouyang. Once quantization-aware training: High performance extremely low- bit architecture search. In Proceedings of the IEEE/CVF International Conference on Computer Vision , pp. 5340–5349, 2021.
Mingxing Tan, Bo Chen, Ruoming Pang, Vijay Vasudevan, Mark Sandler, Andrew Howard, and Quoc V Le. Mnasnet: Platform-aware neural architecture search for mobile. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , pp. 2820–2828, 2019.
Peisong Wang, Qiang Chen, Xiangyu He, and Jian Cheng. Towards accurate post-training network quantization via bit-split and stitching. In Proc. 37nd Int. Conf. Mach. Learn.(ICML) , 2020.
Dongxian Wu, Shu-Tao Xia, and Yisen Wang. Adversarial weight perturbation helps robust gener- alization. arXiv preprint arXiv:2004.05884 , 2020.
Guandao Yang, Tianyi Zhang, Polina Kirichenko, Junwen Bai, Andrew Gordon Wilson, and Chris De Sa. Swalp: Stochastic weight averaging in low precision training. In International Conference on Machine Learning , pp. 7015–7024. PMLR, 2019.
Haichao Yu, Linjie Yang, and Humphrey Shi. Is in-domain data really needed? a pilot study on cross-domain calibration for network quantization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops , pp. 3043–3052, June 2021.
Xiangguo Zhang, Haotong Qin, Yifu Ding, Ruihao Gong, Qinghua Yan, Renshuai Tao, Yuhang Li, Fengwei Yu, and Xianglong Liu. Diversifying sample generation for accurate data-free quan- tization. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR) , June 2021a.
Xiangguo Zhang, Haotong Qin, Yifu Ding, Ruihao Gong, Qinghua Yan, Renshuai Tao, Yuhang Li, Fengwei Yu, and Xianglong Liu. Diversifying sample generation for accurate data-free quantiza- tion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition , pp. 15658–15667, 2021b.
Yaowei Zheng, Richong Zhang, and Yongyi Mao. Regularizing neural networks via adversarial model perturbation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition , pp. 8156–8165, 2021.
Barret Zoph and Quoc V Le. Neural architecture search with reinforcement learning. arXiv preprint arXiv:1611.01578 , 2016.
總結
以上是生活随笔為你收集整理的QDROP: RANDOMLY DROPPING QUANTIZATION FOR EXTREMELY LOW-BIT POST-TRAINING QUANTIZATION的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 【OpenCV】Qt + OpenCV
- 下一篇: Linux(Ubuntu 22.04)虚
