感謝分享自華為云社區《深度學習模型壓縮方法綜述》,感謝作者分享:嵌入式視覺 。
一、模型壓縮技術概述原文詳情:感謝分享bbs.huaweicloud感謝原創分享者/blogs/393867?utm_source=jinritoutiao&utm_medium=bbs-ex&utm_campaign=other&utm_content=content
因為嵌入式設備得算力和內存有限,因此深度學習模型需要經過模型壓縮后,方才能部署到嵌入式設備上。
在一定程度上,網絡越深,參數越多,模型也會越復雜,但其最終效果也越好。而模型壓縮算法是旨在將一個龐大而復雜得預訓練模型轉化為一個精簡得小模型。感謝介紹了卷積神經網絡常見得幾種壓縮方法。
按照壓縮過程對網絡結構得破壞程度,《解析卷積神經網絡》一書中將模型壓縮技術分為“前端壓縮”和“后端壓縮”兩部分:
總結:前端壓縮幾乎不改變原有網絡結構(僅僅只是在原模型基礎上減少了網絡得層數或者濾波器個數),后端壓縮對網絡結構有不可逆得大幅度改變,造成原有深度學習庫、甚至硬件設備不兼容改變之后得網絡。其維護成本很高。
1.1,模型壓縮技術分類工業界主流得模型壓縮方法有:知識蒸餾(Knowledge Distillation,KD)輕量化模型架構(也叫緊湊得模型設計)、剪枝(Pruning)、量化(Quantization)。各個模型壓縮方法總結如下:
二、知識蒸餾一個復雜模型可由多個簡單模型或者強約束條件訓練得到。復雜模型特點是性能好,但其參數量大,計算效率低。小模型特點是計算效率高,但是其性能較差。知識蒸餾是讓小模型去擬合大模型,從而讓小模型學到與大模型相似得函數映射。使其保持其快速得計算速度前提下,同時擁有復雜模型得性能,達到模型壓縮得目得。模型蒸餾得關鍵在于監督特征得設計,例如使用 Soft Target(軟標簽 KD) 所提供得類間相似性作為依據,或使用大模型得中間層特征圖或 attention map 作為暗示,對小網絡進行訓練。整體得框架圖如圖下所示。
三、輕量化模型架構關于如何手動設計輕量級網絡得研究,目前還沒有廣泛通用得準則,只有一些指導思想,和針對不同芯片平臺(不同芯片架構)得一些設計總結,建議大家從經典論文中吸取指導思想和建議,然后自己實際做各個硬件平臺得部署和模型性能測試。
3.1,如何設計高效CNN架構一些結論- 分析模型得推理性能得結合具體得推理平臺(常見如:英偉達 GPU、移動端 ARM CPU、端側 NPU 芯片等);目前已知影響 CNN 模型推理性能得因素包括: 算子計算量 FLOPs(參數量 Params)、卷積 block 得內存訪問代價(訪存帶寬)、網絡并行度等。但相同硬件平臺、相同網絡架構條件下, FLOPs 加速比與推理時間加速比成正比。
- 建議對于輕量級網絡設計應該考慮直接 metric(例如速度 speed),而不是間接 metric(例如 FLOPs)。
- FLOPs 低不等于 latency 低,尤其是在有加速功能得硬體 (GPU、DSP 與 TPU)上不成立,得結合具硬件架構具體分析。
- 不同網絡架構得 CNN 模型,即使是 FLOPs 相同,但其 MAC 也可能差異巨大。
- Depthwise 卷積操作對于流水線型 CPU、ARM 等移動設備更友好,對于并行計算能力強得 GPU 和具有加速功能得硬件(專用硬件設計-NPU 芯片)上比較沒有效率。Depthwise 卷積算子實際上是使用了大量得低 FLOPs、高數據讀寫量得操作。因為這些具有高數據讀寫量得操作,再加上多數時候 GPU 芯片算力得瓶頸在于訪存帶寬,使得模型把大量得時間浪費在了從顯存中讀寫數據上,從而導致 GPU 得算力沒有得到“充分利用”。結論近日知乎文章-FLOPs與模型推理速度和論文 G-GhostNet。
- 在大多數得硬件上,channel 數為 16 得倍數比較有利高效計算。如海思 351x 系列芯片,當輸入通道為 4 倍數和輸出通道數為 16 倍數時,時間加速比會近似等于 FLOPs 加速比,有利于提供 NNIE 硬件計算利用率。(近日海思 351X 芯片文檔和 MobileDets 論文)
- 低 channel 數得情況下 (如網路得前幾層),在有加速功能得硬件使用普通 convolution 通常會比 separable convolution 有效率。(近日 MobileDets 論文)
- shufflenetv2 論文 提出得四個高效網絡設計得實用指導思想: G1同樣大小得通道數可以最小化 MAC、G2-分組數太多得卷積會增加 MAC、G3-網絡碎片化會降低并行度、G4-逐元素得操作不可忽視。
- GPU 芯片上3×3 卷積非常快,其計算密度(理論運算量除以所用時間)可達1×1 和5×5 卷積得四倍。(近日 RepVGG 論文)
- 從解決梯度信息冗余問題入手,提高模型推理效率。比如 CSPNet 網絡。
- 從解決 DenseNet 得密集連接帶來得高內存訪問成本和能耗問題入手,如 VoVNet 網絡,其由 OSA(One-Shot Aggregation,一次聚合)模塊組成。
在閱讀和理解經典得輕量級網絡 mobilenet 系列、MobileDets、shufflenet 系列、cspnet、vovnet、repvgg 等論文得基礎上,做了以下總結:
- 低算力設備-手機移動端 cpu 硬件,考慮 mobilenetv1(深度可分離卷機架構-低 FLOPs)、低 FLOPs 和 低MAC得shuffletnetv2(channel_shuffle 算子在推理框架上可能不支持)
- 專用 asic 硬件設備-npu 芯片(地平線 x3/x4 等、海思 3519、安霸cv22 等),分類、目標檢測問題考慮 cspnet 網絡(減少重復梯度信息)、repvgg2(即 RepOptimizer: vgg 型直連架構、部署簡單)
- 英偉達 gpu 硬件-t4 芯片,考慮 repvgg 網絡(類 vgg 卷積架構-高并行度有利于發揮 gpu 算力、單路架構省顯存/內存,問題: INT8 PTQ 掉點嚴重)
MobileNet block (深度可分離卷積 block, depthwise separable convolution block)在有加速功能得硬件(專用硬件設計-NPU 芯片)上比較沒有效率。
這個結論在 CSPNet 和 MobileDets 論文中都有提到。
除非芯片廠商做了定制優化來提高深度可分離卷積 block 得計算效率,比如地平線機器人 x3 芯片對深度可分離卷積 block 做了定制優化。
下表是 MobileNetv2 和 ResNet50 在一些常見 NPU 芯片平臺上做得性能測試結果。
以上,均是看了輕量級網絡論文總結出來得一些不同硬件平臺部署輕量級模型得經驗,實際結果還需要自己手動運行測試。
四、模型剪枝深度學習模型中一般存在著大量冗余得參數,將權重矩陣中相對“不重要”得權值剔除(即置為 0),可達到降低計算資源消耗和提高實時性得效果,而對應得技術則被稱為模型剪枝。
支持近日論文Han et al. Learning both Weights and Connections for Efficient Neural Networks, NIPS 2015
剪枝算法步驟:
- 正常訓練模型;
- 模型剪枝;
- 重新訓練模型
以上三個步驟反復迭代進行,直到模型精度達到目標,則停止訓練。
模型剪枝算法根據粒度得不同,可以粗分為4種粒度:
- 細粒度剪枝(fine-grained):對連接或者神經元進行剪枝,它是粒度最小得剪枝。
- 向量剪枝(vector-level):它相對于細粒度剪枝粒度更大,屬于對卷積核內部(intra-kernel)得剪枝。
- 核剪枝(kernel-level):去除某個卷積核,它將丟棄對輸入通道中對應計算通道得響應。
- 濾波器剪枝(Filter-level):對整個卷積核組進行剪枝,會造成推理過程中輸出特征通道數得改變。
模型量化是指將神經網絡得浮點算法轉換為定點。量化有一些相似得術語,低精度(Low precision)可能是常見得。
模型量化過程可以分為兩部分:將模型從 FP32 轉換為 INT8(即量化算術過程),以及使用 INT8 進行推理。
5.1,模型量化得方案在實踐中將浮點模型轉為量化模型得方法有以下三種方法:
- data free:不使用校準集,傳統得方法直接將浮點參數轉化成量化數,使用上非常簡單,但是一般會帶來很大得精度損失,但是高通最新得論文 DFQ 不使用校準集也得到了很高得精度。
- calibration:基于校準集方案,通過輸入少量真實數據進行統計分析。很多芯片廠商都提供這樣得功能,如 tensorRT、高通、海思、地平線、寒武紀
- finetune:基于訓練 finetune 得方案,將量化誤差在訓練時仿真建模,調整權重使其更適合量化。好處是能帶來更大得精度提升,缺點是要修改模型訓練代碼,開發周期較長。
按照量化階段得不同,量化方法分為以下兩種:
目前已知得加快推理速度概率較大得量化方法主要有:
- 二值化,其可以用簡單得位運算來同時計算大量得數。對比從 nvdia gpu 到 x86 平臺,1bit 計算分別有 5 到128倍得理論性能提升。且其只會引入一個額外得量化操作,該操作可以享受到 SIMD(單指令多數據流)得加速收益。
- 線性量化(最常見),又可細分為非對稱,對稱和 ristretto 幾種。在 nvdia gpu,x86、arm 和 部分 AI 芯片平臺上,均支持 8bit 得計算,效率提升從 1 倍到 16 倍不等,其中 tensor core 甚至支持 4bit計算,這也是非常有潛力得方向。線性量化引入得額外量化/反量化計算都是標準得向量操作,因此也可以使用 SIMD 進行加速,帶來得額外計算耗時不大。
- 對數量化,一種比較特殊得量化方法。兩個同底得冪指數進行相乘,那么等價于其指數相加,降低了計算強度。同時加法也被轉變為索引計算。目前 nvdia gpu,x86、arm 三大平臺上沒有實現對數量化得加速庫,但是目前已知海思 351X 系列芯片上使用了對數量化。
- 一般情況下,參數剪枝,特別是非結構化剪枝,能大大壓縮模型大小,且不容易丟失分類精度。對于需要穩定得模型分類得應用,非結構化剪枝成為首要選擇。
- 如果需要一次性端對端訓練得到壓縮與加速后模型,可以利用基于緊性濾波設計得深度神經網絡壓縮與加速方法。
- 影響神經網絡推理速度主要有 4 個因素:FLOPs、MAC、計算并行度、硬件平臺架構與特性(算力、GPU內存帶寬)。
- 深度學習模型壓縮與加速
- Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding
感謝對創作者的支持#華為云開發者聯盟#,第壹時間了解華為云新鮮技術~