當(dāng)前位置:首頁 > 科技文檔 > 自動化 > 正文

基于MLIR的FP8量化模擬與推理內(nèi)存優(yōu)化

計算機科學(xué) 頁數(shù): 9 2024-02-20
摘要: 隨著目標(biāo)檢測模型和語言大模型的迅速發(fā)展,網(wǎng)絡(luò)模型正變得越來越龐大。為了更好地在端側(cè)硬件上進行模型部署,通常采用模型量化技術(shù)對模型進行壓縮?,F(xiàn)有的模型量化策略主要基于FP16,BF16和INT8等類型實現(xiàn)。其中,8bit數(shù)據(jù)類型在降低推理內(nèi)存占用與部署開銷方面最為顯著,但INT8類型依賴特定的校準(zhǔn)算法,未能很好地處理動態(tài)范圍大、離群點多的模型。FP8類型能夠更好地擬合神經(jīng)網(wǎng)絡(luò)中的...

開通會員,享受整站包年服務(wù)立即開通 >