長向量處理器高效RNN推理方法
國防科技大學(xué)學(xué)報(bào)
頁數(shù): 10 2024-01-30
摘要: 模型深度的不斷增加和處理序列長度的不一致對循環(huán)神經(jīng)網(wǎng)絡(luò)在不同處理器上的性能優(yōu)化提出巨大挑戰(zhàn)。針對自主研制的長向量處理器FT-M7032,實(shí)現(xiàn)了一個高效的循環(huán)神經(jīng)網(wǎng)絡(luò)加速引擎。該引擎采用行優(yōu)先矩陣向量乘算法和數(shù)據(jù)感知的多核并行方式,提高矩陣向量乘的計(jì)算效率;采用兩級內(nèi)核融合優(yōu)化方法降低臨時數(shù)據(jù)傳輸?shù)拈_銷;采用手寫匯編優(yōu)化多種算子,進(jìn)一步挖掘長向量處理器的性能潛力。實(shí)驗(yàn)表明,長向量...