面向深度學(xué)習(xí)圖像分類(lèi)的GPU并行方法研究
計(jì)算機(jī)工程
頁(yè)數(shù): 10 2022-03-24
摘要: 針對(duì)深度學(xué)習(xí)圖像分類(lèi)場(chǎng)景中多GPU并行后傳輸效率低的問(wèn)題,提出一種低時(shí)間復(fù)雜度的Ring All Reduce改進(jìn)算法。通過(guò)分節(jié)點(diǎn)間隔配對(duì)原則優(yōu)化數(shù)據(jù)傳輸流程,緩解傳統(tǒng)參數(shù)服務(wù)器并行結(jié)構(gòu)的帶寬損耗。基于數(shù)據(jù)并行難以支撐大規(guī)模網(wǎng)絡(luò)參數(shù)及加速延緩的問(wèn)題,根據(jù)深度學(xué)習(xí)主干網(wǎng)絡(luò)所包含的權(quán)重參數(shù)低于全連接層權(quán)重參數(shù)、同步開(kāi)銷(xiāo)小、全連接層權(quán)重大與梯度傳輸開(kāi)銷(xiāo)過(guò)高等特點(diǎn),提出GPU混合并行優(yōu)...