采用多視角注意力的聲音事件定位與檢測(cè)
信號(hào)處理
頁(yè)數(shù): 11 2023-07-26
摘要: 近年來(lái),基于深度學(xué)習(xí)的方法有效改進(jìn)了聲音事件定位與檢測(cè)的性能,但當(dāng)場(chǎng)景中存在多聲源重疊時(shí),準(zhǔn)確的聲源時(shí)空信息估計(jì)依然較為困難,聲音事件定位與檢測(cè)的性能存在較大提升空間。為充分挖掘多通道深層表示所包含的關(guān)鍵信息,本文提出了一種多視角注意力網(wǎng)絡(luò)模型MVANet(Multi-View Attention Network)。首先,引入軟參數(shù)共享網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)不同任務(wù)之間的交互學(xué)習(xí),計(jì)算多...