基于擴張卷積和Transformer的視聽融合語音分離方法
信號處理
頁數(shù): 10 2023-10-16
摘要: 為了提高語音分離的效果,除了利用混合的語音信號,還可以借助視覺信號作為輔助信息。這種融合了視覺與音頻信號的多模態(tài)建模方式,已被證實可以有效地提高語音分離的性能,為語音分離任務提供了新的可能性。為了更好地捕捉視覺與音頻特征中的長期依賴關系,并強化網(wǎng)絡對輸入上下文信息的理解,本文提出了一種基于一維擴張卷積與Transformer的時域視聽融合語音分離模型。將基于頻域的傳統(tǒng)視聽融合語...