當前位置:首頁 > 科技文檔 > 電信技術(shù) > 正文

基于跨模態(tài)注意力的目標語音提取

計算機工程 頁數(shù): 9 2024-01-19
摘要: 目標語音提取作為語音分離領(lǐng)域的一部分,旨在從混合語音數(shù)據(jù)中提取出目標語音。考慮到視聽信息具有天然一致性,在進行模型訓練時,可以融合視覺信息指導模型對目標語音的提取。對此,傳統(tǒng)方法是將視覺特征和音頻特征進行簡單拼接,然后進行卷積操作實現(xiàn)通道融合,這種方法無法有效挖掘到跨模態(tài)信息間的相關(guān)性。針對這個問題,設(shè)計一個基于兩階段的跨模態(tài)注意力特征融合模塊。在第一階段進行點積注意力計算來挖...

開通會員,享受整站包年服務(wù)立即開通 >