當(dāng)前位置:首頁 > 科技文檔 > 電信技術(shù) > 正文

多模型融合的VoxSRC22說話人日志系統(tǒng)

計算機工程與應(yīng)用 頁數(shù): 9 2023-03-28
摘要: 為有效解決“誰在什么時候說話”的問題,提出一種說話人日志方法。該方法由六個模塊組成,包括語音活動檢測(voice activity detection,VAD)、語音增強、說話人嵌入提取器、說話人聚類、重疊語音檢測(overlapping speech detection,OSD)和結(jié)果融合。利用語音增強技術(shù)可以改善語音活動檢測的性能。有效地結(jié)合不同的說話人嵌入提取器和聚類算法...

開通會員,享受整站包年服務(wù)立即開通 >