多模型融合的VoxSRC22說話人日志系統(tǒng)
計算機工程與應(yīng)用
頁數(shù): 9 2023-03-28
摘要: 為有效解決“誰在什么時候說話”的問題,提出一種說話人日志方法。該方法由六個模塊組成,包括語音活動檢測(voice activity detection,VAD)、語音增強、說話人嵌入提取器、說話人聚類、重疊語音檢測(overlapping speech detection,OSD)和結(jié)果融合。利用語音增強技術(shù)可以改善語音活動檢測的性能。有效地結(jié)合不同的說話人嵌入提取器和聚類算法...