2022.12.4 论文阅读:
COMPLEX SPECTRAL MAPPING WITH A CONVOLUTIONAL RECURRENT NETWORKFOR MONAURAL SPEECH ENHANCEMENT
该论文在基于幅度谱的CRN的基础上进行了改进:
-
将训练目标改为了复谱映射,从而改善了因为无法有效训练相位谱而引入的语音增强的限制
-
并且采用了新的LSTM网络分组策略,保持性能的同时,提高了效率
文章摘要:
在语音增强中,相位对感知质量有重要影响。
然而,由于相谱图缺乏清晰的结构,通过监督学习直接估计相谱图显得很困难。复谱映射旨在从噪声语音的谱图中估计干净语音的真实谱图和虚谱图,同时增强噪声语音的幅值和相位响应。在本文中,我们提出了一种新的卷积循环网络(CRN)用于复杂频谱映射,从而形成一种无关于噪声和说话人的语音增强因果系统。在客观可解性和感知质量方面,提出的CRN显著优于现有的卷积神经网络(CNN),也优于现有的强CRN用于复杂光谱映射。此外,我们还采用了一种新开发的分组策略,在不牺牲性能的情况下大幅减少可训练参数的数量和计算成本。
索引术语-复谱映射,卷积循环网络,因果系统,单通道语音增强
思维导图如下:
参考文献: