喜马拉雅AI音频研究成果再获世界顶级学术会议ICASSP 2022认可

近日,由国际音频顶级会议ICASSP(International Conference on Acoustics, Speech, and Signal Processing,国际音频、语音与信号处理会议)联合阿里巴巴发起的ICASSP 2022多通道多方会议转录挑战赛(M2MeT)落下帷幕,喜马拉雅智能语音实验室和中国科学技术大学合作,在说话人日志赛道获得第三名。同时,相关论文已经被ICASSP 2022收录,并受邀于今年5月份在新加坡举办的线上/线下会议中进行展示,这是今年喜马拉雅的第二项研究技术成果得到ICASSP 2022的认可。

此前,喜马拉雅自研的跨语言语音合成创新技术论文有关跨语言语音合成创新技术的论文已被ICASSP 2022录用。ICASSP是由IEEE(电气电子工程师学会)主办的在信号处理及其应用方面的顶级会议,在国际上享有盛誉并具有广泛的学术影响力。今年是ICASSP的第47届会议,会议主题为“以人为本的信号处理”。

而M2MeT挑战赛是ICASSP2022信号处理大挑战(Grand Challenge)之一,包括说话人日志和多说话人语音识别两个赛道,旨在进一步促进该领域的深入研究。喜马拉雅和中国科学技术大学合作在说话人日志赛道取得了4.05% 的日志错误率(DER)结果,名列第三位。 第一、第二名分别由昆山杜克大学的李明教授团队(2.98%)和腾讯-香港中文大学团队(3.98%)获得。

说话人日志技术,也称说话人分段聚类,通过记录多说话人音频数据上属于特定说话人的语音事件来解决“谁在什么时候说话”的问题,比如在语音聊天室场景中,可以告诉开会者当前谁在说话。同时,该技术也在其他相关的语音处理技术中扮演着重要角色,比如会议转写的语音识别,或者为语音分离、VAD等其他语音技术提供关键的先验信息。

会议场景是语音技术应用中最有价值、同时也是最具挑战性的场景之一。因为这样的场景包含了丰富的讲话风格和复杂的声学条件,需要考虑到重叠语音、数量未知的说话人、大型会议室中的远场信号、噪音和混响等挑战。而此次的M2MeT挑战赛便聚焦中文会议数据,对参赛团队提出了挑战。

为了提高日志准确率,喜马拉雅和中国科学技术大学合作研发的系统,在语音的预处理上,首先使用麦克阵列技术对信号进行降噪、降混响,使得信号相对纯净,之后使用基于深度学习的声纹模型和谱聚类方法,对多人远场数据进行初步处理,并使用多通道标签融合技术对不同通道的结果进行融合,进一步提升准确率。

由于在挑战赛的会议场景中,多人同时说话的比例达到30~40%,传统聚类方法在该场景下会产生极高的漏判错误(MISS ERROR),因此喜马拉雅创新研发的系统还使用target-speaker VAD将聚类问题转化为多标签问题处理,并使用神经网络进行建模和训练。在采用多种数据增强和后处理策略后,成功将DER由基线的15.6%降低到4.05%,基本达到了实用要求。

喜马拉雅已在AI语音技术领域潜心钻研多年,并在内部专门成立了喜马拉雅智能语音实验室这一核心部门,长期专注于语音合成、识别、语音信号处理、编解码以及智能音效的研究和开发,而这次说话人日志技术的研究成果便来自于这一部门。目前,喜马拉雅已经在研发类似会议场景的多人同时会议转写项目,其中说话人日志解决了谁在什么时候说话的问题,大幅度提升了撰写效果。未来,喜马拉雅的说话人日志技术,也将可能被应用到更多场景中,比如语音聊天室,告诉参与者当前谁在说话;又比如喜马拉雅的AI文稿,说话人日志技术通过提供说话人的信息,有利于进一步提高AI文稿的准确率。

除了说话人日志,喜马拉雅的TTS(语音合成)技术也处于行业前列,并已经广泛被运用于评书、新闻、小说等多种内容的制作中,正助力喜马拉雅在现有的“UGC + PGC + PUGC”内容生态之外,进一步拓展AIGC的可能性。

2021年,喜马拉雅通过将自主设计单独的韵律提取模块融入到 HiTTS 技术框架,完美复现了单田芳的“声音”,目前已用单田芳的AI合成音上线了超过80张的“单田芳声音重现”专辑,其中,《毛氏三兄弟》和历史类作品的声音完播率远超过普通人声作品,为未来出版物大量有声化提供了新的解决方案。此前喜马拉雅被ICASSP 2022S收录的自研跨语言语音合成技术,未来将可能让我们听到单田芳先生的“声音”来播讲英文内容。同时,2021年,还有新京报、环球时报、潇湘晨报、时代周报、海外网、刺猬公社等众多主流媒体入驻喜马拉雅,借助喜马拉雅TTS技术加速制作新闻类音频节目,让听众有了更多的渠道听到更权威的新闻。

未来,喜马拉雅将持续投入语音技术的研发升级,不断创新和突破,进一步打开对于声音的想象,让技术加持声音、让声音服务生活。

资源下载: