南京邮电大学孙林慧获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利一种基于多头注意力机制和Bi-LSTM的复数去混响语音增强方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119107963B 。
龙图腾网通过国家知识产权局官网在2026-04-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410954745.5,技术领域涉及:G10L21/02;该发明授权一种基于多头注意力机制和Bi-LSTM的复数去混响语音增强方法是由孙林慧;丁兆伟;王春艳;李平安;叶蕾设计研发完成,并于2024-07-17向国家知识产权局提交的专利申请。
本一种基于多头注意力机制和Bi-LSTM的复数去混响语音增强方法在说明书摘要公布了:本发明公开了一种基于多头注意力机制和Bi‑LSTM的复数去混响语音增强方法,属于语音增强技术领域。本发明在复数域进行去混响处理,首先将信号进行STFT变换得到复数谱,以充分地利用幅度和相位信息。然后将复数谱特征送入高级通道注意力机制HCA以融合特征。其次,为了能够捕捉输入序列内部不同位置之间的相关性并利用时间和频率信息捕捉语音关键成分,设计了一种时频双路径复多头注意力机制TF‑CMHA,更准确地识别语音成分并抑制混响成分。最后,引入了复乘法运算和联合约束损失函数,模拟幅值和相位之间的相关关系,获得更为精确的长时语音相关性的描述。本发明实现了对去混响语音增强系统性能的提升,使系统去混响后的语音在各种测量指标上均有提升,适用于语音前端处理。
本发明授权一种基于多头注意力机制和Bi-LSTM的复数去混响语音增强方法在权利要求书中公布了:1.一种基于多头注意力机制和Bi-LSTM的复数去混响语音增强方法,其特征在于,包括如下步骤: 步骤S1:输入含混响的语音信号进行STFT变换,将语音信号转换到频域,提取幅度谱特征和复数谱特征,得到频域的表示; 步骤S2:将特征输入到高级通道注意力机制HCA,和分别表示平均池化特征和最大池化特征,将平均池化特征和最大池化特征融合获得新的特征,和分别通过卷积块进行特征处理并再次与融合,得到特征表示新的特征,与进行逐元素相乘融合得到输出特征; 步骤S3:将HCA的输出特征输入到时频双路径复多头注意力机制TF-CMHA中,根据输入序列内部不同位置之间的相关性,利用时间和频率信息捕捉语音信号中的关键成分,并识别并抑制混响成分; 步骤S4:将TF-CMHA的输出特征分成实部和虚部两个通道进入复双向长短时记忆网络CBi-LSTM中,捕捉语音信号深层特征的前后关系,通过引入的复乘法运算模拟幅值和相位之间的相关关系,获得更为精确的长时语音相关性的描述; 步骤S5:对此设计一种联合约束损失函数来对网络模型进行训练,其中复数谱特征的实部和虚部被视为独立的特征进行同步训练,以此来减小预估值与真实值之间的误差,最后经过ISTFT变换恢复成估计的时域信号; 步骤S6:对所提出的一种基于多头注意力机制和Bi-LSTM的复数去混响语音增强方法进行性能评估; 所述步骤S4的具体步骤为: 步骤S41:分成实部和虚部两个通道进入CBi-LSTM中,运用复乘法运算; 步骤S42:每个通道由两个堆叠的Bi-LSTM层组成,每个时间步的输出维度为1446,得到426×1446的特征矩阵; 步骤S43:经过线性层1446,723,得到最终426×723的特征矩阵; 所述步骤S42的具体步骤为: 步骤S421:定义复值卷积滤波器为,这里的实值矩阵和分别表示复值卷积核的实部和虚部,同时输入复数谱图可以定义为,因此,可以通过复数卷积运算得到复数谱的输出,可以表示为 ; 步骤S422:经过TF-CMHA的输出特征为,其实部和虚部表示为、,作为两个输入通道,分别输入到Bi-LSTM中,具体运算过程如下,最终CBi-LSTM的输出为, 其中,和分别表示实部和虚部的两个传统Bi-LSTM,表示将输入实特征送入实Bi-LSTM后的输出特征,表示将输入实特征送入实Bi-LSTM后的输出特征,表示将输入实特征送入实Bi-LSTM后的输出特征,表示将输入实特征送入实Bi-LSTM后的输出特征; 所述步骤S5的具体步骤为: 步骤S51:定义时域MSE损失函数: 表示干净语音信号,表示预估得到的语音信号; 步骤S52:因为发明在复数域进行研究,为充分考虑到实部和虚部之间的独立性和重要性差异,以及幅度和相位的关系,设计了一种联合损失函数,包括语音信号的幅度谱、复数谱的实部和虚部共三部分,分别计算他们的MSE损失后,进行联合作为模型最终的损失函数: 其中,表示干净语音信号的幅度谱,表示预估信号的幅度谱,和分别表示干净语音信号的实部和虚部,和分别表示预估信号的实部和虚部,为权重系数; 步骤S53:最后输出经过ISTFT变换后变回预测的时域语音信号。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210023 江苏省南京市栖霞区亚东新城区文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励