Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 湖南笑熵智愈科技有限公司冯武获国家专利权

湖南笑熵智愈科技有限公司冯武获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉湖南笑熵智愈科技有限公司申请的专利一种融合情感增强机制的语音克隆方法、系统及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121565140B

龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610091047.6,技术领域涉及:G10L13/027;该发明授权一种融合情感增强机制的语音克隆方法、系统及存储介质是由冯武;于翠楠;刘华安设计研发完成,并于2026-01-23向国家知识产权局提交的专利申请。

一种融合情感增强机制的语音克隆方法、系统及存储介质在说明书摘要公布了:本发明公开了一种融合情感增强机制的语音克隆方法、系统及存储介质,涉及语音合成技术领域。该一种融合情感增强机制的语音克隆方法、系统及存储介质,包括以下步骤:S1,构建迁移学习框架和多源语音数据集,进行归一化处理;S2,基于预处理后的多源语音数据集,构建定向构建机制输出声纹特征;S3,在中性模型加入情感嵌入联合训练,输出带时间戳的梅尔频谱;S4,基于情感标注长沙话语料集,采用乘性自适应调节情感损失权重;S5,构建双轨输入体系,输出情感语音克隆数据。本发明有效提升音色一致性、情感一致性和语音自然度,解决了音色与情感特征分离、情感迁移导致音色漂移及跨方言鲁棒性不足的问题。

本发明授权一种融合情感增强机制的语音克隆方法、系统及存储介质在权利要求书中公布了:1.一种融合情感增强机制的语音克隆方法,其特征在于,包括以下步骤: S1,构建迁移学习框架和多源语音数据集,对多源语音数据集进行声学预处理与归一化处理,通过双阶段协同训练机制得到纯音色克隆语音; S2,基于预处理后的多源语音数据集,构建定向构建机制输出声纹特征,构建方言适配谱频生成与WaveRNN声码器转换机制输出梅尔频谱图和合成语音; S3,在中性模型加入情感嵌入联合训练,输出带时间戳的梅尔频谱,通过神经网络自适应学习特征关联,建立方言适配型注意力和异常处理机制; S4,基于情感标注长沙话语料集,设计多层级损失函数约束平衡,采用乘性自适应调节情感损失权重,评估合成语音,验证权重调节有效性; 所述基于情感标注长沙话语料集,设计多层级损失函数约束平衡,采用乘性自适应调节情感损失权重的具体过程为: 输入情感标注长沙话语料集构建结构化情感特征表征体系,采用通过Praat工具双标注机制形成基频特征标注集,底层提取基频、语速、语调、强度的韵律元素向量,高层拼接后经轻量全连接网络降维、Z-Score标准化,再聚类生成各类情感标准特征向量;采用乘性自适应调节策略对情感损失权重进行动态更新,通过非线性饱和函数与指数映射构造平滑且稳定的权重更新机制,将第k-1个训练周期的情感识别率加极小正数常量作为情感项,情感准确阈值加极小正数常量得到情感目标项,情感目标项除以情感项得到情感比率,情感比率减去固定值得到情感初项,对情感初项进行双曲正切值运算后乘以情感调节系数得到情感偏差项;先将第k-1个训练周期的音色相似度得分加极小正数常量作为音色项,音色阈值加极小正数常量得到音色目标项,音色项除以音色目标项得到音色比率,音色比率减去固定值得到音色初项,对音色初项进行双曲正切值运算后乘以音色调节系数得到音色保护项;第k-1个的情感项减去第k-2个的情感项得到情感差值,情感差值除以情感目标项得到趋势项;用情感偏差项减去音色保护项和趋势项,得到指数项;对指数项进行指数运算,得到自适应因子;将第k-1个训练周期的情感损失权重与自适应因子相乘,得到第k个训练周期的情感损失权重; S5,构建双轨输入体系,通过深度受限玻尔兹曼机和时延神经网络建模进行特征融合与时序建模,共同驱动合成过程输出情感语音克隆数据; 所述构建双轨输入体系,通过深度受限玻尔兹曼机和时延神经网络建模进行特征融合与时序建模,共同驱动合成过程输出情感语音克隆数据的具体过程为: 构建身份特征与情感特征的双轨输入体系,在原始语音数据集中通过梅尔倒谱系数提取声纹特征、线性预测编码提取共振峰嗓音特质特征,经主成分分析提取身份特征,并在基频特征标注集中用滑动窗口法提取基频时序特征,结合情感损失权重提取情感韵律特征,通过最小化重构误差进行非线性融合,构建深度受限玻尔兹曼机,输出中间特征向量,中间特征向量仅反映单帧的身份和情感的融合信息,通过时延神经网络对情感韵律特征进行卷积式时序建模,捕捉情感韵律特征跨帧的局部动态关联,输出时序聚合特征并进行均值池化和维度裁剪得到e-vector,将e-vector作为条件特征输入语音合成主干网络,e-vector、文本特征和声纹特征共同驱动合成过程,输出情感语音克隆数据。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南笑熵智愈科技有限公司,其通讯地址为:410000 湖南省长沙市长沙经济技术开发区凉塘路28号1号厂房401室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。