北京向量方程科技有限公司王宇泽获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京向量方程科技有限公司申请的专利一种基于声音驱动的数字人生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121304866B 。
龙图腾网通过国家知识产权局官网在2026-04-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511647349.9,技术领域涉及:G06T13/20;该发明授权一种基于声音驱动的数字人生成方法是由王宇泽;沈仁奎;张恒;薛卓飞;马鑫景;郭富城设计研发完成,并于2025-11-11向国家知识产权局提交的专利申请。
本一种基于声音驱动的数字人生成方法在说明书摘要公布了:本申请涉及数字人生成技术领域,具体涉及一种基于声音驱动的数字人生成方法,该方法包括:多模态数据采集与预处理;音频‑表情特征提取与同步度计算;表情动态稳定性建模与分析;基于强化学习的模型优化与生成。本申请旨在生成与音频高度契合、情感表达自然流畅的数字人形象。
本发明授权一种基于声音驱动的数字人生成方法在权利要求书中公布了:1.一种基于声音驱动的数字人生成方法,其特征在于,该方法包括以下步骤: 将同步录制的音频信号与面部视频流进行同步分帧处理; 提取每帧音频信号中的MFCC特征向量与面部视频流中的面部动作单元AU特征,并通过降维后分析两者之间的相似度和距离,以计算每帧的音频表情同步度; 使用聚类方法将所有音频表情同步度划分为高、中、低同步度段,并通过每个同步度段的聚类标签和聚类簇内元素实际值与其预测值之间的差异计算表情动态稳定性; 将表情动态稳定性引入强化学习训练过程的奖励函数中,用于对输入的音频信号-面部视频流优化输出的数字人表情参数,以用于辅助面部表情与音频生成数字人; 其中,所述音频表情同步度的计算方法为:计算所有帧的MFCC主成分特征向量与AU主成分特征向量的余弦相似度的均值; 计算每帧的MFCC主成分特征向量与AU主成分特征向量的DTW距离; 将所述均值与所述DTW距离的比值作为每帧的音频表情同步度; 其中,所述预测值通过将所有音频表情同步度作为AR模型的输入进行预测得到。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京向量方程科技有限公司,其通讯地址为:100000 北京市丰台区榴乡路88号院10号楼5层501-018;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励