天津大学苏育挺获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉天津大学申请的专利基于多模态知识蒸馏的短视频多标签分类方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116595222B 。
龙图腾网通过国家知识产权局官网在2026-04-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310545873.X,技术领域涉及:G06F16/75;该发明授权基于多模态知识蒸馏的短视频多标签分类方法及装置是由苏育挺;马潇;井佩光设计研发完成,并于2023-05-16向国家知识产权局提交的专利申请。
本基于多模态知识蒸馏的短视频多标签分类方法及装置在说明书摘要公布了:本发明公开了一种基于多模态知识蒸馏的短视频多标签分类方法及装置,方法包括:教师神经网络和学生网络的损失函数包括第一次知识迁移中特征层中各模态之间的损失和第二次知识迁移教师网络和学生网络之间特征表征输出的重构损失,以及学生网络最终分类损失,并以此目标函数指导学生网络寻找学生网络模型的最优解;运用反向传播计算输出层目标函数结果与真实值之间的偏差,进行逐层调节参数,最终求出学生网络模型的局部最优解;基于局部最优解得到由教师网络训练蒸馏出的最佳学生网络模型,并将最佳学生网络运用到短视频多标签分类中,输出短视频多标签的分类结果。装置包括:处理器和存储器。本发明提高了短视频多标签分类任务的准确度,具有重要的实际应用价值。
本发明授权基于多模态知识蒸馏的短视频多标签分类方法及装置在权利要求书中公布了:1.一种基于多模态知识蒸馏的短视频多标签分类方法,其特征在于,所述方法包括: 构建以视频的视觉特征为主,音频特征和轨迹特征为辅的多头注意力机制用于分类; 在教师神经网络中引入文本标签编码信息,通过跨模态注意力层和共享注意力层对视觉特征、音频特征、轨迹特征进行融合,并将融合后的结果用于指导学生网络的输出; 对教师神经网络输出的融合后的结果进行知识迁移,指导最终学生网络的视频特征表征输出; 教师神经网络和学生网络的损失函数包括第一次知识迁移中特征层中各模态之间的损失和第二次知识迁移教师网络和学生网络之间特征表征输出的重构损失,以及学生网络最终分类损失,并以此目标函数指导学生网络寻找学生网络模型的最优解; 运用反向传播计算输出层目标函数结果与真实值之间的偏差,进行逐层调节参数,最终求出学生网络模型的局部最优解; 基于局部最优解得到由教师网络训练蒸馏出的最佳学生网络模型,并将最佳学生网络运用到短视频多标签分类中,输出短视频多标签的分类结果; 所述学生网络模型为:视觉特征、音频特征和轨迹特征先经过一MLP进行编码,并使用教师神经网络中的中间特征层的输出指导MLP的参数配置,缩小两个网络之间的差距; 所述教师神经网络为: 将三种模态特征送入到参数共享的自注意力编码器中获取视觉模态特征、音频模态特征、轨迹模态特征的独有表示、、; 将三种输出分别concat到一起,作为教师神经网络特征层的输出去指导学生网络的特征学习,即: 其中,,将送入解码器中得到最终教师网络的短视频表征: 其中,MHA表示多头注意力机制网络,LN表示标准化,为三种模态的输出表示。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人天津大学,其通讯地址为:300072 天津市南开区卫津路92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励