Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 清华大学韩军功获国家专利权

清华大学韩军功获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉清华大学申请的专利基于注意力熵的多模态大模型问答方法、装置、设备及介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121480509B

龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610018540.5,技术领域涉及:G06F40/289;该发明授权基于注意力熵的多模态大模型问答方法、装置、设备及介质是由韩军功;张晏设计研发完成,并于2026-01-08向国家知识产权局提交的专利申请。

基于注意力熵的多模态大模型问答方法、装置、设备及介质在说明书摘要公布了:本发明公开了一种基于注意力熵的多模态大模型问答方法、装置、设备及介质,涉及人工智能与机器学习领域。包括:将目标图像和问题文本输入多模态大模型得到图像标记序列和文本词元序列;在解码器的第r解码层之前连接第r剪枝层,针对第r图像标记序列和第r文本词元序列,计算第r视觉到文本的注意力矩阵和第r文本到视觉的注意力矩阵,确定第r图像标记序列中的第i个图像标记对应的第i信息密度权重;基于第r图像标记序列中各个图像标记对应的信息密度权重,筛选出第r保留图像标记序列;将第r保留图像标记序列和第r文本词元序列输入第r解码层,以得到大语言模型输出的答案文本,以在无需额外训练的条件下有效平衡计算效率与语义完整性。

本发明授权基于注意力熵的多模态大模型问答方法、装置、设备及介质在权利要求书中公布了:1.一种基于注意力熵的多模态大模型问答方法,其特征在于,多模态大模型至少包括:视觉编码器、文本分词器和大语言模型;所述方法包括: 将目标图像和问题文本分别输入所述视觉编码器和所述文本分词器,得到图像标记序列和文本词元序列; 在所述大语言模型中解码器的第r解码层之前连接第r剪枝层,针对输入所述第r剪枝层的第r图像标记序列和第r文本词元序列,计算第r视觉到文本的注意力矩阵和第r文本到视觉的注意力矩阵;所述第r图像标记序列和所述第r文本词元序列是基于所述图像标记序列和所述文本词元序列得到的; 基于所述第r视觉到文本的注意力矩阵和所述第r文本到视觉的注意力矩阵,得到第i个图像标记的视觉到文本熵因子,以及,第i个图像标记的文本到视觉熵因子; 确定所述第r图像标记序列中的第i个图像标记对应的第i信息密度权重,以实现联合计算视觉到文本与文本到视觉两个方向的注意力分布,对图像标记的重要性进行动态评估;包括:通过公式,得到第i个图像标记的双向注意力熵;通过公式,得到第i信息密度权重;其中,为预设平衡因子;根据公式,确定第r注意力熵均值,其中,n为第r图像标记序列中图像标记的数量; 基于第r注意力熵均值,按照公式,确定第r保留率;其中,为预设的基础保留率,; 按照所述第r保留率,基于所述第r图像标记序列中各个图像标记对应的信息密度权重,从所述第r图像标记序列中筛选出第r保留图像标记序列,以实现联合计算视觉到文本与文本到视觉两个方向的注意力分布,对图像标记进行自适应剪枝;所述第r保留图像标记序列中图像标记的数量与所述第r图像标记序列中图像标记的数量的比值为所述第r保留率; 将所述第r保留图像标记序列和所述第r文本词元序列输入所述第r解码层,以得到所述大语言模型输出的答案文本; 其中,基于所述第r视觉到文本的注意力矩阵和所述第r文本到视觉的注意力矩阵,得到第i个图像标记的视觉到文本熵因子,以及,第i个图像标记的文本到视觉熵因子,包括: 针对所述第r视觉到文本的注意力矩阵中的每一行,进行行归一化处理,得到第r视觉到文本的行归一化矩阵;针对所述第r文本到视觉的注意力矩阵中的每一列,进行列归一化处理,得到第r文本到视觉的列归一化矩阵; 根据所述第r视觉到文本的行归一化矩阵的第i行,确定所述第r图像标记序列中的第i个图像标记的第一熵,并确定所述第r图像标记序列中各个图像标记中的最大第一熵; 根据所述第r文本到视觉的列归一化矩阵的第i列,确定所述第r图像标记序列中的第i个图像标记的第二熵,并确定所述第r图像标记序列中各个图像标记中的最大第二熵; 根据所述最大第一熵和所述第r图像标记序列中的第i个图像标记的第一熵,得到第i个图像标记的视觉到文本熵因子; 根据所述最大第二熵和所述第r图像标记序列中的第i个图像标记的第二熵,得到第i个图像标记的文本到视觉熵因子。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人清华大学,其通讯地址为:100084 北京市海淀区双清路30号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。