Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江大学计算机创新技术研究院赵俊博获国家专利权

浙江大学计算机创新技术研究院赵俊博获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江大学计算机创新技术研究院申请的专利一种基于智能体交互强化学习的表格数据分析大模型训练和应用方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121478940B

龙图腾网通过国家知识产权局官网在2026-04-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610024349.1,技术领域涉及:G06F16/3329;该发明授权一种基于智能体交互强化学习的表格数据分析大模型训练和应用方法是由赵俊博;查良瑜;杨赛赛;黄清仪;袁静设计研发完成,并于2026-01-09向国家知识产权局提交的专利申请。

一种基于智能体交互强化学习的表格数据分析大模型训练和应用方法在说明书摘要公布了:本发明公开了一种基于智能体交互强化学习的表格数据分析大模型训练和应用方法。收集多源数据,并生成参考回复文本后转换获得多源词向量数据;针对多源词向量数据经多个强模型的多次重复推理处理进行筛选;抽取数据输入到预设权重参数的冷启动模型中全参数有监督微调的训练处理;将多源词向量数据输入到训练后的冷启动模型中采用强化学习方法进行训练;将强化学习方法训练后的冷启动模型用于实际场景的文本问题的回答处理中。本发明是通过合理的多源数据设置和配比、训练流程以及算法设计,提高大语言模型在二维表格数据分析领域的实际应用效果。

本发明授权一种基于智能体交互强化学习的表格数据分析大模型训练和应用方法在权利要求书中公布了:1.一种基于智能体交互强化学习的表格数据分析大模型训练和应用方法,其特征在于:所述方法具体为: 步骤一:收集多源数据,多源数据包括文本问答数据、数理逻辑推理数据、代码生成数据和表格问答数据,并将其中的每条数据生成参考回复文本response后均用对应模型词表字典转换处理为细分为词向量token的词向量集合数据,从而获得词向量形式的多源词向量数据; 步骤二:针对多源词向量数据经多个强模型的多次重复推理处理进行筛选; 步骤三:从步骤二筛选获得的多源词向量数据中抽取一定比例的数据,输入到预设权重参数的冷启动模型中进行全参数有监督微调的训练处理,获得训练后的冷启动模型; 步骤四:将步骤二处理获得的多源词向量数据输入到训练后的冷启动模型中采用强化学习方法进行训练; 步骤五:将强化学习方法训练后的冷启动模型用于实际场景的文本问题的回答处理中; 所述步骤四中的强化学习方法包括: S1、采样推理:将输入的多源词向量数据中的每条数据进行采样分组后进行多次推理预测,通过设置生成式模型温度参数,使得多次推理预测不同,根据数据类型的不同,将每条数据对应的多个不同推理结果分别输入到对应的评分反馈获取方式中并获取对应的采样评价参数,将评价参数加入到每条数据中; S2、将步骤S1得到的带有评价参数的多源词向量数据输入到步骤三得到的训练后的冷启动模型中进行强化学习训练; S3、针对步骤S2中的强化学习训练具体建立能够抑制熵衰减并能减小显存开销的目标函数,以最大化目标函数期望为目标进行训练; 所述步骤S3中,是具体采用以下公式设置的目标函数进行强化学习训练: LGRPO++θ=maxE[1G×ΣGi=0minsiθAi,clipsiθ,1-εlow,1+εhighAi] +CHEk[Hπθ]-ηEk[max0,Hπθ-Hπθold] siθ=exp1|yt|×ΣTt=0logπθπθold Hπθ=-ΣTt=0πθlogπθ 式中: LGRPO++θ表示强化学习训练阶段的目标函数,θ表示冷启动模型的所有权重构成的权重向量; E表示期望,maxE[]表示给定样本提示词输入的期望函数; i表示采样分组内的采样结果的序数,G表示采样分组内的采样结果的总数; πθ表示当前训练轮次的强化学习的策略分布,πθold表示上一轮的强化学习的策略分布; yt表示采样分组内的第i个采样结果句子内的第t个词向量;t表示当前第i个采样结果句子中词向量的索引; siθ代表由模型权重θ输出的采样分组内的第i个采样结果的输出句子级别的策略分数差异,Ai代表采样分组内的第i个采样结果的优势函数; clipsiθ,1-εlow,1+εhigh表示裁剪函数;εlow表示裁剪下限阈值,εhigh表示裁剪上限阈值,CH表示标准熵系数,η表示熵减抑制系数; Ek[]表示第k轮训练后的模型策略分布和训练前策略分布的交叉墒期望,H表示策略模型熵值函数,min表示最小值函数,max表示最大值函数,exp表示指数函数。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学计算机创新技术研究院,其通讯地址为:311215 浙江省杭州市萧山区利一路188号天人大厦33楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。