中国人民解放军国防科技大学张可获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国人民解放军国防科技大学申请的专利基于LLM的样本增强和网络迭代训练方法、装置和设备获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121599131B 。
龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610112789.2,技术领域涉及:G06N5/04;该发明授权基于LLM的样本增强和网络迭代训练方法、装置和设备是由张可;邵天浩;范强;黄山;周晓磊;张骁雄;徐歆尧;王芳潇;严浩设计研发完成,并于2026-01-27向国家知识产权局提交的专利申请。
本基于LLM的样本增强和网络迭代训练方法、装置和设备在说明书摘要公布了:本申请涉及基于LLM的样本增强和网络迭代训练方法、装置和设备,所述方法采用LLM进行样本增强,并提出一种基于特征的文本化方法和逐步提示方法,在使用尽可能少的提示词和输入词的同时,可以使LLM的输出尽可能地符合人类预期;基于元学习思想提出一种网络迭代训练方法,使用基础网络加迭代训练的方式,提升网络在不同任务上的泛化能力。
本发明授权基于LLM的样本增强和网络迭代训练方法、装置和设备在权利要求书中公布了:1.一种基于LLM的样本增强和网络迭代训练方法,其特征在于,包括步骤: 获取若干个不同基础规划任务的问题背景和对应的初始训练数据; 将所述问题背景和对应的初始训练数据进行文本化处理,得到问题背景文本描述和训练数据文本描述; 根据所述问题背景文本描述采用基于特征的逐步提示方法对LLM进行提示,生成结构化提示;具体包括:从所述问题背景文本描述中选择第i类特征,构建文本化的特征集合;所述特征集合包含了若干具体特征;采用特征集合中的特征来描述提示样本;采用所述提示样本对LLM进行提示,并用测试问题验证LLM是否能够得出正确回答,如果得不到正确回答,则继续从所述问题背景文本描述中选择一类特征,继续生成提示样本对LLM进行提示、测试;如果能得到正确回答,则得到结构化提示; 将所述结构化提示和所述训练数据文本描述输入到用于具体任务的大语言模型中,生成各基础规划任务的增强训练数据; 采用每个基础规划任务的增强训练数据对基础网络进行训练,得到基础模型; 当遇到新规划任务时,基于新规划任务对所述基础模型进行迭代训练,得到新规划任务的专用网络;其中在迭代训练过程中将所述基础模型和不同新任务的仿真引擎进行交互,得到交互样本,将交互样本据经过LLM增强后,继续训练基础模型;经过若干轮迭代训练后,使用迭代更新后的网络替换原有基础模型,继续和仿真引擎交互生成新的训练数据,直到迭代后的网络收敛到能够完成任务,得到规划任务的专用模型;所述任务包括自动驾驶领域的规划任务、机器人控制领域的各类机器人执行装配零件、搬运物品的复杂任务;具体包括:步骤S10:采用基础网络与仿真引擎或环境交互,生成交互样本,将交互样本经过LLM增强,得到增强样本;所述基础网络是第k代网络; 步骤S20:将增强样本存入样本池,并依据预设剔除规则剔除样本池中的旧样本;所述预设剔除规则为:除了第k-N代基础网络至第k代基础网络产生的样本之外,所有样本都从样本池中被剔除; 步骤S30:从样本池中随机选择,或者按权重选择一定量的样本,用于训练目标网络,将目标网络初始化为基础网络,在每轮训练中,更新其内层网络的参数; 步骤S40:循环执行步骤S30,每当循环了M次后,则使用目标网络迭代更新基础网络,并将k的值加1;触发预设剔除规则,对样本池中样本进行剔除;每当循环到M+1次后,更新目标网络外层网络的参数; 步骤S10和步骤S20独立于后续步骤,将会一直循环执行,直到训练结束; 其中,基础网络由两部分组成,定义两部分网络的参数为和;为外层网络的参数,为内层网络的参数; 网络迭代训练方法还适用于强化学习; 在训练过程中策略梯度的方法更新内层网络的参数;更新公式为: 其中,、分别为更新后和更新前的内层网络的参数;为表示学习率,N表示每轮训练使用的轨迹总数,表示第条轨迹的奖励之和,和分别表示第条轨迹中的第个状态和动作,为外层网络,表示轨迹的长度;为梯度下降操作; 在训练过程中外层网络在所有子任务样本的损失值总和上使用梯度下降法来更新参数。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国人民解放军国防科技大学,其通讯地址为:410073 湖南省长沙市开福区德雅路109号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励