齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心)杨明获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心)申请的专利基于反馈学习的自适应大模型提示攻击与安全评估方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121765737B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610256500.4,技术领域涉及:G06F21/57;该发明授权基于反馈学习的自适应大模型提示攻击与安全评估方法是由杨明;李昌浩;杨小康;吴晓明;王鑫;陈振娅;刘臣胜;贺云鹏;穆超设计研发完成,并于2026-03-04向国家知识产权局提交的专利申请。
本基于反馈学习的自适应大模型提示攻击与安全评估方法在说明书摘要公布了:本发明提供了一种基于反馈学习的自适应大模型提示攻击与安全评估方法,属于人工智能安全技术领域。该方法包括:构建含多种文本变换攻击策略的攻击库,获取攻击策略在目标模型上的表现数据;再通过数据计算成功率、平均评分及攻击策略的R值、Q值,按Q值降序选取最优攻击策略;将该策略应用于原始恶意提示生成对抗性输入,提交至目标模型后通过预训练评估模型评分判断攻击是否成功,失败则重新选策略,成功则更新统计数据并重新计算评分,按Q值迭代尝试策略直至满足预设条件;最后记录测试过程并生成报告。本方法实现了对大模型的安全评估,提升了攻击测试的成功率与效率,为大模型防御机制设计提供了实证依据,保障大模型的应用安全。
本发明授权基于反馈学习的自适应大模型提示攻击与安全评估方法在权利要求书中公布了:1.一种基于反馈学习的自适应大模型提示攻击与安全评估方法,其特征在于,所述方法包括: S1.构建包含多种文本变换攻击策略的攻击库,获取攻击策略在目标模型上的表现数据; S2.通过表现数据计算成功率和平均评分,采用加权评分计算每个攻击策略的R值,基于R值,累计计算每个攻击策略的Q值; S3.对所有攻击策略按对应的Q值进行降序排序,获取Q值最高的攻击策略; S4.将攻击策略应用于原始恶意提示,生成对抗性输入,将对抗性输入提交给目标模型,获取目标模型响应,通过预训练的评估模型对目标模型进行自动化评分,判断攻击是否成功,若是,进入步骤S5,若否,返回步骤S3; S5.根据攻击结果,更新攻击策略在目标模型上的统计数据,重新计算该攻击策略的R值和Q值,按照Q值排序依次尝试攻击策略,直至满足预设条件; S6.记录完整测试过程,生成测试报告; 步骤S4的具体步骤包括: S41.对于选择的攻击策略,应用于原始恶意提示p,生成对抗性输入=p,将对抗性输入提交给目标模型,获取模型响应r; S42.调用预训练的评估模型E对模型响应进行自动化评分: Score=Ep,,r; 同时采用基于规则的关键词匹配方法进行辅助判断: =anyk∈rfork∈; 其中,为布尔型判断结果变量,用于标识目标模型的响应是否触发了预设的拒绝机制;any为逻辑判断函数,用于判断集合中是否存在至少一个元素满足后续条件;k为遍历变量,为预设的拒绝关键词集合; 最终攻击成功判断条件为: success=score≥θ∧notisrejected; 其中,θ为预设的成功阈值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心),其通讯地址为:250000 山东省济南市长清区西部新城大学科技园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励