齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心)王鑫获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心)申请的专利基于动态多目标优化的模型安全可用性联合评估方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121658349B 。
龙图腾网通过国家知识产权局官网在2026-04-24发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610156428.8,技术领域涉及:G06F11/3604;该发明授权基于动态多目标优化的模型安全可用性联合评估方法是由王鑫;刘玉猛;杨小康;杨明;吴晓明;穆超;贺云鹏;刘臣胜;陈振娅设计研发完成,并于2026-02-04向国家知识产权局提交的专利申请。
本基于动态多目标优化的模型安全可用性联合评估方法在说明书摘要公布了:本发明涉及人工智能安全与自然语言处理技术领域,尤其是提供了基于动态多目标优化的模型安全可用性联合评估方法。该方法包括利用本地参考模型提供的优化信号,对测试后缀进行迭代更新,生成评测样本;将本地基于参考模型优化完成的评测样本,应用于待测目标模型环境进行验证与评估,该方法解决了评测目标覆盖不足、样本自然性与场景一致性较弱的问题。
本发明授权基于动态多目标优化的模型安全可用性联合评估方法在权利要求书中公布了:1.一种基于动态多目标优化的模型安全可用性联合评估方法,其特征在于,所述方法包括: 步骤1、利用本地参考模型提供的优化信号,对测试后缀进行迭代更新,生成评测样本; 步骤2、将本地基于参考模型优化完成的评测样本,应用于待测目标模型环境进行验证与评估; 所述步骤1之前包括: 步骤a、初始化与输入构建:接收待测指令与初始测试后缀,并将其作为后续迭代优化的输入基础;其中通过随机采样或占位符序列初始化,长度按预设Token数设定; 步骤b、模型适配与参考模型加载:根据待测模型的标识信息,按预置映射规则加载结构特征相匹配的本地参考模型,以生成梯度相关的优化信号;若结构特征无法识别,则加载通用参考模型,并将Token序列反解码为可打印文本字符串,通过接口调用方式完成适配评测; 所述步骤2包括: 步骤21、迁移测试实施:将待测指令与最终优化后的测试后缀,作为最终指令输入待测目标模型; 同源特征映射:当参考模型与待测目标模型在结构特征或训练范式上具有一致性时,最终优化后的测试后缀在相似模型类型上表现出好的适用性,从而在不获取待测目标模型梯度的前提下,对其策略边界响应与可用性压力特征进行评测验证; 双模式调用执行:根据部署环境自适应选择执行路径,针对本地部署的待测目标模型,直接实例化推理引擎进行调用;针对远程服务形态的待测目标模型,通过标准化API接口进行交互调用;两种模式均以输入输出为依据进行评测判定,以客观验证所生成测试后缀在不同部署形态下的适用性与评测效能; 步骤22、评估判定结果:根据待测目标模型的响应内容与运行表现进行分类判定; 内容安全合规性边界触发判定:若响应内容包含预设的目标前缀集合,则判定当前待测指令满足内容安全策略边界触发条件; 超长文本生成:若响应内容的生成长度大于预设阈值,或响应时延达到设定门限,则判定当前输入满足可用性压力评测条件; 所述步骤1包括: 步骤11、模型响应生成; 在第次迭代中,将待测指令与当前测试后缀进行拼接,构建输入序列;将序列输入当前加载的本地参考模型执行前向传播,生成候选回复文本,其表达式为: ; 其中,表示参数为的本地参考模型在给定输入条件下的条件概率分布;若本地参考模型与待测目标模型在结构特征或训练范式上具有一致性,则作为待测目标模型响应分布的参考近似,用于驱动后续的指标计算与测试后缀更新过程; 步骤12、多维效用指标的归一化计算与动态聚合; 引入归一化映射机制,将各子指标映射至[0,1]区间,并结合课程学习策略进行动态聚合; A、边界触发置信度指标的概率化计算; 置信度指标用于量化模型生成预设目标肯定前缀的几何平均置信度;为将对数概率域的结果映射为标准化概率值,采用指数转化公式: ; 其中,表示预设目标肯定前缀的Token序列长度;表示目标肯定前缀序列中的第个Token;表示待测指令;表示当前第轮的测试后缀;表示参数为的本地参考模型在给定输入条件下的条件概率分布; B、响应长度指标的截断式计算; 设定一个目标长度阈值L_target,采用截断归一化公式: ; 其中,表示模型实际生成的回复文本的Token总数;表示预设的高负载长度阈值;表示截断函数; C、自然度与场景一致性指标的复合计算; 构建复合维度的指标,计算公式如下: ; 其中,通顺度项基于困惑度PPL计算,用于约束后缀符合自然语言的基本语法规律;风格相似度项中表示风格语料库,表示生成的后缀与风格语料库在嵌入空间中的余弦相似度,用于引导后缀保持目标场景的语体与语义特征;为平衡系数,用于调节两者之间的权重; D、基于课程学习的综合效用聚合; 基于归一化指标,计算当前迭代的综合效用: ; 其中,分别表示第轮迭代时各指标的动态权重系数,且满足归一化约束:; E、动态权重调整策略; 设计基于课程学习的分阶段动态权重调度机制,随着迭代轮次的增加,权重系数按如下策略演变: 阶段1:边界触发搜索期;当且时,采用极化权重以优先提升边界触发置信度指标,阶段1的目标是使上升并达到阈值邻域,以获得满足触发条件的测试后缀; 阶段2:负载增强与样本质量保持期; 当满足以下任一条件时触发阶段切换: 1;2; 进入阶段2后,将权重切换为均衡分配,在保持大于或等于的条件下,提升响应长度指标与自然度与场景一致性指标,其中为容忍带,范围为0.02–0.10; 若阶段2过程中检测到,则临时提高或回退至阶段1,以维持评测样本持续满足边界触发条件; 步骤13、基于梯度估算的策略更新; Ⅰ、优势值估算: 为了降低方差,计算当前迭代的优势值: ; 其中,为历史效用的移动平均基线Baseline; Ⅱ、原始梯度计算: 利用本地参考模型提供的梯度信息,对用于边界判定的目标前缀序列TargetPrefix,在当前输入条件下的对数概率进行梯度估计,并将其作为测试后缀在嵌入空间中的更新方向信号: ; 其中,TargetPrefix为回复文本的前个Token子序列; Ⅲ、梯度缩放: 利用优势值标量对原始梯度向量进行加权缩放: ; 其中,负号-表示朝着最小化损失、最大化效用的方向更新; Ⅳ、掩码过滤运算Mask⊙Scaled_Grad: 构建二值化词汇表掩码矩阵Mask,并对更新方向进行筛选约束:基于通用或领域语料库进行词频统计,设定频率截断阈值;同时结合目标语种字符集合进行过滤,将不满足词频或字符规则的Token对应位置置为0,其余置为1;随后执行掩码过滤,通过逐元素相乘抑制指向非期望词元的梯度分量,使测试后缀更新符合预设的文本质量与风格约束; 步骤14、后缀变异与候选生成; 基于经过掩码过滤后的最终梯度,对当前测试后缀进行更新:计算每个Token位置上替换为词表中其他候选词的预计梯度收益;选取收益最大的Top-k个候选词进行采样替换,生成下一时刻的测试后缀;将更新后的测试后缀回传至输入端,进入下一轮迭代; 步骤15、迭代判定; 检查是否满足终止条件:若未满足,继续循环上述步骤;若满足,则输出最终优化后的测试后缀。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人齐鲁工业大学(山东省科学院);山东省计算中心(国家超级计算济南中心),其通讯地址为:250000 山东省济南市长清区西部新城大学科技园;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励