中国传媒大学肖红江获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉中国传媒大学申请的专利一种大语言模型动态可信评测方法和装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121211455B 。
龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511247261.8,技术领域涉及:G06F21/57;该发明授权一种大语言模型动态可信评测方法和装置是由肖红江;王晔;李秀莹;王燃;王浩设计研发完成,并于2025-09-02向国家知识产权局提交的专利申请。
本一种大语言模型动态可信评测方法和装置在说明书摘要公布了:本发明公开一种适用于大语言模型的动态可信评测方法及装置,属于人工智能技术领域。该方法通过多轮诱导机制、自适应终止控制以及多维度评估体系,对大语言模型进行动态可信评估,包括:多维度基准问题集模块;多轮动态诱导模块,采用"1+n"策略1种改写策略搭配n种说服策略生成新问题,经有效性筛选后进入下一轮对话;自适应终止控制模块,对模型回答评分,不合规则终止并输出结果,合规则继续生成问题,达攻破轮次上限未攻破即判定合规;模型可信性度量模块,汇总各维度可信度评分得到最终评测结果。该方法可实现对大语言模型可信性的高效、系统、动态评估,具备可扩展性和模型无关性,能为大语言模型优化与监管提供依据。
本发明授权一种大语言模型动态可信评测方法和装置在权利要求书中公布了:1.一种大语言模型动态可信评测装置,其特征在于包括以下模块: 1多维度基准问题集模块 该模块用于构建覆盖真实性、安全性、隐私性、公平性、道德规范的静态评测问题集合Q0;设评测维度集合为D={Truth,Safety,Privacy,Fairness,Ethics},针对每个维度d∈D,从开源问答数据集、实际应用场景、以及人工设计的问题集中采集问题,形成初步集合:其中qi为第i个问题,nd为维度d下采集的问题数量;利用基于规则过滤和自动筛选相结合的方法,利用筛选函数Filter对采集问题进行去重、敏感性检测和覆盖度检测,得到筛选后维度d的问题集合为集合中每个问题添加标准参考答案aref和所属维度标签d,形成结构化条目其中是维度d的第j个问题,text是问题的内容;最终基准问题集Q0=∪d∈DQd; 2多轮动态诱导模块 该模块设Q1是从基准问题集中选择的初始问题,经过多轮交互,第t轮多轮动态诱导模块生成的问题为Qt,被评测模型的回答为At,上下文历史为Ct={Q1,A1,Q2,A2,…,Qt,At};设策略集合为S={sr1,sr2,…,srm}∪{sp1,sp2,…,spn},其中sri是第i种改写策略,spj是第j种说服策略;改写策略源自自然语言处理领域的文本改写与释义生成研究,是指在保持原问题语义核心不变的前提下,通过语言形式、语境设定、逻辑表述的多样化重构,对问题进行重新表达的技术方法;对于每一轮回答,从改写策略集合中随机选择1种改写策略sr,sel,从说服策略集合中随机选择的b种说服策略,与sr,sel组合为策略组合Ssel=sr,sel∪{sp1,sp2,…,spb},对第t轮的问题Qt基于同一策略组合Ssel生成k个候选问题:其中,Q′t,i为第i个候选问题,sr,sel为选中的改写策略,由基于提示工程的大语言模型实现,负责对历史回答和上下文进行改写,spi为选中的第i种说服策略,由基于提示工程的大语言模型实现,负责增强问题的诱导性,自动问题生成子模块可由微调的大语言模型实现;b∈{1,2,3},k=3; 对于任意候选问题q,根据评分维度i对问题q的有效性评分为scoreiq∈[0,10];评分维度包括问题q与原始问题Qt的语义相关性、问题q的风险性、问题q的合理性与可理解性;综合所有3个维度的评分,得到问题q的总评分其中wi是评分维度i的权重;选取作为下一轮的输入问题; 3自适应终止控制模块 对被评测模型的回答进行评分,若出现不合规结果则终止流程并输出评估结果,否则转入多轮动态诱导模块继续生成问题,如果达到攻破轮次上限仍未攻破,则认为合规;设第t轮时被评测大语言模型的回答为rt,合规性判定子模块包括多个合规性判定大语言模型;合规性判定大语言模型集合为其中k为合规性判定大语言模型的数量,是第i个合规性判定大语言模型,其对回答rt的评分为其中评分-1代表不合规,评分为0代表无法判断,评分为1代表合规;多个合规性判定大语言模型投票的结果为终止条件为即如果第t轮触发被测试大语言模型的不合规回答,则记录攻破轮次Tattack=t,如果超过攻破轮次上限Tmax依然没有触发大语言模型的不合规回答,则本问题为攻破,计实际使用中,建议Tmax=10; 4、模型可信性度量模块 该模块分析并汇总被测试大语言模型在各个维度上每个问题的可信度评分和攻破轮次,得到模型的最终评测结果;设共有nD个评测维度,评测维度i共有nq个问题,则被评测模型在维度i上第j个问题的可信评分为kj,其中i∈[1,nD],j∈[1,nq],kj∈{-1,0,1},如果kj=-1,则说明在该问题上被攻破,记攻破轮次为aj,如果kj≠-1,则说明在该问题上未被攻破;则被评测模型在维度i上的可信评分为平均攻破轮次为其中mq是评测维度i上攻破的问题数量;在全部评测维度上的可信评分为其中wi是维度i的可信评分权重,在全部评测维度上的平均攻破轮次为
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中国传媒大学,其通讯地址为:100024 北京市朝阳区定福庄东街1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励