辽宁石油化工大学施惠元获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉辽宁石油化工大学申请的专利具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116719237B 。
龙图腾网通过国家知识产权局官网在2026-04-10发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310763851.0,技术领域涉及:G05B13/04;该发明授权具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法是由施惠元;高维;吕梦迪;姜雪莹;苏成利;肖默涵;李平设计研发完成,并于2023-06-27向国家知识产权局提交的专利申请。
本具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法在说明书摘要公布了:具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法,属于工业过程控制技术领域,该方法克服了传统控制方法中系统动态参数时变性的限制,具体的步骤如下:步骤一:描述了时滞间歇过程的状态空间表达形式,在此基础上建立了一个由状态增量和输出误差组成的新的系统模型;步骤二:引入时滞性能指标函数,设计了一种在具有时滞环境下能抵制部分执行器失效的控制律;步骤三:提出了具有执行器故障的非策略Q学习算法,通过不断迭代学习求解最优控制增益矩阵;此方法能够有效地处理在具有状态时滞的注塑成型过程中存在建模困难和具有重复性等复杂特性的难题,通过基于数据的方式,很好地降低了系统依赖于模型这一难点,也降低了计算的成本。
本发明授权具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法在权利要求书中公布了:1.具有执行器故障的时滞间歇过程Q学习最优跟踪控制方法,具体步骤如下: 步骤一:描述了时滞间歇过程的状态空间表达形式,在此基础上建立了一个由状态增量和输出误差组成的新的系统模型; 首先,考虑一类具有状态时滞的间歇过程: 其中,表示时间,,和分别表示系统状态,系统输出,控制输入,表示滞后时间,,,,表示维数适当的系统矩阵,表示为实数矩阵,,和表示为实数矩阵的适当维数; 根据1式,设计如下迭代学习控制律形式: 其中,是时刻与时刻的控制输入之差; 对于期望输出轨迹,在时刻的跟踪误差变量和状态误差变量,在时刻的状态误差变量分别可以表示为: 其中,,,和分别代表时刻,时刻,时刻和时刻的状态变量; 根据1至5式,可推导出一个新的增广模型如下: 其中,,,,,,,,和是维数适当的相关矩阵,,和分别是新的系统模型在时刻的状态变量,在时刻的状态变量和时刻的控制输入,表示为实数矩阵,表示为实数矩阵的适当维数; 当执行器发生故障的时候,系统的控制输入并不是总能达到期望值;对于执行器故障的情况,主要是分为三种情况:部分失效故障,停机故障和卡死故障;通过研究部分执行器故障的现象,定义的取值范围来表示不同情况的故障类型,并采用故障模型为: 其中,,,,,,表示执行器故障的下限,表示执行器故障的上限,可见,为执行器正常情况,为执行器完全失效的情况,且为执行器部分失效的情况; 那么公式6可以改写为: 步骤二:引入时滞性能指标函数,设计了一种在具有时滞环境下能抵制部分执行器失效的控制律; 根据以上对具有执行器故障的时滞间歇过程的描述,可以设计如下的性能指标; 其中,和分别是状态和的权重矩阵,为正定矩阵,表示控制变量权重; 通过找到最优的控制策略,以保证系统输出能够跟踪上理想的参考轨迹;因此,控制策略可以表示为: 其中,表示当前时刻状态相关的控制增益,表示滞后状态相关的控制增益; 对比值函数,可以设计Q函数如下所示: 当控制器策略最优时,通过对比值函数与Q函数,可以推导值函数与Q函数是相等,如式12: 其中,表示当前时刻增量的最优控制策略; 定义如下二次函数: 其中,,,表示当前时刻状态相关的正定矩阵,表示滞后状态相关的正定矩阵,表示滞后增量状态相关的正定矩阵,,; 当控制器策略最优时,最优时滞值函数的二次形式可以被描述为: 其中,,,,,,,; 与时滞值函数相似,时滞Q函数可以二次型的表达式表示为如下: 因此,根据式14和式15之间的关系,可以得出矩阵与矩阵之间的关系如下: 通过分析矩阵和矩阵之间的关系,将扩展后的时滞状态空间方程式8代入式11和式15,矩阵可以被表示为: 其中,,,,,,,表示对称位置的转置值,为了简化表达,在矩阵的各个分量的下角标中,用表示,用表示;其中,; 步骤三:提出了具有执行器故障的非策略Q学习算法,通过不断迭代学习求解最优控制增益矩阵; 采用动态规划方法,由式11、12和15得到基于最优Q函数的贝尔曼方程; 为了便于表述,将贝尔曼方程进一步化简为如下形式: 为了能够充分利用以前学习的数据,在时滞系统中引入了辅助变量从而得到新的时滞状态空间方程为: 其中,,,,是行为策略,用于生成系统数据,是目标策略,通过使用行为策略生成的数据不断优化和更新,使目标策略收敛到最优值; 将式20代入到式18可得: 其中,; 根据式20和式21,可进一步求得 22 根据式22可以得到化简之后的最优贝尔曼方程如下所示: 根据克罗内克积的表达式,式23可以改写为: 其中, 通过上述计算,获得的控制器增益矩阵如下所示: 该算法通过注塑成型过程中产生的数据进行多次学习后,可获得注塑成型过程的最优控制器增益,通过控制器增益可得到性能指标下的最优控制律,随后作用于执行器控制系统可使系统的输出逐渐跟踪上设定值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人辽宁石油化工大学,其通讯地址为:113000 辽宁省抚顺市望花区丹东路西段一号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励