Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 郑州大学叶正梗获国家专利权

郑州大学叶正梗获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉郑州大学申请的专利基于深度强化学习的制造网络维修-检测联合优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116384969B

龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310333773.0,技术领域涉及:G06Q10/20;该发明授权基于深度强化学习的制造网络维修-检测联合优化方法是由叶正梗;蔡志强;司书宾;王鑫;柯勇伟;李丁林;周福礼设计研发完成,并于2023-03-30向国家知识产权局提交的专利申请。

基于深度强化学习的制造网络维修-检测联合优化方法在说明书摘要公布了:本发明提出了一种基于深度强化学习的制造网络维修‑检测联合优化方法,其步骤为:首先,对于机器层面,在考虑机器故障停机导致的动态生产速度的情况下,构建了考虑进料质量影响的机器可靠性模型和考虑机器可靠性影响的加工质量模型;其次,基于可靠性模型和质量模型对制造网络状态和性能进行系统评估;并搭建制造网络维修和质量检测联合优化模型;最后,在系统层面,以制造网络的经济运行作为策略评价的标准,通过设计的一种深度确定性策略梯度算法学习给定制造网络状态下质量检测与维修的最优策略。本发明可以很好地平衡制造网络的经济收益和运行风险之间的矛盾,对动态和多样化的制造场景具有更好的适应性。

本发明授权基于深度强化学习的制造网络维修-检测联合优化方法在权利要求书中公布了:1.一种基于深度强化学习的制造网络维修-检测联合优化方法,其特征在于,其步骤如下: 步骤一:对于机器层面,在考虑机器故障停机导致的动态生产速度的情况下,构建了考虑进料质量影响的机器可靠性模型和考虑机器可靠性影响的加工质量模型; 步骤二:基于可靠性模型和质量模型对制造网络状态和性能进行系统评估;评估方法为: 对于有n台机器的制造网络,构造状态矩阵表示t时刻的状态: ; 其中,,为每台机器在时间内的质量状态;表示机器在t时刻的退化状态,是机器在t时刻的健康状态,中的1表示机器的故障状态,0表示机器的无故障状态;表示机器在t时刻的空闲状态,中的1表示空闲状态,0表示工作状态; 定义奖励为制造网络在时间内从状态过渡到的过程中所带来的净收益: ; 其中,是节点i对应的机器的总检测成本,是节点i对应的机器的总维修成本,是维修和检测行为的决策成本; 为了评估在时间内从状态到的累积性能,将收益定义为制造网络的长期回报,通过累积奖励计算获得: ; 其中,; 并搭建制造网络维修和质量检测联合优化模型;具体方法为: 将质量检测和预防性维修视为动作,记为,其中,为质量检测动作,为预防性维修动作;在时制造网络中所有机器的动作取决于状态,因此记为,其中π·表示策略函数: 其中,表示最优策略函数,表示在状态SK、采取AK动作时的长期回报函数; 在最优策略下,价值函数和Q函数满足: ; 其中,表示在状态SK时的最大长期回报; 步骤三:在系统层面,以制造网络的经济运行作为策略评价的标准,通过设计的一种深度确定性策略梯度算法学习给定制造网络状态下质量检测与维修的最优策略;具体方法为: Step1:执行当前各动作,模拟制造网络在时间内的运行,其中; Step1.1:评估时刻制造网络的状态:在学习环境中,基于提出的动态可靠性和质量模型,评估时刻的机器状态,然后评估时刻制造网络的状态SK,使状态SK作为制造网络的一次观测提供给Agent; Step1.2:基于当前策略函数πS生成动作:一个动作能够通过向Actor网络输入状态SK获得,DDPG算法通过添加一个服从正态分布的随机噪声Nr,尝试可容许的动作来探索更好的策略,即;然后,根据预防性维修准则cd,将预防性维修动作转换为离散的可执行动作{0,1},其中0表示不执行预防性维修,1表示执行预防性维修; Step1.3:执行动作,模拟制造网络在时间内的运行:在得到时刻的动作AK后,在后续操作期间相应机器的质量检测将会立即采用新的抽样比例;同时,在相应的机器上执行预防性维修动作,预防性维修的时间tpm由正态分布得到;如果机器在时期发生故障,则在故障发生时立即执行一次纠正性维修,纠正性维修时间tcm由正态分布获得; Step1.4:评估奖励rK:计算奖励,并且更新;如果,返回至步骤Step1.1;否则,执行步骤Step2; Step2:获取状态转移记录:在时间的运行后,获得长期回报GK;根据步骤Step1.1的方法,得到时的状态;然后,获得状态转移记录存储在经验缓冲区中; Step3:更新Actor网络和Critic网络:从经验缓冲区中随机抽取一个小批量的M条转移记录,从而更新Actor网络μS和Critic网络QS,A;此时,经验缓冲区的最大存储量为L,当转移记录数量达到L后,丢弃最早的记录; Step4:判断结束条件:如果训练次数Episode达到预定的最大训练次数或获得稳定的长期回报GK,则停止训练;否则将更新仿真时期:,并回到步骤Step1。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人郑州大学,其通讯地址为:450001 河南省郑州市高新区科学大道100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。