西藏查瓦云科技有限责任公司欧珠获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉西藏查瓦云科技有限责任公司申请的专利基于人工智能的复杂场景文本识别增强方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121330698B 。
龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511720544.X,技术领域涉及:G06V30/19;该发明授权基于人工智能的复杂场景文本识别增强方法是由欧珠;边巴卓玛;丹增阿旺;谢志东设计研发完成,并于2025-11-21向国家知识产权局提交的专利申请。
本基于人工智能的复杂场景文本识别增强方法在说明书摘要公布了:本发明涉及计算机视觉领域,具体是指基于人工智能的复杂场景文本识别增强方法,包括复杂场景文本图像构建划分、条件特征融合、对比学习优化潜在空间表示、解码重构、损失函数优化、潜变量提取与增强特征输出、强化学习优化和最终识别输出,引入变分自编码器结构,结合对比学习优化潜在空间表示,使得模型能够在多种字体、光照和噪声条件下学习到具有判别性的潜变量表示,在潜变量空间中引入正负样本对比约束,降低不同场景下特征分布差异;本发明在复杂场景文本识别中引入强化学习框架,将识别结果与置信度作为状态输入,通过Actor–Critic结构策略网络学习动态增强策略,通过定义线性与非线性复合奖励函数,实现识别错误率与置信度提升的联合优化。
本发明授权基于人工智能的复杂场景文本识别增强方法在权利要求书中公布了:1.基于人工智能的复杂场景文本识别增强方法,其特征在于:该方法包括以下步骤: 步骤S1:复杂场景文本图像构建划分,采集复杂场景文本图像,进行滑动窗口划分,得到窗口图像样本,对每个窗口图像样本标注文本区域条件标签; 步骤S2:条件特征融合,将窗口图像样本和文本区域条件标签输入编码器网络,所述编码器网络包括特征提取单元、时序编码层、条件融合单元和参数输出头,具体包括以下内容: 特征提取单元采用卷积神经网络结构,对输入的窗口图像样本进行多尺度特征提取,得到高维视觉特征向量集; 时序编码层用于对高维视觉特征向量集进行序列化建模,通过自注意力机制捕获空间依赖关系,输出序列上下文特征表示; 条件融合单元将序列上下文特征和对应的文本区域条件标签进行融合,得到联合特征表示; 参数输出头构建变分后验近似分布; 步骤S3:对比学习优化潜在空间表示,引入对比学习机制,在对比学习训练过程中,从窗口图像样本中每次选取一个作为锚样本,定义与锚样本具有相同文本区域条件标签的窗口图像样本作为正样本,与锚样本具有不同文本区域条件标签的窗口图像样本作为负样本,构建基于潜在表示的对比损失函数; 步骤S4:解码重构,设定解码器网络为VAE解码器,在窗口图像样本的潜变量向量和文本区域条件标签的条件下,解码器网络对窗口图像样本进行重建,得到重建样本,通过最小化输入样本与重建样本之间的误差,定义重建损失函数; 步骤S5:损失函数优化,结合重建损失函数、KL散度正则项和基于潜在表示的对比损失函数,构建联合优化目标函数; 步骤S6:潜变量提取与增强特征输出,训练完成后,从编码器网络中提取潜变量分布参数,使用重参数化技巧采样得到可导潜变量向量,结合文本区域条件标签输入解码器网络中,得到复杂场景文本图像的增强特征表示,将增强特征表示输入CTC解码器,得到识别结果和识别置信度指标; 步骤S7:强化学习优化,使用识别结果和识别置信度指标作为输入状态,构建深度强化学习策略网络,通过交互式训练学习最优识别增强与策略调优机制,得到强化学习决策输出结果; 步骤S8:最终识别输出,根据强化学习决策输出结果对复杂场景文本图像进行增强特征调整和解码器优化,得到最终文本识别结果和置信度指标。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人西藏查瓦云科技有限责任公司,其通讯地址为:850000 西藏自治区拉萨市柳梧新区国际总部城众创空间12栋6层02号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励