Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 中华人民共和国南京海关朱立平获国家专利权

中华人民共和国南京海关朱立平获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉中华人民共和国南京海关申请的专利一种不规则排版发票单据布局预测方法、装置及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115205877B

龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210669299.4,技术领域涉及:G06V30/412;该发明授权一种不规则排版发票单据布局预测方法、装置及存储介质是由朱立平;易欣;徐倩设计研发完成,并于2022-06-14向国家知识产权局提交的专利申请。

一种不规则排版发票单据布局预测方法、装置及存储介质在说明书摘要公布了:本发明公开了一种不规则排版发票单据版面布局预测方法、预测装置及存储介质,不规则排版发票单据版面布局预测方法包括:利用扫描仪或相机采集不规则排版单据信息;将采集到的不规则排版单据信息进行标注并将已标注数据划分为训练集与测试集;使用训练集训练得到版面布局预测模型;使用测试集测试版面布局预测模型的效果,根据测试效果调整模型的超参数,直至获得理想的模型通过预测模型预测不规则排版发票单据版面布局。本发明优点在于结合不规则排版发票单据的高维视觉特征、低维视觉随机变化和语义特征对其进行版面布局预测,弥补了传统版面分析语义信息少、视觉语义融合简单的问题,提高了对布局不规则发票版面分析的精度。

本发明授权一种不规则排版发票单据布局预测方法、装置及存储介质在权利要求书中公布了:1.一种不规则排版发票单据版面布局预测方法,其特征在于,包括: 步骤1:采集不规则排版单据信息; 步骤2:对采集到的不规则排版单据信息进行标注,并将标注的数据分为训练集和测试集;其中,标注的每组数据包括文字标注信息、文字框选信息及图像信息; 步骤3:使用训练集训练得到版面布局预测模型:将文档图像和文本嵌入分别作为视觉模块和语义模块的输入,其中视觉模块使用不同规模卷积神经网络主干提取高低维度视觉特征;语意模块提取多尺度文档语义特征;通过关系特征聚合模块,将视觉特征和语义特征结合起来学习一个多模态特征图,得到语义标签和坐标; 步骤4:使用测试集测试版面布局预测模型的效果,根据测试效果调整版面布局预测模型的超参数,重复步骤3,直至获得满足测试效果的版面布局预测模型; 步骤5:通过版面布局预测模型预测不规则排版发票单据语义标签从而得到对应的版面布局; 所述步骤3,包括: 步骤3-1:训练集中文档图像作为视觉模块输入,输入图像使用其中不同尺度的卷积神经网络提取多维度视觉特征,不同维度特征表示为S1,S2,S3,…Si…, 其中,i表示第i维度,H表示输入图像x高度,W表示输入图像x宽度,表示特征图Si的通道维度,且S0=x; 步骤3-2:语义模块将文本嵌入映射作为输入引入文档语义,T0与文档图像x具有相同的空间大小,表示初始通道尺寸; 文档页面的字符表示为句子表示为其中n和m分别是字符和句子的总数;ck和是第k个字符及其关联框,其中x0,y0和x1,y1是左上和右下像素坐标;sk和是第k个句子及其关联框,由卷积神经网络中的ConvNet得到多维度文档语义特征W1,W2,W3,…Wi…; 步骤3-3:将视觉特征S1,S2,S3,…和语义特征W1,W2,W3,…,利用注意力机制连接起来,作为卷积层输入学习得到聚合视觉与语义的多模态特征MFi;使用标准对象检测或分割模型MaskRCNN在文档中生成候选组件;使用图形神经网络来建模组件关系以及优化预测结果; 步骤3-4:计算两部分损失LΘ=Lcls+λLgen,语义标签的交叉熵损失作为分类损失Lcls,平滑L1损失作为坐标回归损失Lgen; 步骤3-5:反向传播,使用随机梯度下降法对模型参数Θ进行优化; 步骤3-6:读取下一组序列的文档图像和文本嵌入信息,跳转步骤3-1,直至将训练集中的数据读取完; 步骤3-7:重复执行步骤3-1至3-6并持续对模型参数Θ进行优化,直至使LΘ下降到设定的数量级; 所述步骤3-3,包括: 不同维度视觉特征Si和语义特征和Wi作为注意力机制模块的输入,将两种模态特征连接起来并将其送入卷积层获得多模态特征MFi,计算公式如67所示: Atti=MultiAtt[Si,Wi]6 MFi=Atti⊙Si+1-Atti⊙Wi7 其中,[·,·]表示级联操作,MultiAtt·表示一个多头注意力模块,⊙表示元素对乘法; 通过聚合视觉和语义特征生成一组融合的多模态特征MFi;然后使用图形神经网络来建模组件关系; 文档表示为图的形式G=O,E,其中O={o1,o2,...,on}表示点集,E表示边集,每个节点表示之前由对象检测模型生成的候选组件,每条边表示两个候选组件之间的关系, 每个节点表示为oj=lj,fj,包括位置坐标lj和深度特征fj=RoIAlignMF,lj,构造整合两种信息的新的节点特征表示zj,计算公式如8所示: 其中,表示第j个节点的位置嵌入向量; 对节点应用自注意力机制学习节点间的关系,更新后的节点特征为z′j,对第j个节点的检测结果进行优化得到计算公式如910所示: 式中,为属于第c类的概率,是其精确回归坐标,Linearreg和Linearcls是投影层,GNN对标记之间的成对关系进行建模,并预测它们的语义标签。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人中华人民共和国南京海关,其通讯地址为:210000 江苏省南京市秦淮区龙蟠中路360号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。