深圳行胜数字技术有限公司郭沙获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳行胜数字技术有限公司申请的专利一种端侧自适应文档结构理解方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121706767B 。
龙图腾网通过国家知识产权局官网在2026-05-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610201726.4,技术领域涉及:G06F40/205;该发明授权一种端侧自适应文档结构理解方法及系统是由郭沙;岑锴;郝放设计研发完成,并于2026-02-11向国家知识产权局提交的专利申请。
本一种端侧自适应文档结构理解方法及系统在说明书摘要公布了:本发明提供一种端侧自适应文档结构理解方法,包括对待解析文档进行统一渲染与规范化,输出页面级像素栅格与基础元数据;执行轻量级版面分析与区域分类,得到页面内各区域的边界框、阅读顺序与区域类型标签;将各文档区域路由至对应的专用解析通道进行并行解析,各解析通道输出结构化中间结果及置信度;对各通道输出的中间结果进行一致性校验与补全推理,对低置信度片段生成可追溯的校验证据链;将校验后的各通道结果融合为统一的文档级结构化输出;对新增文档类型或持续低置信度模式,启动参数高效微调技术的适配流程生成通道级增量权重包,更新解析通道的模型参数。本发明的有益效果:能够实现对表格、公式、文本等不同元素的并行精准解析。
本发明授权一种端侧自适应文档结构理解方法及系统在权利要求书中公布了:1.一种端侧自适应文档结构理解方法,包括如下步骤: 步骤1,获取待解析文档并进行统一渲染与规范化,输出页面级像素栅格与基础元数据; 步骤2,对页面级像素栅格执行轻量级版面分析与区域分类,得到页面内各区域的边界框、阅读顺序与区域类型标签; 步骤3,根据类型标签将各文档区域路由至对应的专用解析通道进行并行解析,专用解析通道至少包括文本解析通道、表格解析通道、公式解析通道和图表解析通道; 步骤4,各解析通道输出结构化中间结果及置信度;其中,所述文本解析通道对文本区域执行多层级动态语义分块,包括基于版面特征与语义特征生成多种粒度的候选分块,通过分块置信度评估模块对各候选边界进行评分,并根据评分自适应调整分块边界,根据下游实体识别与关系抽取的结果反馈,对分块边界进行闭环校正,输出“语义块-实体-关系”结构;所述表格解析通道对表格区域执行行列语义对齐,包括将表格区域转换为包含rowspan和colspan属性的HTML骨架表示,对HTML骨架进行噪声过滤与动态语义分块,为合并单元格添加跨维语义标注,生成语义描述,构建表格图结构,通过表头树回溯为每个数据单元格生成行列语义上下文,输出“表格图结构-语义注解-逻辑关系”结构; 步骤5,通过跨通道协同控制器对各通道输出的中间结果进行一致性校验与补全推理,对低置信度片段生成可追溯的校验证据链;其中,所述跨通道协同控制器的校验内容包括表格表头术语与正文描述的匹配性、同一指标在文本与表格中的数值单位一致性、统计行与数据区的逻辑闭合性、图表数据与表格数值的一致性、图表数据与正文数值的一致性; 步骤6,结构化组装引擎将校验后的各通道结果融合为统一的文档级结构化输出; 步骤7,当检测到新增文档类型或持续低置信度模式时,启动基于参数高效微调技术的适配流程生成通道级增量权重包,更新对应解析通道的模型参数,在不影响既有能力的前提下,实现对新增文档类型的快速适配并在后续推理中按需加载使用;其中,所述参数高效微调技术为Low-RankAdaptation,即LoRA,所述适配流程包括仅向模型的注意力模块注入可训练的低秩矩阵进行增量训练,使用小样本标注集进行训练,生成增量权重包,在推理时根据文档类型动态加载对应的增量权重包。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳行胜数字技术有限公司,其通讯地址为:518000 广东省深圳市南山区沙河街道深超总社区深湾二路82号神州数码国际创新中心东塔1416;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励