Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 皇虎测试科技(深圳)有限公司董伟获国家专利权

皇虎测试科技(深圳)有限公司董伟获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉皇虎测试科技(深圳)有限公司申请的专利用于模型训练的PDF文档的表格抽取重构方法及可读存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121706729B

龙图腾网通过国家知识产权局官网在2026-04-21发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610182797.4,技术领域涉及:G06F40/151;该发明授权用于模型训练的PDF文档的表格抽取重构方法及可读存储介质是由董伟设计研发完成,并于2026-02-09向国家知识产权局提交的专利申请。

用于模型训练的PDF文档的表格抽取重构方法及可读存储介质在说明书摘要公布了:本发明提供了一种用于模型训练的PDF文档的表格抽取重构方法及可读存储介质,属于文档数据处理技术领域。该方法包括:对文档进行解析,识别并定位文本区与表格区;对表格区中的表格进行结构解析;将结构解析后的表格转换为html表格代码;按阅读顺序遍历该文档,对于文本区将其文本内容添加至输出序列;对于表格区先为每个表格生成唯一位置标记符并依次插入到输出序列中每个表格在文档中的原始位置,再将每个表格对应的html表格代码依次记录在与位置标记符关联的表格映射表中;输出包含文本内容和全部位置标记符的混合序列以及关联全部位置标记符的表格映射表。本发明有效提高对文档中表格识别及还原的准确度。

本发明授权用于模型训练的PDF文档的表格抽取重构方法及可读存储介质在权利要求书中公布了:1.一种用于模型训练的PDF文档的表格抽取重构方法,其特征在于,所述表格抽取重构方法包括: 对目标PDF文档进行解析,识别并定位文本区与表格区; 对所述表格区中的表格进行结构解析; 将结构解析后的表格转换为html表格代码; 按照阅读顺序遍历目标PDF文档, 对于文本区,将其文本内容添加至输出序列; 对于表格区,先为每个表格生成唯一的位置标记符并依次插入到输出序列中每个表格在目标PDF文档中的原始位置,具体包括:基于目标PDF文档,在混合序列中建立一个表示遍历所述目标PDF文档的文本流位置的Y坐标游标;当遇到目标PDF文档中的表格区的边界框时,记录该表格顶部Y坐标的值并在所述混合序列中找到相同的Y坐标游标的值,将该表格的位置标记符插入该Y坐标游标的值对应的位置;再将每个表格对应的html表格代码依次记录在与位置标记符关联的表格映射表中,所述表格映射表包括将位置标记符与完整的html表格代码关联起来的表格编号、表格结构信息和表格文本信息的集合; 输出包含文本内容和全部表格对应的位置标记符的混合序列,以及关联全部的位置标记符的表格映射表。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人皇虎测试科技(深圳)有限公司,其通讯地址为:518000 广东省深圳市南山区西丽街道松坪山社区科技北二路25号航天微电机厂房科研楼B座二层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。