山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院)郭莹获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院)申请的专利一种基于湖仓一体的高校关系数据处理方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117112667B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311071030.7,技术领域涉及:G06F16/25;该发明授权一种基于湖仓一体的高校关系数据处理方法和系统是由郭莹;张颖;王英龙;杨美红;吴晓明;潘景山;孙博文;赵志浩设计研发完成,并于2023-08-24向国家知识产权局提交的专利申请。
本一种基于湖仓一体的高校关系数据处理方法和系统在说明书摘要公布了:本发明涉及一种基于湖仓一体的高校关系数据处理方法和系统,包括:将高校各业务系统原始数据抽取入湖仓及分割初始元数据入仓,并将有标签的元数据存入湖仓;构建初版高校数据标准映射字典,并将其数据标准中的中文简称同化成模型语义类别标签;对抽取入湖仓的未含有标注的元数据进行语义识别,基于模型语义类别标签对元数据标注进行纠错,并更新回填至湖仓的元数据标注中;基于数据仓库中的高校元数据标准映射字典,映射整合并构建分级分类的高校数据资产目录;实现数据资产目录发布及查询搜索。本发明构建了统一的高校元数据标准映射数据字典,实现业务系统与实现不同业务系统与高校统一元数据标准之间的关联映射,构建统一的数据资产目录。
本发明授权一种基于湖仓一体的高校关系数据处理方法和系统在权利要求书中公布了:1.一种基于湖仓一体的高校数据处理方法,其特征在于,包括: 将高校各业务系统原始数据抽取入湖仓及分割初始元数据入仓,并基于关联关系将有标签的元数据存入湖仓; 构建初版高校数据标准映射字典,并将其数据标准中的中文简称同化成模型语义类别标签; 基于语义识别模型对抽取入湖仓的未含有标注的元数据进行语义识别,基于模型语义类别标签对元数据标注进行纠错,并更新回填至湖仓的元数据标注中,将湖仓关联回填的已有标注及纠错识别后的元数据标注补充至已入仓的标准化元数据描述及数据仓库的高校数据标准映射字典中; 基于数据仓库中的高校元数据标准映射字典,映射整合并构建分级分类的高校数据资产目录; 实现数据资产目录发布及查询搜索; 在该方法中,元数据语义识别及纠错,包括: 抽取入湖仓的未含有标注的元数据的表示形式为高校业务数据库中的数据表未标识列描述的列数据,即高校业务数据库关系列数据;将高校业务数据库关系列数据记录线性化编码,输入到CSR列语义识别模型学习相关特征进行元数据语义识别,得到元数据标注B;利用已识别的元数据标注B与原始数据标签的元数据标注A通过文本相似度计算方法进行相似度分析实现元数据的纠错,将纠错识别后的元数据标注更新回填至湖仓的元数据标注中;将基于关联关系将存入湖仓的回填元数据标注补充至已入仓的分割初始元数据中的描述字段及构建的高校数据标准映射字典中的元数据标注A的空白字段;将纠错识别后的元数据标注补充至已入仓的分割初始元数据中的描述字段及构建的高校数据标准映射字典中的元数据标注A的空白字段; 元数据语义识别,包括: 高校业务数据库关系列数据按行拼接添加特殊标识符进行文本标记以及属性编码,输出初步列向量;初步列向量矩阵定义公式如式Ⅰ所示: 式Ⅰ中,表示每一列的初步列向量,n表示关系数据列总数量,C_Embed表示经属性编码的n维初步列向量矩阵; 通过多头自注意力机制对样本向量即得到的初步列向量进行上下文特征提取; 融入学习特征的输出的向量公式如式Ⅱ所示: 式Ⅱ中,表示学习到自身及上下文特征信息的输出列向量,n表示关系数据列总数量,C_Embed表示n维初步列向量矩阵,Mu_Se_Atten表示经过学习上下文特征的n维列矩阵,C_Atten表示学习到自身及上下文语义特征的n维列向量矩阵; 将输出的向量经过MLP全连接层以及Softmax函数归一化操作,最终输出每个样本对应的所属语义类别概率,进行预测分类; Softmax函数公式如式Ⅲ所示: 式Ⅲ中,是第i个输出列向量,j表示输出列向量的个数,表示归一化操作输出的对应概率分布; 输出语义类别公式如式Ⅳ所示: 式Ⅳ中,表示用来线性组合的权重矩阵,C_Atten表示学习语义后的列向量矩阵,表示偏置参数,tanh表示用于学习非线性特征的的双曲正切激活函数,Logit表示CSR列语义识别模型最终语义类别输出; CSR列语义识别模型的目标如式Ⅴ所示: 式Ⅴ中,表示的类别变量,表示观察到的类别真值; CSR列语义识别模型所使用的交叉熵损失函数如式Ⅵ所示: 式Ⅵ中,n表示语义类别数量,表示预测的第i类的语义类别标签变量,表示预测的第i类标签的概率,Loss表示预测概率与实际标签的之间的差距; 元数据纠错,包括: 使用余弦相似度算法来分析元数据标注B与元数据标注A的相似性,将相似度达到阈值为0.9的标注回填到数据仓库的分割初始元数据标注及数据仓库的高校数据标准映射字典中元数据标注A的空白字段,余弦相似度公式如式Ⅶ所示: 式Ⅶ中,x和y表示两个要比较相似度的向量,和表示向量x和y的各分量,表示经两个向量点积的向量相似度。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院),其通讯地址为:250014 山东省济南市科院路19号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励