复旦大学周水庚获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉复旦大学申请的专利一种基于大语言模型的语义日志解析系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118606286B 。
龙图腾网通过国家知识产权局官网在2026-04-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410559790.0,技术领域涉及:G06F16/18;该发明授权一种基于大语言模型的语义日志解析系统是由周水庚;张晨博;许雯颖;张路;刘进步;刘贵阳;周琦设计研发完成,并于2024-05-08向国家知识产权局提交的专利申请。
本一种基于大语言模型的语义日志解析系统在说明书摘要公布了:本发明属于自然语言处理技术领域,具体为基于大语言模型的语义日志解析系统。本发明系统包括:子词特征提取模块,通过删除因果掩码使LLAMA2的结构适应解析任务,利用大语言模型的丰富知识为每个子词提取准确的特征表示;语义识别模块,基于多头交叉注意力机制,整合每个子词的特征,进而提取日志模板并预测日志参数的语义类别;解析树模块,以树形结构存储解析得到的模板,与解析过程同步构建和更新,用于加速大规模实时日志的推理过程。本发明在常规解析和语义解析数据集上均取得了满意的效果。本发明有较强的泛化性,能捕获日志的语义特征,并有效缓解了大规模日志数据下解析效率低的问题,能够为日志相关的下游任务提供有力支持。
本发明授权一种基于大语言模型的语义日志解析系统在权利要求书中公布了:1.一种基于大语言模型的语义日志解析系统,其特征在于,包含子词特征提取模块,语义识别模块,解析树模块;其中: 所述子词特征提取模块,用于分词和日志子词特征提取;并将日志解析作为序列标注任务;通过删除因果掩码使LLAMA2的结构适应解析任务,利用大语言模型的丰富知识为每个子词提取准确的特征表示; 所述语义识别模块,基于多头交叉注意力机制,整合每个子词的特征,进而提取日志模板并预测日志参数的语义类别; 所述解析树模块,以树形结构存储解析得到的模板,与解析过程同步构建和更新,用于加速大规模实时日志的推理过程; 所述子词特征提取模块,包括LLAMA2分词器,以及删除了因果掩码的LLAMA2模型,记为LogLLAMA;LogLLAMA接在LLAMA2分词器之后;LLAMA2分词器接受一条原始日志语句作为输入,并将其分成若干单词,每个单词又分为若干子词,每个子词使用唯一标识符标识;限制每条日志语句的子词数,多则截断,少则用特定子词填充;LogLLAMA接受这些子词作为输入,并提取每个子词的特征; 这里,所述LLAMA2模型包括:N层带因果掩码的多头自注意力层,LogLLAMA是删除了因果掩码的LLAMA2模型,即LogLLAMA包括N层多头自注意力层;去除因果掩码,使模型在提取当前子词特征时能感知日志的整个上下文; 在训练阶段,LogLLAMA使用Lora方法进行参数高效微调,使其适应日志解析任务;在推理阶段,直接将其应用于各种来源的日志数据,而不需要额外的微调; 所述语义识别模块,包括多头交叉注意力网络和全连接网络,全连接网络接在多头注意力网络之后; 多头注意力网络将每个单词的所有子词特征聚合成一个单词特征;具体地,对于第i个日志单词,其对应的单词特征计算如下: ,1 其中,为额外添加的、可学习的聚合向量,用于聚合子词特征;随着训练的进行,的可学习性使它能够基于训练日志不断优化,越来越适合语义解析;为每个子词的特征;为可学习的权重参数;Attn为标准的多头注意力函数;对每个单词进行特征聚合时,和函数Attn中涉及的参数均共享,以增强模型的迁移学习和模式识别能力;标准多头注意力的计算公式为: ,2 其中,函数表示矩阵拼接,为可学习的参数,为不同的注意力头,计算公式为: ,3 ,4 其中,为k的维度; 多头注意力网络输出每个单词的特征;全连接网络基于这些特征对每个单词进行日志语义分类;假设单词的语义类别总数为K,则全连接层将单词特征映射到K维; 在训练期间,计算每个单词的交叉熵损失;具体地,对于某一个单词,它的单词特征为,则其损失函数为: ,5 其中,K为单词的语义类别总数,函数FC为全连接网络,为模型预测该单词属于标签i的概率;为单词对应的真实标签,即: ,6 在推理阶段,考虑到日志语义的模糊性和多义性,采取以下的预测策略:对于预测为参数的单词,即最大预测概率对应的类别属于参数,保留预测概率最高的前三个参数语义类别作为结果;对于预测为模板常量的单词,保留其模板常量类别作为预测结果; 所述解析树模块,采用类似于前缀树的树形结构存储日志模板,但有不同:解析树的根节点不存储内容;每个中间节点为一个模板单词或一个表示参数的占位符“*”;每个叶节点为一个日志模板库,存储若干包含参数语义标签的日志模板;其构建方式如下: 对于第一个单词为常量的模板,使用第一个单词作为第一层中间节点,并将日志模板存储在该中间节点的叶节点中;对于第一个单词为参数的模板,使用“*”键为第一层中间节点;若第二个单词为常量,则将第二个单词作为第二层中间节点,并将日志模板存在第二层中间节点的叶节点中;若第二个单词为参数,则使用“*”键作为第二层中间节点,并将日志模板存在第二层中间节点的叶节点中; 解析树的构建和更新与模型推理过程同步;当新日志到达时,它首先进入解析树进行日志模板匹配;如果搜索可以沿着树进行到叶节点,则将日志与当前叶节点的模板库中的每个模板进行相似度计算;日志和模板的相似度计算公式如下: ,7 其中,函数S表示将日志或模板按空格进行分词,函数len计算日志或模板按空格分词后的单词数;选择三个最相似的日志模板与输入日志进行正则表达式匹配,若匹配成功,则直接输出该模板及其参数的语义标签作为预测结果;若没有模板匹配成功,或搜索不能进行到叶节点,则将日志发送给解析器进行日志解析,并根据预测结果更新解析树,将新的日志模板及其对应的参数语义标签存入解析树中。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人复旦大学,其通讯地址为:200433 上海市杨浦区邯郸路220号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励