当前位置 : 首页 > 专利喜报 > 茅台学院刘赟获国家专利权

茅台学院刘赟获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉茅台学院申请的专利一种基于递进式神经网络的多模态情感分类方法获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN115795020B 。

龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202211315981.X，技术领域涉及：G06F16/335；该发明授权一种基于递进式神经网络的多模态情感分类方法是由刘赟;田鹏;李浪;张磊磊;沈仕巡设计研发完成，并于2022-10-26向国家知识产权局提交的专利申请。

本一种基于递进式神经网络的多模态情感分类方法在说明书摘要公布了：本发明公开了一种基于递进式神经网络的多模态情感分类方法，该方法包括感知扫描、精细阅读、异质图推理三个模块；感知扫描模块用于对视觉图片及对应的文本描述进行特征表示，并利用VL‑BERT粗略地感知图片和文本的内容信息；精细阅读模块利用内存注意力网络关注于图片和文本中的重要特征，建模二者之间细粒度的互补信息；异质图推理模块利用图片之间的社交关系网络构建多模态异质图，将前两阶段生成的扫描嵌入和精读嵌入融合为图节点嵌入，并利用图卷积神经网络执行多模态的情感极性推理。本发明综合利用了特征表示、跨模态注意力机制、图神经网络等技术推理多模态之间的特征关联和互补信息，对提高多模态情感分类的准确性具有显著效果。

本发明授权一种基于递进式神经网络的多模态情感分类方法在权利要求书中公布了：1.一种基于递进式神经网络的社交多模态情感分类方法，其特征在于：该方法包括以下步骤： A、感知扫描：针对视觉图片和对应的文本描述，分别利用不同的神经网络将它们编码为图片特征和文本特征，该两种特征通过全连接神经网络映射到同一纬度的特征空间中，并利用VL-BERT粗略地感知图片和文本的内容信息，生成图片嵌入、文本嵌入以及扫描嵌入；图片特征是利用FasterR-CNN网络提取图片上显著的检测目标生成的图片目标特征矩阵，图片目标特征矩阵表示为EO＝{eo1，...，eoi，...,eon}，其中eoi表示第i个检测目标对应的特征向量；文本特征是利用Glove词向量和LSTM编码文本单词生成的单词特征矩阵，单词特征矩阵ET＝{et1，...，eti，...,etk}，其中eti表示第i个文本单词对应的向量；将图片特征和对应的文本特征映射到同一纬度的目标空间中，描述为：E′O＝σW1EO+b1，E′T＝σW2ET+b2，其中W1和W2是可学习的权重矩阵，b1和b2则是可学习的偏置项，σ是非线性激活函数relu；将E′O和E′T拼接并输入到VL-BERT后，输出三种类型的特征，分别是扫描嵌入hCLS、文本嵌入T和图片嵌入O，此过程表示为： [hCLS|T|O]＝VLBERT[E′O；E′T]，其中，[E′O；E′T]表示E′O和E′T的特征拼接，[·|·]则是元素间的按行拼接，输入过程中E′O和E′T被分类符[CLS]，分隔符[SEP]和结束符[END]所分割；扫描嵌入hCLS是VL-BERT最后一层的第一个输出向量，它表示图片和文本经过感知扫描后所得的跨模态联合嵌入；文本嵌入T和图片嵌入O是E′O和E′T在输入位置对应的输出矩阵，它们分别表示文本和图片经过联合扫描后对各自模态所表示的内容的初步理解；步骤A中VL-BERT是一种多模态预训练模型，它将文本特征和图片特征拼接后作为输入，通过模态内的特征自注意力学习和交叉模态的特征关联学习，粗略地感知图片和文本内容信息；步骤A中VL-BERT的输出包含一个向量和两个矩阵，向量是VL-BERT的第一个输出，表示扫描嵌入，图片和文本输入位置对应的输出分别构成感知扫描后所得的图片嵌入矩阵和文本嵌入矩阵； B、精细阅读：在感知扫描生成的图片嵌入和文本嵌入的基础上，构建双分支的内存注意力网络，分别计算图片对文本和文本对图片的注意力值，并更新记忆内存单元，两分支的记忆内存单元经特征拼接后，利用神经网络将拼接结果映射为精读嵌入；精细阅读模型是在两个非独立的分支上采用记忆内存网络实现的，具体实现方法为：首先采用全连接神经网络将图片目标嵌入O和文本嵌入T分别转换为内存MO和MT；然后，在一个分支中计算图片目标嵌入O对内存MT的注意力向量αT，在另一分支中计算文本嵌入T对内存MO的注意力向量αO；接着，在两分支中同步利用注意力向量乘以相应的内存单元，其结果经线性映射后用于更新内存单元的值，以αT的计算和MT的更新过程表示为：αT＝softmaxWαTOMT+bαT，MT←αT⊙MTWT+bT，其中，WαT和WT是可学习的权重矩阵，bαT和bT则是可学习的偏置项，←表示更新，⊙是在合适的轴上进行数据广播后的按元素相乘操作；将注意力从单步扩展到多跳，在扩展后的注意力网络中，注意力向量的计算和内存的更新被重复R次，同样αT和MT的第r次计算和更新操作过程表示为：其中，1≤r≤R，上标r表示第r次计算的值；通过R轮次的注意力计算，两分支上的记忆内存和看作图片和文本之间密集交互的结果，包含二者间的特征关联和互补信息；最后，融合和以获取精读嵌入hATT，其计算过程表示为其中，Wh和bh分别是可学习的权重矩阵和偏置项；步骤B中内存注意力网络是将感知扫描所得的图片嵌入矩阵和文本嵌入矩阵进行彼此的注意力计算，利用注意力更新记忆内存单元，计算和更新过程重复多次，以实现深入的图片和文本的特征关联学习；步骤B中精读嵌入是将双分支的内存注意力网络计算所得的内存单元进行特征拼接后，利用全连接神经网络进行特征映射所得，通过记忆内存网络的反复计算，精读嵌入捕捉了图片和文本之间的互补信息； C、异质图推理：利用社交图片之间的关系网络构建带权无向图，通过双线性池化模型融合扫描嵌入和精读嵌入，融合后的图片-文本嵌入作为异质图的节点嵌入，采用图卷积神经网络在图上执行跨模态的情感推理；步骤C中带权无向图是利用社交图像之间的共现关系构建的异构图，模型为图像间的不同共现关系创建不同的图像链接，并为每一种链接关系赋予权重1，两个图像节点间存在w种链接关系则对应的边权重为w；创建带权无向图G＝H，E，其中，H表示图的节点，E表示图的带权边；对图G执行跨模态的情感推理，首先，利用多模态双线性池化模型将步骤A和步骤B中习得的扫描嵌入hCLS和精读嵌入hATT进行如下特征融合：其中，U和V是可学习的权重矩阵，g是预设的是因子数，融合后的联合特征h是感知扫描和精细阅读的结果，它被作为无向图G的一个节点嵌入，即h∈H；接着，采用F层的图卷积神经网络在异质图G上执行多模态的情感推理，即，第f层1≤f≤F的图卷积操作表示为：其中，Hf表示第f层的图节点嵌入，第0层的图节点嵌入H0则是原始的节点编码H，表示图G中领接矩阵和单位矩阵之和，则是对应的度矩阵，Wf是可学习的权重矩阵，σ是非线性激活函数relu；步骤C中异质图推理中，图节点的嵌入是对应的图片-文本联合嵌入，该嵌入编码源于感知扫描和精细阅读所得的扫描嵌入和精读嵌入的特征融合，异质图上的多模态情感推理采用多层图卷积神经网络实现； D、多模态情感分类：将异质图推理得到的图节点嵌入输入到由多层感知器构建的情感分类器中，对多模态情感极性进行预测；步骤D中多模态情感分类采用一个softmax分类器，它以负的对数似然函数作为损失函数，并利用异质图推理后的图节点嵌入作为分类器的输入对多模态的数据进行情感极性预测，具体过程如下：基于步骤C中所得的图节点嵌入HF，采用多层感知器构建分类器，并利用负的对数似然函数作为损失函数进行多模态情感极性分类，此过程表示为：phF＝softmaxWphF，L＝-logphF，y，其中，hF∈HF是第F层图卷积神经网络上的一个图节点嵌入，phF表示对hF进行情感极性预测的概率分布，Wp是可学习的权重矩阵，L表示损失函数，y则是图节点上的图片-文本对的真实情感极性标注，其值为1表示正向或0表示负向。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人茅台学院，其通讯地址为：564507 贵州省遵义市南部新城；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

茅台学院刘赟获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务