南京工业大学朱艾春获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京工业大学申请的专利基于跨模态学习的文本和行人视频检索方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117112813B 。
龙图腾网通过国家知识产权局官网在2026-05-12发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310910990.1,技术领域涉及:G06F16/432;该发明授权基于跨模态学习的文本和行人视频检索方法是由朱艾春;张旭;董冠男;倪帆;胡方强设计研发完成,并于2023-07-24向国家知识产权局提交的专利申请。
本基于跨模态学习的文本和行人视频检索方法在说明书摘要公布了:本发明提供了一种基于跨模态学习的文本和行人视频检索方法,对多个待识别的视频分别进行灰度化处理和掩码处理,对文本进行灰度化的过滤处理;通过视觉特征提取网络对各视频进行处理获取三组视频全局特征,通过文本编码器对文本进行处理获取两组文本全局特征;采用完成训练的视频检索模型捕获细粒度信息;基于全局特征和细粒度特征获取各视频与文本的相似度;对各视频与文本的相似度进行排序,获取相似度最高的视频作为检索结果。本发明针对目前视频检索方法中对于视频中行人特征的细节不够以及颜色依赖问题导致的干扰进行了改善,选择灰度与彩色视频帧相结合以及全局与局部相结合的方式,细化了行人特征和文本特征,提高模型的检索精度。
本发明授权基于跨模态学习的文本和行人视频检索方法在权利要求书中公布了:1.一种基于跨模态学习的文本和行人视频检索方法,其特征在于,所述方法包括以下步骤: 步骤1、对多个待识别的视频分别进行灰度化处理和掩码处理得到灰度视频帧序列和掩码视频帧序列,对文本进行灰度化的过滤处理得到灰度化文本; 步骤2、通过视觉特征提取网络对步骤1处理后的各视频进行处理,获取各视频的三组视频全局特征,包括:原视频全局特征、灰度视频全局特征和掩码视频全局特征;通过文本编码器对步骤1处理后的文本进行训练,获取两组文本全局特征,包括原文本全局特征和灰度化文本全局特征; 步骤3、采用完成训练的视频检索模型捕获各视频对应的灰度视频、掩码视频和原文本中的细粒度信息,处理后得到原文本细粒度特征,各灰度视频、掩码视频的细粒度特征;基于全局特征和细粒度特征获取各视频与文本的相似度;对各视频与文本的相似度进行排序,获取相似度最高的视频作为检索结果; 步骤2中视频处理具体为:采用ResNet-50视觉特征提取网络分别对原视频帧序列、灰度视频帧序列和掩码视频帧序列进行处理,得到三组特征以及对应的自注意力图,包括原视频全局特征、灰度视频全局特征、掩码视频全局特征、原视频自注意力图、灰度视频自注意力图、掩码视频自注意力图: ; ; ; 步骤2中文本编码器包括1个BERT模型和1个Bi-LSTM,分别对原文本和灰度化文本进行编码处理,得到两组文本全局特征向量以及对应的自注意力图,包括原文本全局特征、灰度化文本全局特征、原文本自注意力图、灰度化文本自注意力图: ; ; 其中,和分别为原文本和灰度化文本描述; 步骤3中细粒度特征的获取步骤为: 步骤31、采用下述公式对灰度视频全局特征、掩码视频全局特征以及原文本全局特征进行处理,得到灰度视频、掩码视频,原文本的包含细粒度信息的自注意力图、; ; ; ; 其中:、、表示特征维度调节系数,用于调整特征维度与、一致;、、为加权和的权重比例,、、分别为灰度视频自注意力图、掩码视频自注意力图和原文本自注意力图; 步骤32、采用softmax函数对包含细粒度信息的自注意力图、进行处理,得到各自注意力图中每个令牌token所包含的信息量的排序,按照预设的百分比获取信息量高的token作为对应的灰度视频细粒度特征、掩码视频细粒度特征以及原文本细粒度特征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京工业大学,其通讯地址为:210009 江苏省南京市鼓楼区新模范马路5号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励