当前位置 : 首页 > 专利喜报 > 嘀拍信息科技南通有限公司董一飞获国家专利权

嘀拍信息科技南通有限公司董一飞获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉嘀拍信息科技南通有限公司申请的专利一种基于人工智能的语音识别方法及系统获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN120388575B 。

龙图腾网通过国家知识产权局官网在2026-05-12发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202510484618.8，技术领域涉及：G10L21/0232；该发明授权一种基于人工智能的语音识别方法及系统是由董一飞设计研发完成，并于2025-04-17向国家知识产权局提交的专利申请。

本一种基于人工智能的语音识别方法及系统在说明书摘要公布了：本发明提供一种基于人工智能的语音识别方法及系统，涉及语音识别技术领域，本发明实时采集语音信号，对语音信号进行降噪后通过梅尔频率倒谱系数提取语音信号特征，组合梅尔倒谱系数、梅尔倒谱系数的一阶差分和二阶差分形成语音特征向量。同时采集唇动图像作为视觉信号，对图像进行灰度化处理之后，通过计算图像中像素点的LBP值生成图像特征向量，通过跨模态注意力机制动态调整语音特征向量和图像特征向量的权重，生成融合权重矩阵，不同的融合权重矩阵对应不同的语音指令，将语音原始信号和视觉原始图像作为训练集，融合权重矩阵对应的语音指令作为标签训练深度学习网络模型，最后使用将实时采集的数据输入训练好的模型进行实时语音识别。

本发明授权一种基于人工智能的语音识别方法及系统在权利要求书中公布了：1.一种基于人工智能的语音识别方法，其特征在于，具体步骤包括：步骤1：采集语音原始信号，对语音原始信号进行降噪处理，通过小波变换将语音信号分解为多个不同频率的子带，每个子带对应信号在不同时间尺度上的信息，对高频子带进行阈值处理，减弱噪音成分，将处理后的子带重新组合，得到去噪后的语音信号；步骤2：通过一个高通滤波器对去噪之后的语音信号进行预加重，将预加重之后的语音信号分割成20~40ms的短时帧，帧与帧之间按50%的帧长部分进行重叠，对每一帧信号加窗，通过快速傅里叶变换将加窗后的帧信号从时域信号转化为频域信号，将频域信号通过梅尔滤波器生成梅尔倒谱系数，将梅尔倒谱系数和其一阶差分与二阶差分组合成语音特征向量；步骤3：实时采集说话者的唇动信息作为视觉原始图像，对原始图像进行灰度化处理，生成第一识别图像；步骤4：对第一识别图像的像素进行归一化处理，分别针对第一识别图像中的每个像素点，选择像素点周围的8个邻域像素点，比较中心像素点与其邻域像素点的灰度值，生成一个二进制数，将二进制数转化为十进制数生成中心像素点的LBP值，计算出第一识别图像中所有像素点的LBP值构成一个新的图像，称为第二识别图像；步骤5：将第二识别图像按照8×8像素划分为不重叠的单元，不满足大小的单元直接裁剪舍去，统计每个单元内部所有像素点的LBP值分布情况，生成一个单元的直方图，将所有单元的直方图按照单元顺序首尾相连进行拼接，生成一个图像特征向量，作为视觉信号的最终特征表示；步骤6：将语音特征向量和图像特征向量转化为矩阵表示，通过跨模态注意力机制动态调整语音特征和图像特征的权重，生成融合权重矩阵；步骤7：构建深度学习网络，将所述的语音原始信号和视觉原始图像作为训练集，将融合权重矩阵对应的语音指令作为标签，输入至深度学习网络中进行训练；步骤8：将实时采集的语音信号和视觉图像输入至训练完毕的深度学习网络，获取当前的融合权重矩阵，根据融合权重矩阵确定当前语音指令；生成一个单元的直方图所依据的原理为：统计一个单元内部所有像素点的LBP值分布情况，将LBP值分为按照[0,255]的范围分成256个区间，每个区间对应一个LBP值，生成一个长度为256的直方图向量，其中每个元素表示对应区间内像素点LBP值的数；将所有单元的直方图按顺序连接起来，生成一个特征向量所依据的公式为：；其中，表示最终的图像特征向量，表示第个单元的直方图中第个区间的LBP值数量，表示单元数量；生成融合权重矩阵所依据的原理为：将语音特征向量视为一个1×3L的矩阵，可表示为：；其中，表示语音特征矩阵，表示第个梅尔频率倒谱系数，表示第个梅尔频率倒谱系数的一阶差分，表示第个梅尔频率倒谱系数的二阶差分，表示梅尔频率倒谱系数的数量；将图像特征向量视为一个1×256E的矩阵，可表示为：；其中，表示图像特征矩阵，表示第个单元的直方图中第个区间的LBP值数量，表示单元数量；语音特征矩阵和图像特征矩阵取相同的元素数量，生成二者的相似度，所依据的公式为：；其中，表示对应的语音特征矩阵和图像特征矩阵元素的相似度，表示语音特征矩阵的第列的元素，表示图像特征矩阵的第列的元素；将所有计算出的相似度值依次排列，组成一个矩阵，所述矩阵即为语音特征矩阵和图像特征矩阵之间的相关性矩阵；根据相关性矩阵计算注意力权重，所依据的公式为：；；其中，表示语音特征的注意力权重，表示图像特征的注意力权重，表示相关性矩阵，表示相关性矩阵的转置矩阵；使用计算得到的权重进行特征融合，生成融合权重矩阵，所依据的公式为：；其中，表示融合权重矩阵，表示语音特征的注意力权重，表示语音特征矩阵，表示图像特征的注意力权重，表示图像特征矩阵。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人嘀拍信息科技南通有限公司，其通讯地址为：226000 江苏省南通市开发区星湖大道1692号21(22)幢12189室；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

嘀拍信息科技南通有限公司董一飞获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务