Document
拖动滑块完成拼图
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
最新专利技术
  • 本发明涉及数据处理技术领域,尤其涉及面向家庭环境的声纹识别方法、装置、设备及存储介质,所述方法包括:构建改进的ECAPA‑TDNN模型并进行训练,得到通用声纹识别模型;获取家庭场景微调数据并进行预处理,使其可用于通用声纹识别模型的训练,以得...
  • 本发明提供交互式玩具机器人的语音数据实时控制方法及系统,涉及数据处理技术领域,所述方法包括:对语音帧序列进行声学特征提取,得到声纹特征嵌入,并将所有声纹特征嵌入按照时间顺序排列,生成声纹特征嵌入序列;将声纹特征嵌入序列输入至预先训练的语音识...
  • 本发明涉及船员考核管理技术领域,具体公开了一种基于船员考核在线管理方法及系统,采集船员考核时的原始语音信号及对应时刻的螺旋桨转速、海况等级和船舶航速;将原始语音信号和物理参数输入物理约束降噪网络作为正则化项嵌入损失函数,分离海洋背景噪声,输...
  • 本发明实施例提供一种语音识别方法、电子设备、存储介质和程序产品,涉及人工智能技术领域,该方法包括:采集语音信号,并确定语音信号所涉及的目标领域;获取目标领域对应的目标语音识别模型,并将语音信号输入目标语音识别模型,得到初始语音识别结果,其中...
  • 本发明涉及一种多模态数据修正方法、装置、计算机设备及存储介质,包括:获取目标多模态数据,并基于目标多模态数据生成对应的初始文本,其中,目标多模态数据至少包括语音数据;将初始文本发送至多个终端,以使多个终端基于初始文本进行实时标注操作,得到协...
  • 本申请涉及人工智能技术领域,揭示了一种多语言无障碍会议室及其实现方法,所述方法包括:由应用服务器、AI模型服务器以及多个用户终端协同执行,包括以下步骤:应用服务器创建会议室实例并生成对应的接入链接,用户终端通过接入链接连接至应用服务器,并向...
  • 本发明公开一种基于场景提示的语音识别方法、装置及相关介质,该方法包括将目标音频转换为频谱图以输出音频时序特征;获取对应的场景提示文本并进行分词处理,再通过提示编码器进行嵌入处理,得到提示特征;将音频时序特征与提示特征进行注意力计算,输出增强...
  • 本公开涉及一种交互式表达训练方法、装置、设备、介质。该方法包括:获取表达主体的语音数据;对语音数据进行语音识别,得到语音数据对应的文本数据;提取语音数据的情感表达特征;通过多模态大模型,基于文本数据和情感表达特征,生成表达主体的表达反馈信息...
  • 本发明涉及语音纪要自动生成技术领域,具体为基于AI的语音识别的会议纪要自动生成方法及系统,包括:处理会议音频得到多通道语音流,经增强后识别并转写多说话人片段。将时间邻近的同一说话人片段合并为逻辑单元后,对其进行主题聚类与意图识别以构建语义结...
  • 本申请公开了一种交互语音的处理方法和装置、存储介质及电子装置,涉及智慧家庭技术领域,该方法包括:在接收到目标对象发送的交互语音对应的第n个中间语音包的情况下,依次对第m至第n个中间语音包进行语音识别,以确定每个中间语音包对应的中间文本;根据...
  • 本发明公开了一种基于大语言模型和数字人交互的智能汇报方法及系统。该智能汇报方法包括:通过自动语音识别进行流式语音转写和有效文本筛选;通过结构化提示词引导和本地轻量化大语言模型推理,进行用户输入意图解析;根据控制类意图优先规则,进行多意图指令...
  • 本公开的实施例公开了基于语音信息与大模型的需求信息识别方法、装置。该方法的一具体实施方式包括:从录音存储数据库中获取针对咨询场景的对话语音文本信息,其中,对话语音文本信息为不同用户之间的对话语音转换为文本后的文本信息;将对话语音文本信息与预...
  • 本发明公开了一种基于多维度音频特征的车载多感官协同交互方法及系统,该方法包括:获取车载原始音频源信号,采用双流并行解析架构,一方面利用NLP模型提取歌词语义特征,另一方面利用CNN模型提取声学物理特征;基于车辆行驶状态对双流特征进行加权仲裁...
  • 本发明涉及数字信息传输技术领域,公开了一种基于语义压缩与音视频联合感知的窄带传输方法及系统,该方法包括:获取链路状态参数确定发送预算。提取音频语义单元序列并提取紧急指令语义信息。提取场景语义信息。对场景语义信息中的口型参数进行跨模态预测,获...
  • 本发明公开了一种基于眼动引导的复杂声景目标语音选择性增强方法及系统,通过微型眼动追踪模块与环形四元麦克风阵列同步采集注视方向与多通道音频信号,构建眼动引导的动态声源定位机制;基于视觉置信度评分自适应切换或融合波束成形与深度学习增强策略,并引...
  • 本发明公开了基于深度学习模型的多模态语音增强方法及设备,涉及人工智能技术领域,该方法包括:在虚拟现实环境中获取用户头部姿态数据、双耳音频信号和视觉上下文信息,将双耳音频信号编码为三维空间声学特征,并从视觉上下文信息中提取虚拟声源位置特征及唇...
  • 本申请涉及意图识别技术领域,具体是面向多场景的语音驱动AI大模型意图解析方法与动作执行系统,通过构建包含问询与动作偏向评分的意图实体库,结合阈值判断与意图可能性评分,能够精准区分患者的问询需求与操作需求;当意图不明时,引入微调语言大模型生成...
  • 本申请公开了一种座舱环境下的语音交互方法、装置、设备、介质及产品,该方法包括:采集座舱环境下的至少两路音频信号,至少两路音频信号是在座舱环境下功放的情况下,采集得到的包含语音音频的信号;获取至少两路参考信号;从第i路音频信号中去除第i路参考...
  • 本发明涉及智能语音交互技术领域,具体涉及基于用户画像与位置感知的两轮车租赁语音服务系统,该系统包含四大核心模块。多传感器数据融合与运动状态耦合的语音增强模块通过运动微动作事件检测建立动作‑意图关联;位置感知的自适应噪声对抗处理模块构建地理噪...
  • 本申请公开了一种基于动物行为的语音对话方法、装置及可穿戴设备,该方法包括实时采集动物的运动数据与动物周边的环境声音;对所述运动数据进行分析以获取动物的行为状态;对所述环境声音进行解析以获取环境声音中所包含的音频信息;当检测到对话触发指令时,...
技术分类