格力联云申请多模态语音识别专利,解决复杂环境下语音识别准确率下降的问题
金融界2024年10月9日消息,国家知识产权局信息显示,珠海格力电器股份有限公司、珠海联云科技有限公司申请一项名为“多模态语音识别方法、装置、设备及计算机可读介质”的专利,公开号CN 118748008 A,申请日期为2024年7月。
专利摘要显示,本申请涉及一种多模态语音识别方法、装置、设备及计算机可读介质。该方法包括:获取麦克风阵列对目标空间中的至少一个说话人采集的语音数据和视觉传感器阵列对所述目标空间采集的视觉数据;确定所述语音数据的声学特征,并基于所述视觉数据确定至少一个说话人的视觉位置特征和视觉唇形特征;基于对所述声学特征和所述视觉位置特征的融合确定所述说话人的目标位置;将所述语音数据、所述声学特征、所述目标位置以及所述视觉唇形特征输入目标语音识别模型,得到对所述目标空间中的至少一个说话人的语音识别结果。本申请基于视觉辅助进行声源定位,并进一步将定位结果以及视觉数据辅助语音识别,解决了复杂环境下语音识别准确率下降的技术问题。
本文源自:金融界
作者:情报员