时间在变,空间随着时间也在变,不变的唯有真知灼见。
2025年01月10日  星期五
首页
财经
观察
参考
ESG
公告
市场
研究
IPO
周报
动态
推荐
首页 > 公司

WiMi(WIMI.US)发布基于多功能信号传感技术的高可靠性无声语音识别系统

来源:真灼传媒 时间:2023-04-26 22:42:29

字号

北京,2023年4月25日/PRNewswire/–WiMi全息云股份有限公司(NASDAQ:WiMi)(“WiMi”或“公司”),全球领先的全息增强现实(“AR”)技术提供商,今天披露了一种基于多功能信号感知技术的高可靠性无声语音识别系统。该系统可以通过无声阅读或身体运动识别将来自身体或喉部声带运动的电信号转换为语音。该系统可以在没有用户语音命令的情况下破译人想说的话,从而丰富了“机器理解人类语言”的人机交互场景


语音识别技术是VR应用程序的免提接口模式,但它有几个缺点。例如,它在嘈杂的环境或公共场所以及那些不能大声清晰说话的人中的可用性有限。因此,WiMi开发了这个系统,通过在全息AR环境中使用肢体运动或面部肌电图来实现无声语音识别。首先,该系统获取由人脸或四肢呈现的全息EMG信号数据或声带振动信号数据,然后对分别获得的两种数据类型进行预处理。在特征提取和融合之后,系统使用深度学习依次进行识别,并最终将识别出的命令结果发送给接收设备或受控设备。


为了提高系统在远距离信号分类的准确性,WiMi开发了一种基于深度神经网络的分类方法,该方法在全息环境中使用具有fEMG的SSR系统。该技术使用了之前从其他个体收集的类似fEMG数据,然后通过全息动态位置失真进行转换。当一个人处于说话或无声思维状态时,与发声相关的肢体肌肉会受到大脑输出神经的影响,这些输出神经会产生与大脑所代表的其他内容相对应的不同活动状态。该系统通过收集肢体或发声肌肉的表面肌电信号,对其进行处理和识别,来进行有声或无声语音识别,并获取大脑信息。对于特征识别,系统使用独立的细胞神经网络来学习每个通道信号的特征。开发人员设计了三种结构:1D卷积网络、2D卷积网络和并行卷积网络,配置了网络模型参数,并优化了网络模型结构。开发人员使用支持向量机、随机森林、k-最近邻和隐马尔可夫模型进行机器学习。模型参数在训练和识别过程中不断优化。


WiMi的系统将全息视觉信息和面部或肢体肌电信息相结合,实现无声语音识别。WiMi预计该系统将为语音识别技术的进一步发展做出贡献,并为语音识别提供新的思路和方法。


关于WIMI全息云


WIMI全息云公司(NASDAQ:WIMI)是一家全息云综合技术解决方案提供商,专注于包括全息AR汽车HUD软件、3D全息脉冲激光雷达、头戴式光场全息设备、全息半导体、全息云软件、全息汽车导航等专业领域。其服务和全息AR技术包括全息AR汽车应用、3D全息脉冲激光雷达技术、全息视觉半导体技术、全息软件开发、全息AR广告技术、全息AR娱乐技术、全息ARSDK支付、交互式全息通信和其他全息AR技术。


 

 

微信扫码 > 右上角点击 > 分享