大规模连续语音识别技术
一、基本信息 |
标题 | 大规模连续语音识别技术 | 单位 | 清华大学 |
电话 | 包头市科技局科技合作处5618486 | 行业类别 | 信息技术 |
二、内容信息 | |||
随着信息技术的发展,特别是移动互联网的普及,智能的人机交互方式成为现代生活的 重要组成部分。 语音是人类最自然的交互方式,让电脑、手机、玩具等各种设备和人直接 对话,已经从科幻走向现实。 然而,当前的语音识别技术还受到如噪音、口音等多种条件的限制。为实现机器能听会 说的梦想,需要在结构和功能上模仿人脑神经系统结构。课题组从 2012 年开始从事基于仿 人脑的深度神经网络大规模连续语音识别技术研究,在国家自然科学基金、清华国家实验室 面上基金等项目资助下,掌握了国内外最先进的大规模连续语音识别技术,创新性研究了稀 疏深度神经网络训练、深度神经网络噪声训练等快速性鲁棒性算法,并研发出基于噪声声学 模型的嵌入式大规模离线语音识别系统,开发出首个高性能维语语音识别系统,弥补了国内 在这一技术上的空白。该技术特点如下: 通过仿人脑结构的 DNN 网络来模拟人脑学习知识的过程; 通过稀疏化训练方法减少声学模型训练时间; 通过噪声训练提高声学模型的抗噪能力; 通过嵌入式语法提高对未知新词的识别能力。
上述优点表明该技术既可以在安静的实验环境中大规模运用,也可以在嘈杂的现实环境 中大规模运用。大规模测试表明,该技术在中等噪音环境下对日常口语会话的识别率可达 95%以上。 |
|||
三、附件下载 | |||