English

 

 

   
   
   
简要介绍  
历史沿革
新闻公告
 
 
 
 

 

   

概况 - 历史沿革

 

 

 

    1986年,清华大学由王作英教授牵头,组织清华大学无线电电子学系(1989年更名为电子工程系)、自动化系、精密仪器系和外语系等单位,联合申请并承 担了“863”计划首批项目中的“计算机自然语音翻译”项目,该项目包括语音识别、机器翻译和语音合成三个子课题。1987年“计算机自然语音翻译”项目开始实施。王作英教授负责项目总体协调,以及“计算机语音识别”子课题的研究。王作英教授组织研究队伍,创建了清华大学电子工程系语音识别技术实验室。

    语音识别技术实验室成立后,在汉语语音识别领域进行了大量开创性的工作。1987年5月王作英教授提出了基于段长分布的隐含马尔科夫模型 (Duration Distribution Based Hidden Markov Model, DDBHMM)。与经典HMM模型不同,该模型能够描述语音单元的真实分布,而不是将指数形式的段长分布强加于语音单元。但与经典HMM模型不同,DDBHMM模型具有后效性。王作英教授提出了DDBHMM模型的训练和识别算法,成功建立DDBHMM整体解决方案,形成了更为完善的语音识别理论框架。

    1988年,清华大学电子工程系语音识别技术实验室在国内率先实现了基于DTW的孤立字、说话人相关的全音节汉语语音识别系统。1992年,实验室与中国电子器件公司合作的孤立字汉语语音识别系统—THED919听写机通过电子部鉴定。

    在国家863计划的大力支持下,经过包括清华大学电子工程系语音识别技术实验室在内的国内众多研究机构和研究人员的艰苦努力,我国的汉语语音识别技术发展迅速。1994、1995和1998年,863智能计算机系统专家组连续组织了三次语音识别技术评测。测试内容从特定人孤立字、连接词扩展到非特定人连续语音。语音识别技术实验室获得了三连冠的佳绩,确立了国内语音识别技术研究中的领先地位。

    基于1998年参加863评测的连续语音识别系统,实验室在1999年推出了国内第一个拥有完全自主知识产权的在线实时汉语连续语音识别系统THEESP。飞利浦电子公司的语音事业部(PSP:Philips Speech Processing)曾经购买了这个系统的使用权,并用于飞利浦连续语音识别产品FreeSpeech中文版的开发。

    2002年起,考虑到语音识别技术的应用前景,实验室开始了面向IVR平台多路并发的语音识别引擎和面向限定资源的嵌入式语音识别引擎的研究开发。同年,清华大学与北京高新技术投资有限公司发起了北京天朗语音科技有限公司,以推进语音识别技术的产业化发展。2003年,北京天朗语音科技有限公司开发了国内第一个支持多路并发的电话语音识别引擎;同年针对Symbian平台开发的嵌入式语音识别产品“天朗一呼通”获得了诺基亚-Symbian S60应用大赛个人效率类优胜奖。2004年,由于多方面原因,北京天朗语音科技有限公司基本停止运营。尽管如此,作为国内语音识别技术产业化的先行者之一,天朗语音为语音识别产业的发展做出了自己的贡献。

    2006年,实验室与国内语音行业的龙头企业安徽科大讯飞信息科技股份有限公司结成战略联盟,建立了清华-讯飞语音技术联合实验室。实验室在坚持面向多平台多应用的语音识别技术研究同时,开始进入语音搜索技术领域,承担了国家十一五863项目“基于内容的高性能语音搜索技术探索研究”,并先后完成了面向导航的海量地名语音检索系统(Voice Search for POI)、面向海量语音文档的内容检索系统(STD:Spoken Term Detection),以及音频匹配和过滤系统等技术原型和演示系统。

    2009年,随着实验室研究方向的延伸和研究内容的扩展,实验室正式更名为多媒体信号与智能信息处理实验室。实验室将面向多媒体信号,针对其中所蕴含的内容,采用包括统计模式识别、机器学习、数据挖掘等海量数据处理技术,研究数据和信息的认知、理解、以及有效管理和利用。

 

 
     
 
 

清华大学 | 信息科学技术学院 | 电子工程系 | 科大讯飞

 
 

版权所有:清华大学电子工程系多媒体信号与智能信息处理实验室