English

 

 

   
   
   
简要介绍  
历史沿革
新闻公告
 
 
 
 

 

   

概况 - 新闻公告

 

 

 

    实验室2篇论文被2014 IEEE Spoken Language Technology Workshop (SLT 2014)会议录用。以下为2篇论文的引用信息和主要内容:

    Zhiyang He, Ping Lv, Ji Wu. "LABEL CORRELATION MIXTURE MODEL FOR MULTI-LABEL TEXT CATEGORIZATION."in SLT,2014,pp83-88

    Zhipeng Chen, Teng Zhang, Ji Wu. "SUBWORD SCHEME FOR KEYWORD SEARCH."in SLT,2014,pp483-488

    论文"LABEL CORRELATION MIXTURE MODEL FOR MULTI-LABEL TEXT CATEGORIZATION"主要内容为:本文提出了一种新的概率生成模型,标签相关混合模型(label correlation mixture model),用以刻画多标签文档的生成过程,该模型可以被用于解决多标签文本分类问题。在标签相关混合模型中,标签和主题(topic)是一一对应的。标签相关混合模型包含两个部分:标签相关模型和已知多标签条件下的文档模型。对于前者,主要用于描述标签的生成过程以及标签之间的相关性,同时本文也针对该模型提出了高效算法用以估计任意给定的标签组合的生成概率。对于后者,可以将其看作是有监督的标签混合模型,而文档对应的标签对于该模型是已知的。本文在三个标准文本测试集合上进行了实验,相比于其它已报道的方法,实验结果证明了标签相关混合模型的有效性。

    论文"SUBWORD SCHEME FOR KEYWORD SEARCH"主要内容为:关键词搜索是口语语言技术的重要应用之一。大词汇连续语音识别技术在其中起到了很重要的作用。然而,某些语言的词表规模随着文本语料增加而迅速增长(如泰米尔语),造成语言模型训练上的困难,进而影响关键词搜索的性能。子词单元已经成功地应用于关键词搜索系统中的集外词处理,受此启发,本文在发音层面上提出一种新的子词方案来处理大词表问题。在泰米尔电话对话数据上的实验发现,基于子词的搜索系统性能优于基于词的系统。进一步的系统融合实验结果表明,在性能最佳的词系统的基础之上,一个基于子词的系统包含的额外信息量大于另外三个词系统包含的额外信息总和。


 




   

 

 

 

 

 

 

 
     
 
 

清华大学 | 信息科学技术学院 | 电子工程系 | 科大讯飞

 
 

版权所有:清华大学电子工程系多媒体信号与智能信息处理实验室