English

 

 

   
   
   
简要介绍  
历史沿革
新闻公告
 
 
 
 

 

   

概况 - 新闻公告

 

 

 

    2014年9月12日,博士研究生贺志阳在会议上做论文"Minimum Classification Error Rate Training of Supervised Topic Mixture Model for Multi-label Text Categorization"的口头报告。

    报告的主要内容:与传统的文本二分类或文本多分类问题相比较,多标签文本分类任务在实际中更加普遍也更加有挑战性,因此近年来也受到了越来越多的关注。基于有监督概率主题模型的方法已经被证明是一种有效的多标签文本分类方法。在这一类方法中,大多数模型的训练都是基于最大似然准则。为了进一步提升分类性能,本论文提出了基于最小分类错误准则的区分性训练方法,该方法的不同特性在本论文中进行了探讨,实验结果也证明了该方法的有效性,相比于采用最大似然准则训练的模型性能,该方法有相对10%的性能提升。

 


    博士研究生陈智鹏做论文"Improving Keyword Search by Query Expansion in a Probabilistic Framework"的口头报告。

    报告的主要内容:语音关键词搜索主要面临识别错误和集外查询词两个主要问题。我们提出了一个用于描述查询扩展的概率框架统一对这两个问题进行处理。在此框架下,对候选项的后验得分进行重估,用于候选项的重新排序和估计判决门限。在越南语电话对话数据上的实验表明,基于该框架进行查询扩展可以显著提升检索性能。此外,该方法对参数不敏感,在大规模查询扩展下不会因为大量虚量而使性能恶化。
 


    研究生丁弘毅在会议上做论文"An Ontology Semantic Tree based Natural Language Interface"的口头报告。

    报告的主要内容:随着越来越多的本体知识库被公开,这使得每个用户都可以访问到丰富的知识。然而,要获得本体知识库中的信息,用户必须熟悉本体和相应的查询语言。因此,近年来,为了使普通用户也能使用本体知识库,研究者们提出了自然语言接口 (NLI)。传统的方法对自然语言有很好的覆盖度,并且对于组织结构比较好的自然语言有比较好的性能。但是这些方法往往缺乏考虑句子的语义信息,而在很大程度上受制于句子的词序列。本文提出了一个自然语言接口系统,它以自然语言查询作为输入,并生成SPARQL查询语句作为输出。为了分析自然语言查询语句的语义信息,本文提出了本体语义树,结合本体知识库,该树可用于表示自然语言查询的语义概念结构。实验结果表明,系统可有效地提取语义结构,在性能上优于基准系统,尤其是对于具有灵活的词序的自然语言查询。


   

    9月14日,贺志阳在会议上做论文"An Effective and Robust Approach to Mandarin Spoken Language Understanding in Specific Domain"的poster。

    文章的主要内容: 本文提出了一种有效鲁棒的基于有限状态词网络的限定领域中文口语理解方法。为了高效地描述一个任务中可能涉及的语句,该方法首先定义了一种语法规则,使得用户可以通过该规则对所有可能的语句进行高效描述,同时任意的语义也可以被嵌入到这些语句当中;并且,可以将这些语句编译为等价的易于计算机处理的有限状态词网络。进一步地,本文提出了一种鲁棒的基于3维动态规划的解析算法以完成最终的语义解析。在口语理解阶段,用户输入一句语音,经过语音识别系统识别为文字,解析器找到与识别文字最接近的词网络中的路径,同时提取该最优路径对应的语义信息作为用户输入的语义理解结果。实验表明,本文提出的中文口语理解方法具有较好的效果和鲁棒性。

    丁弘毅在会议上做论文"Global Discriminative Model for Dependency Parsing in NLP Pipeline"的poster。

    文章的主要内容:作为自然语言处理(NLP)的重要任务,依存句法分析近年来得到了研究人员的广泛关注。在中文自然语言处理应用中,依存句法分析一般作为一个模块和分词模块、词性标注模块共同构成NLP流水线。而NLP流水线是一个级联系统,存在错误传递的问题。本文提出了一个全局鉴别性重排模型,该模型首先使用一个增强的NLP流水线生成多候选的依存句法树,然后使用来自分词、词性标注和句法分析各个模块的全局特征对多候选句法树进行重新排序,实验表明该鉴别性模型可以提升NLP流水线的整体性能,包括分词、词性标注和依存句法分析。

 

     

 

 

 

 

 

 

 
     
 
 

清华大学 | 信息科学技术学院 | 电子工程系 | 科大讯飞

 
 

版权所有:清华大学电子工程系多媒体信号与智能信息处理实验室