中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2009年 23卷 6期
刊出日期:2009-12-15

综述
 
   
综述
3 基于词汇语义特征的中文语义角色标注研究
邵艳秋,穗志方,吴云芳
语义角色除了受句法结构限制之外,同词汇的语义特征也有着紧密的内在联系。对于一些仅依靠句法分析不能很好解决的角色标注问题,如句法结构相同的两个成分所对应的角色分别为完全不同的施事、受事角色的情况,可以通过引入一些词汇语义特征来进行处理。该文基于北京大学的语义词典CSD,引入了配价数、主客体语义类等词汇语义特征来进行语义角色标注研究。10折交叉验证的结果显示,通过引用词汇语义特征,所有角色标注的总体评价F值比单纯使用句法特征上升了1.11%,而其中Arg0和Arg1角色标注的F值达到93.85%和90.60%,比仅使用句法特征进行角色标注分别提高了1.10%和1.26%。
2009 Vol. 23 (6): 3-11 [摘要] ( 377 ) [HTML 1KB] [PDF 984KB] ( 1140 )
11 语义角色标注中句法特征的研究
李军辉,王红玲,周国栋,朱巧明,钱培德
描述了一个基于特征向量的语义角色标注系统,该系统以单一句法分析树作为输入。首先进行预处理,过滤掉极不可能是角色的成分,然后进行角色分类(包括NULL类),最后处理嵌套情况及对中心语义角色去重处理。在优化组合已有特征的基础上,从语法、句型以及搭配角度出发,制定了新的有效的特征;实验表明了新特征的有效性及健壮性。最终在CoNLL-2005 Shared Task开发集和WSJ测试集上分别获得了77.54%和78.75%的F1值,是目前已知的基于单一句法分析中取得的最好性能。
2009 Vol. 23 (6): 11-19 [摘要] ( 352 ) [HTML 1KB] [PDF 822KB] ( 730 )
19 汉语形容词的自动词义区分研究
朱虹,刘扬,俞士汶
词义知识获取是词义知识库建设、词义消歧等任务的基础和起点,目前该工作基本依赖人类专家的智慧和洞察力,在大规模文本处理上缺乏意义计算的客观性和一致性。该文以汉语的中高频形容词为样本,深入挖掘词义特征并采用有参数初始化过程的EM迭代算法,实现了从真实文本中自动发现并区分词语词义的过程。该词义区分算法选取易获取的词形特征、基于大规模语料的搭配特征、基于网络语料的属性—宿主关系特征,替代以往难以获取的句法结构特征,并进一步利用HowNet优化了词形特征的选择。该工作可以应用于信息检索等领域,能够对现有词典起到修改和补充的作用,该思路亦可扩展到其他汉语词类上去。
2009 Vol. 23 (6): 19-26 [摘要] ( 356 ) [HTML 1KB] [PDF 845KB] ( 661 )
26 基于混合策略的高精度长术语自动抽取
梁颖红,张文静,周德富
在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点。该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法。该方法充分发挥了NC-value参数在利用词语上下文信息和互信息参数在词语结合强度两方面的优势,两者相互约束和配合,更有利于找到准确的长术语边界。采用生物信息领域Yapex语料进行实验,结果表明,三字以上长术语抽取正确率和召回率分别达到88.5%和76.6%,F测量值达到82.2%,稍高于其他方法的结果。
2009 Vol. 23 (6): 26-31 [摘要] ( 267 ) [HTML 1KB] [PDF 512KB] ( 1058 )
31 伪实例与人工标注实例相结合的词义消歧方法
车超,滕弘飞,
知识获取是制约基于语料库的词义消歧方法性能提高的瓶颈,使用等价伪词的自动语料标注方法是近年来解决该问题的有效方法。等价伪词是用来代替歧义词在语料中查找消歧实例的词。但使用等价伪词获得的部分伪实例质量太差,且无法为没有或很少同义词的歧义词确定等价伪词。基于此,该文提出一种将等价伪词获得的伪实例和人工标注实例相结合的词义消歧方法。该方法通过计算伪实例与歧义词上下文的句子相似度,删除质量低下的伪实例。并借助人工标注语料为某些无等价伪词的歧义词提供消歧实例,计算各义项的分布概率。在Senseval-3汉语消歧任务上的实验中,该文方法取得了平均F-值为0.79的成绩。
2009 Vol. 23 (6): 31-39 [摘要] ( 365 ) [HTML 1KB] [PDF 858KB] ( 637 )
39 一种基于LDA的CRF自动文摘方法
吴晓锋,宗成庆
浅层狄利赫雷分配(Latent Dirichlet Allocation,LDA)方法近年来被广泛应用于文本聚类、分类、段落切分等等,并且也有人将其应用于基于提问的无监督的多文档自动摘要。该方法被认为能较好地对文本进行浅层语义建模。该文在前人工作基础上提出了基于LDA的条件随机场(Conditional Random Field, CRF)自动文摘(LCAS)方法,研究了LDA在有监督的单文档自动文摘中的作用,提出了将LDA提取的主题(Topic)作为特征加入CRF模型中进行训练的方法,并分析研究了在不同Topic下LDA对摘要结果的影响。实验结果表明,加入LDA特征后,能够有效地提高以传统特征为输入的CRF文摘系统的质量。
2009 Vol. 23 (6): 39-46 [摘要] ( 364 ) [HTML 1KB] [PDF 1136KB] ( 845 )
46 隐喻自动处理研究进展
贾玉祥,俞士汶,朱学锋
隐喻在人类语言中普遍存在,是自然语言理解必须面对的问题。该文首先探讨了对隐喻的认识及语言中隐喻表达的分类。把隐喻自动处理分为隐喻识别、隐喻理解和隐喻生成三个子任务,对以往的研究成果进行梳理,着重介绍近几年来隐喻自动处理研究的新成果、新特点。隐喻自动处理离不开隐喻知识库的支持,文章也介绍了国内外隐喻知识库建设的主要成果。隐喻自动处理的目的是为了提高自然语言处理的智能化水平,文章探讨了隐喻处理在自然语言处理任务中的应用。最后展望了汉语隐喻自动处理研究的前景。
2009 Vol. 23 (6): 46-56 [摘要] ( 424 ) [HTML 1KB] [PDF 1134KB] ( 812 )
56 事件关系表示模型
仲兆满,刘宗田,周文,付剑锋
事件关系的表示及事件推理是基于事件的知识处理的核心内容。文章提出了事件影响因子的概念来刻画事件间相互影响的强弱,给出了一种事件影响因子的计算方法。在此基础上,建立了事件关系图ERM(Event Relationship Map)来描述领域中事件之间的关系。依据事件关系和事件要素可以进行事件推理,重点阐述了ERM上基于关系的事件推理算法。最后,做了一个事件关系推理的实验,结果证明所提模型及算法与人的主观判断相一致,是合理可行的。
2009 Vol. 23 (6): 56-61 [摘要] ( 484 ) [HTML 1KB] [PDF 594KB] ( 1195 )
61 基于词共现模型的垃圾邮件过滤方法研究
张燕平,史科,徐庆鹏,谢飞
垃圾邮件过滤就是对邮件做出是垃圾或非垃圾的判断。传统的表示邮件的方法是在向量空间模型基础上通过信息增益等特征选择方法提取一部分词来表示邮件内容,存在语义信息不足的问题。该文提出一种将传统方法和词共现模型结合起来表示邮件特征的新方法,再采用交叉覆盖算法对邮件进行分类得到邮件分类器。实验表明,该文提出的邮件过滤算法与传统方法相比提高了过滤性能,词共现选择的维度要比传统方法选择的维度更具有代表性。
2009 Vol. 23 (6): 61-67 [摘要] ( 402 ) [HTML 1KB] [PDF 767KB] ( 946 )
67 印刷体汉字识别后处理方法的研究
张宏涛,龙翀,朱小燕,孙俊
高阶N-gram语言模型在OCR后处理方面有着广泛的应用,但也面临着因模型复杂度大导致的数据稀疏,以及耗费较多的时空资源等问题。该文针对印刷体汉字识别的后处理,提出了一种基于字节的语言模型的后处理算法。通过采用字节作为语言模型的基本表示单位,模型的复杂度大大降低,从而数据稀疏问题得到很大程度上缓解。实验证明,采用基于字节的语言模型的后处理系统能够以极少的时空开销获取很好的识别性能。在有部分分割错误的测试集上,正确率从88.67%提高到了98.32%,错误率下降了85.18%,运行速度较基于字以及基于词的系统有了大幅的提升,提高了后处理系统的综合性能;与目前常用的基于词的语言模型后处理系统相比,新系统能够节省95%的运行时间和98%的内存资源,但系统识别率仅降低了1.11%。
2009 Vol. 23 (6): 67-72 [摘要] ( 576 ) [HTML 1KB] [PDF 732KB] ( 686 )
72 一种基于使用差异的词语领域性分析方法
李素建,宋涛,高杰,幺鹏跃,李文捷
领域知识的表达形式最终体现在词汇的领域性上,因此对领域词及其部件的领域度分析是一个关键。该文在分词的基础上,对各个领域语料进行分析,利用词语之间的关系,引入链接分析方法分析词语在各个领域中的使用重要性,并通过词语在各个领域中的使用差异性计算其领域度,从而达到领域分析的目的,获取某个领域的领域部件词。该文采用以上方法在军事、娱乐等领域进行了实验,实验结果表明该方法相对于当前常用的tf×idf方法和Bootstrapping方法,可以更有效地进行领域分析获取领域部件词。
2009 Vol. 23 (6): 72-79 [摘要] ( 398 ) [HTML 1KB] [PDF 745KB] ( 628 )
79 音字转换中分层解码模型的研究与改进
张顺昌,孙乐
音字转换是中文信息处理领域的一个重要研究方向,在语音识别、中文拼音输入中都有广泛应用。该文对音字转换中的拼音流切分歧义问题做了分析与研究,发现传统的分层隐马尔可夫解码模型在解决这个问题时存在缺陷,提出了利用语言模型知识辅助拼音流切分来改进已有的分层模型的思想。实验表明,与传统方法相比,该文的方法可以将首字准确率提高3%。
2009 Vol. 23 (6): 79-86 [摘要] ( 350 ) [HTML 1KB] [PDF 2789KB] ( 1279 )
86 基于RFC模型的基频曲线导数域编码方法研究
王磊,刘加
基频是发浊音时声带振动频率,通常用F0表示。在一个音节或连续的语音段中,F0是随时间变化的,这种变化的轨迹形成了基频曲线。基频曲线的走势可以反映出语句的重音、语调等韵律信息,所以对基频曲线的描述和研究就显得尤为重要。该文首先提出了一种基频曲线描述方法,即导数域编码方法,同时探讨了该编码方法在语音发音质量评价中对韵律的作用。实验结果表明基于该描述方法能够提高英语发音语调质量评价的性能,主观和客观评价的相关性由原来的基于基音极值差的0.38提高到0.49。
2009 Vol. 23 (6): 86-91 [摘要] ( 387 ) [HTML 1KB] [PDF 1172KB] ( 627 )
91 汉语语音检索的集外词问题与两阶段检索方法
孟莎,刘加
该文针对大规模汉语语音检索任务提出汉语语音检索中的集外词问题和针对集外查询词的两阶段检索方法。汉语语音识别和检索中,集外词可以以词表词序列的形式被识别和检索到,因此被认为不存在集外词问题;该文发现集外查询词性能远远低于集内查询词,将此问题定义为汉语语音检索任务的集外词问题,并提出两阶段的检索方法,第一阶段通过模糊音素匹配的方法提高查全率,第二阶段通过词格修正的方法提高查准率。实验表明,两阶段的检索方法极大的提高了典型集外查询词的检索性能,FOM指标相对基线系统提高了24.1%。
2009 Vol. 23 (6): 91-98 [摘要] ( 457 ) [HTML 1KB] [PDF 1177KB] ( 811 )
98 汉蒙翻译模型中的依存语法与形态信息应用研究
骆凯,李淼,乌达巴拉,杨攀,朱海,
该文提出将源语言句法信息和目标语言形态信息引入汉蒙机器翻译的模型构造中,以降低译文的词形错误率等问题。在源语言端,利用汉语依存句法分析器获取依存树,将依存句法信息以标注形式记在每个词上;在目标语言端,分析并获取蒙古语形态信息;利用LOP思想将源语言依存句法信息和目标语言形态信息引入翻译模型构造中。实验表明,其BLEU评分比传统的短语统计翻译模型有明显提高。该方法通过词、短语、句法三层面信息的结合,实现了汉蒙两种语言语法结构的平衡,特别适合于源语言形态信息贫乏而目标语言形态信息丰富的统计机器翻译系统。
2009 Vol. 23 (6): 98-105 [摘要] ( 408 ) [HTML 1KB] [PDF 1241KB] ( 632 )
105 基于trigger对的蒙古语语言模型的三种实现方法比较
刘志文,侯宏旭,李沙茹拉,柳林
基于trigger对的长距离蒙古语语言模型采用统计方法进行自然语言建模。该文简要介绍了基于trigger对的长距离蒙古语语言模型的三种实现方法,并在汉语-蒙古语机器翻译系统测试了这三种方法的性能。该文旨在通过对三种模型的比较研究,为基于trigger对的长距离蒙古语语言模型的具体应用提供参考和依据。
2009 Vol. 23 (6): 105-110 [摘要] ( 318 ) [HTML 1KB] [PDF 2017KB] ( 610 )
110 基于不确定有限自动机的蒙古文校对算法
斯·劳格劳
该文首先分析了蒙古文电子文本中存在的错误类型、出错原因以及常用的查错纠错方法,然后根据蒙古文特有的书写习惯和编码特点提出一种基于不确定有限自动机的校对算法。该算法采用有限自动机的方法对校对算法所依据的知识词典进行描述,大大提高了文本查错和纠错速度。
2009 Vol. 23 (6): 110-116 [摘要] ( 449 ) [HTML 1KB] [PDF 767KB] ( 359 )
116 维吾尔语名词构形词缀有限状态自动机的构造
早克热·卡德尔,艾山·吾买尔,吐尔根·依布拉音,艾斯卡尔·艾木都拉
该文主要阐述维吾尔语词干提取中使用的名词构形词缀分析DFA的构造过程。维吾尔语属于黏着语,所以维吾尔语自然语言处理系统必须实现词干提取。词干提取的主要任务从单词提取词干和连接词干词尾的构形词缀。维吾尔语单词的构形词缀按照一定的规则连接到词干词尾,这使得维吾尔语构形词缀的连接规则可用有限状态自动机形式化描述。该文首先介绍维吾尔语名词的形态结构,然后根据规则构造从右向左的有限状态自动机,最后对这个自动机进行方向翻转和转换确定自动机操作。
2009 Vol. 23 (6): 116-122 [摘要] ( 370 ) [HTML 1KB] [PDF 2233KB] ( 683 )
中文信息学报
·编辑部2023年春节放假通知
·2023年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发