中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2007年 21卷 5期
刊出日期:2007-10-15

综述
 
   
综述
1 分词规范亟需补充的三方面内容
李玉梅,陈晓,姜自霞,易江燕,靳光瑾,黄昌宁
本文认为,为提高语料库的分词标注质量应在分词规范中补充三个内容: ①命名实体(人名、地名、机构名)标注细则;②表义字串(日期、时间、百分数等)标注细则;③歧义字串的消解细则。因为一方面命名实体和表义字串已被不少分词语料库视为分词单位,另一方面在以往的分词规范中几乎从不谈及歧义消解问题。其实人们对歧义字串的语感往往是不同的。因此有必要在规范中对典型的歧义字串予以说明。实践表明,在规范中交待清楚以上三方面内容,就可以在很大程度上避免标注的错误和不一致性。
2007 Vol. 21 (5): 1-7 [摘要] ( 296 ) [HTML 1KB] [PDF 296KB] ( 1082 )
8 基于有效子串标注的中文分词
赵海,揭春雨
由于基于已切分语料的学习方法和体系的兴起,中文分词在本世纪的头几年取得了显著的突破。尤其是2003年国际中文分词评测活动Bakeoff开展以来,基于字标注的统计学习方法引起了广泛关注。本文探讨这一学习框架的推广问题,以一种更为可靠的算法寻找更长的标注单元来实现中文分词的大规模语料学习,同时改进已有工作的不足。我们提出子串标注的一般化框架,包括两个步骤,一是确定有效子串词典的迭代最大匹配过滤算法,二是在给定文本上实现子串单元识别的双词典最大匹配算法。该方法的有效性在Bakeoff-2005评测语料上获得了验证。
2007 Vol. 21 (5): 8-13 [摘要] ( 360 ) [HTML 1KB] [PDF 275KB] ( 995 )
14 基于双字耦合度的中文分词交叉歧义处理方法
王思力,王斌
本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法: 首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。
2007 Vol. 21 (5): 14-17 [摘要] ( 329 ) [HTML 1KB] [PDF 352KB] ( 995 )
18 汉语功能块自动分析
周强,赵颖泽
汉语功能块描述了句子的基本骨架,是联结句法结构和语义描述的重要桥梁。本文提出了两种不同功能块分析模型: 边界识别模型和序列标记模型,并使用不同的机器学习方法进行了计算模拟。通过两种模型分析结果的有机融合,充分利用了两者分析结果的互补性,对汉语句子的主谓宾状四个典型功能块的自动识别性能达到了80%以上。实验结果显示,基于局部词汇语境机器学习算法可以从不同侧面准确识别出大部分功能块,句子中复杂从句和多动词连用结构等是主要的识别难点。
2007 Vol. 21 (5): 18-24 [摘要] ( 276 ) [HTML 1KB] [PDF 2699KB] ( 849 )
25 基于动作建模的中文依存句法分析
段湘煜,赵军,徐波
决策式依存句法分析,也就是基于分析动作的句法分析方法,常常被认为是一种高效的分析算法,但是它的性能稍低于一些更复杂的句法分析模型。本文将决策式句法分析同产生式、判别式句法分析这些复杂模型做了比较,试验数据采用宾州中文树库。结果显示,对于中文依存句法分析,决策式句法分析在性能上好于产生式和判别式句法分析。更进一步,我们观察到决策式句法分析是一种贪婪的算法,它在每个分析步骤只挑选最有可能的分析动作而丢失了对整句话依存分析的全局视角。基于此,我们提出了两种模型用来对句法分析动作进行建模以避免原决策式依存分析方法的贪婪性。试验结果显示,基于动作建模的依存分析模型在性能上好于原决策式依存分析方法,同时保持了较低的时间复杂度。
2007 Vol. 21 (5): 25-30 [摘要] ( 347 ) [HTML 1KB] [PDF 350KB] ( 797 )
31 基于大规模语料库的句法模式匹配研究
张亮,陈家骏
通过大量记录的正确处理实例的分析过程和结果,在句法分析时,搜寻近似实例或片段,匹配相似语言结构和分析过程,这样的句法分析体现了“语言分析依赖经验”的思想。基于这样的思想,本文提出了一种基于模式匹配的句法分析的方法,即从大规模标注语料树库中抽取出蕴含的句法模式,构建模式、子模式及其规约库,句法分析的过程转化为模式匹配和局部模式转换的过程。实验表明句法分析的各项指标都比较理想,尤其是处理效率很高,平均句耗时0.46秒(CPU为Intel双核2.8G,内存为1G)。
2007 Vol. 21 (5): 31-35 [摘要] ( 267 ) [HTML 1KB] [PDF 1049KB] ( 800 )
36 基于依存分析和错误驱动的中文时间表达式识别
贺瑞芳,秦兵,刘挺,潘越群,李生
时间表达式识别是进行时间表达式归一化的基础,其识别结果的好坏直接影响归一化的效果。本文提出一种基于依存分析和错误驱动识别中文时间表达式的新方法。首先以时间触发词为切入点,据依存关系递归地识别时间表达式,大大地提高了识别效果;然后,采用错误驱动学习来进一步增强识别效果,根据错误识别结果和人工标注的差异自动地获取和改进规则,使系统的性能又提高了近3.5%。最终在封闭测试集和开放测试集上,F1值达到了76.38%和76.57%。
2007 Vol. 21 (5): 36-40 [摘要] ( 289 ) [HTML 1KB] [PDF 265KB] ( 837 )
41 基于分解转移矩阵的PageRank迭代计算方法
刘松彬,都云程,施水才
本文提出了一种基于分解转移矩阵的PageRank的迭代计算方法。该方法对PageRank理论模型进一步推导,把其Markov状态转移矩阵进行了分解,从而降低存储开销和计算复杂度,减少I/O需求,使得PageRank计算的工程化实现更为简单。实验表明1 700多万的网页2.8亿条链接,可以在30秒内完成一次迭代,内存需求峰值585MB,可以满足工程化应用的需求。
2007 Vol. 21 (5): 41-45 [摘要] ( 316 ) [HTML 1KB] [PDF 872KB] ( 1159 )
46 面向信息检索的概念关系自动构建
胡熠,陆汝占,刘慧
概念之间的依存分析是提高信息检索性能的关键。相比概念关系的强弱而言,识别关系的类型更有意义。本文在Bootstrapping框架下,以“(地理)领属”,“(实体)功能”和“(动作)对象”三种语义关系类型为例,获得了构建上下文中两个概念特定关系的语义模板,并开发了一个名为SPG的系统。本文的工作: (1)引入了生物信息计算中序列比对的方法两两生成相似上下文的模板;(2)定义了新的模板评价机制估计模板的置信度。就这三种概念关系的识别而言,SPG获得的模板集合相比DIPRE系统获得了更高的正确率和覆盖能力。
2007 Vol. 21 (5): 46-50 [摘要] ( 284 ) [HTML 1KB] [PDF 243KB] ( 816 )
51 基于多重冗余标记CRFs的句子情感分析研究
王根,赵军
本文提出了一种基于多重冗余标记的CRFs并将其应用于情感分析任务。该方法不仅能够有效地解决有序标记的分类问题,还能够在保证情感分析中各子任务能够使用不同特征的前提下,将情感分析中的主客观分类、褒贬分类和褒贬强弱分类任务统一在一个模型之中,在多个子任务上寻求联合最优,制约分步完成时误差的传播。实验证明,该方法有效地提高了句子情感分析任务的准确率。在理论上,该方法也为基于最大似然训练的算法解决序回归问题提供了一条途径。
2007 Vol. 21 (5): 51-55 [摘要] ( 286 ) [HTML 1KB] [PDF 1422KB] ( 1382 )
56 面向文本分类的基于最小冗余原则的特征选取
张希娟,王会珍,朱靖波
在文本分类中,为了降低计算复杂度,常用的特征选取方法(如IG)都假设特征之间条件独立。该假设将引入严重的特征冗余现象。为了降低特征子集的冗余度,本文提出了一种基于最小冗余原则(minimal Redundancy Principle, MRP)的特征选取方法。通过考虑不同特征之间的相关性,选择较小冗余度的特征子集。实验结果显示基于最小冗余原则方法能够改善特征选取的效果,提高文本分类的性能。
2007 Vol. 21 (5): 56-60 [摘要] ( 281 ) [HTML 1KB] [PDF 325KB] ( 668 )
61 中文歌词的统计特征及其检索应用
郑亚斌,刘知远,孙茂松
我们在歌词上做了一些传统的自然语言处理相关的实验。歌词是歌曲语义上的重要表达,因此,对歌词的分析可以作为歌曲音频处理的互补。我们利用齐夫定律对歌词语料库的字和词进行统计特征的考察,实验表明,其分布基本符合齐夫定律。利用向量空间模型的表示,我们可以找到比较相似的歌词集合。另外,我们探讨了如何利用歌词中的时间标注信息进行进一步的分析: 例如发现歌曲中重复片段,节奏划分,检索等。初步的实验表明,我们的方法具有一定的效果。
2007 Vol. 21 (5): 61-67 [摘要] ( 342 ) [HTML 1KB] [PDF 3230KB] ( 1198 )
68 基于链接分析的重要Blog信息源发现
杨宇航,赵铁军,郑德权,于浩
本文提出了一种基于链接分析的对Blog信息源进行量化评估的方法,在此基础之上发现重要Blog信息源,既体现了Blog信息的特点,又在一定程度上减小了作弊链接对链接分析结果的影响,能为用户阅读信息提供方便,并可望为Blog信息检索提供一种新的思路。为了证明该评估方法的有效性,本文还提出了Blog信息源重要性的评价指标,对比了重要Blog信息源量化评估方法和评价指标的评分结果,通过相关性分析,表明此方法和评价指标存在高度的一致性。
2007 Vol. 21 (5): 68-72 [摘要] ( 248 ) [HTML 1KB] [PDF 248KB] ( 605 )
73 汉语语句主题语义倾向分析方法的研究
姚天昉,娄德成
本文介绍了如何识别汉语语句主题和主题与情感描述项之间的关系以及如何计算主题的语义倾向(极性)。我们利用领域本体来抽取语句主题以及它的属性,然后在句法分析的基础上,识别主题和情感描述项之间的关系,从而最终决定语句中每个主题的极性。实验结果显示,与手工标注的语料作为金标准进行比较,用于识别主题和主题极性的改进后的SBV极性传递算法的F度量达到了72.41%。它比原来的SBV极性传递算法和VOB极性传递算法的F度量分别提高了7.6%和2.09%。因此,所建议的改进的SBV极性传递算法是合理和有效的。
2007 Vol. 21 (5): 73-79 [摘要] ( 324 ) [HTML 1KB] [PDF 316KB] ( 1369 )
80 现代汉语语义资源用于短语歧义模式消歧研究
王锦,陈群秀
现代汉语存在着许多歧义短语结构,仅依靠句中词性标记无法获得词与词之间正确的搭配关系。本文研究了大量包含歧义的短语实例,分析了计算机处理汉语结构时面临的定界歧义和结构关系歧义问题,在已有短语结构规则的基础上归纳出了七种结构歧义模式,提出了分析歧义模式的关键是四种基本搭配信息的判断,并实现了基于语义知识和搭配知识的消歧算法。对887处短语进行排歧的实验结果表明,处理短语结构的正确率由82.30%上升到87.18%。
2007 Vol. 21 (5): 80-86 [摘要] ( 296 ) [HTML 1KB] [PDF 304KB] ( 747 )
87 基于分层语块分析的统计翻译研究
魏玮,杜金华,徐波,
本文描述了一个基于分层语块分析的统计翻译模型。该模型在形式上不仅符合同步上下文无关文法,而且融合了基于条件随机场的英文语块分析知识,因此基于分层语块分析的统计翻译模型做到了将句法翻译模型和短语翻译模型有效地结合。该系统的解码算法改进了线图分析的CKY算法,融入了线性的N-gram语言模型。目前,本文主要针对中文-英文的口语翻译进行了一系列实验,并以国际口语评测IWSLT(International Workshop on Spoken Language Translation)为标准,在2005年的评测测试集上,BLEU和NIST得分均比统计短语翻译系统有所提高。
2007 Vol. 21 (5): 87-90 [摘要] ( 241 ) [HTML 1KB] [PDF 245KB] ( 652 )
91 基于“松弛尺度”的短语翻译对抽取方法
何彦青,周玉,宗成庆,王霞
短语对抽取是基于短语统计机器翻译方法的关键技术。当前广泛使用的Och提出的短语对抽取方法,过于依赖词对齐结果,因而只能抽取与词对齐完全相容的短语对。本文给出一种基于“松弛尺度”的短语抽取方法,对不能完全相容的短语对,结合词性标注信息和词典信息来判断是否进行抽取,放松“完全相容”的限制,可以保证为更多的源短语找到目标短语。实验表明,该抽取方法的性能比Och的方法有明显的改善和提高。
2007 Vol. 21 (5): 91-95 [摘要] ( 291 ) [HTML 1KB] [PDF 1017KB] ( 602 )
96 汉语框架语义知识库及软件描述体系
郝晓燕,刘伟,李茹,刘开瑛
汉语框架网络工程是以框架语义学为理论基础的基于语料库的计算词典编纂工程,用于语言学、计算语言学研究及自然语言处理研究。该工程的结果包括两部分: 汉语框架语义知识库(即词典资源)和相关软件。其中,汉语框架网络知识库包括框架库、句子库和词元库三部分,相关软件主要包括汉语框架语义知识库管理系统和基于Web的展示系统。本文介绍了汉语框架语义知识库的语义描述体系以及软件描述体系。
2007 Vol. 21 (5): 96-100 [摘要] ( 653 ) [HTML 1KB] [PDF 598KB] ( 1393 )
101 基于加权二部图的汉日词对齐
吴宏林,刘绍明,于戈
高效的自动词对齐技术是词对齐语料库建设的关键所在。当前很多词对齐方法存在以下不足: 未登录词问题、灵活翻译问题和全局最优匹配问题。针对以上不足,该文提出加权二部图最大匹配词对齐模型,利用二部图为双语句对建模,利用词形、语义、词性和共现等信息计算单词间的相似度,利用加权二部图最大匹配获得最终对齐结果。在汉日词语对齐上的实验表明,该方法在一定程度上解决了以上三点不足,F-Score为80%,优于GIZA</sub><sub>++的72%。
2007 Vol. 21 (5): 101-106 [摘要] ( 319 ) [HTML 1KB] [PDF 854KB] ( 744 )
107 现代汉语虚词知识库的研究
昝红英,张坤丽,柴玉梅,俞士汶
现代汉语虚词在句法中所起的作用比较复杂,其个性较强,用法各异。目前已有的虚词研究成果大都是面向人用的,对虚词个性的描写难以避免主观性和模糊性,很难直接应用于自然语言处理的研究。本文从计算语言学的观点出发,根据目前已有的虚词研究成果以及对真实语料中虚词用法规律的考察,着力构建面向机器的现代汉语虚词用法信息词典和虚词用法规则库,旨在为现代汉语虚词用法的机器识别打下一定的数据基础。
2007 Vol. 21 (5): 107-111 [摘要] ( 443 ) [HTML 1KB] [PDF 418KB] ( 2101 )
112 基于双语语料库的短语复述实例获取研究
李维刚,刘挺,李生
本文提出一种基于双语语料库的短语复述实例获取方法,尤其能够很好的抽取歧义短语的复述实例。该方法通过输入一个双语短语对约束短语的语义,利用词对齐的双语语料库,构造一个双向抽取模型从中抽取双语对的复述实例。双向抽取模型通过比较每一个候选复述短语和输入短语之间的语义一致性,来确定每个候选是否成为最终的复述实例。实验结果表明,本文短语复述实例获取方法的综合准确率达到了 60% ,获取了较好的性能。
2007 Vol. 21 (5): 112-117 [摘要] ( 311 ) [HTML 1KB] [PDF 276KB] ( 683 )
118 语言学与统计方法结合建立汉语动词SCF类型集
冀铁亮,孙薇薇,穗志方
动词子语类框架(Subcategorization Frame以下简称SCF)在句法分析、语义角色标注等方面的研究中具有不可或缺的重要作用。在子语类框架信息的获取过程中,首先要建立标准完备的子语类框架类型集。目前英语研究已经建立了获得普遍共识的子语类框架类型集。而汉语方面还没有标准的动词子类框架类型集。本文提出一种语言学知识与统计方法相结合的汉语动词子语类框架类型集的半自动获取方案。初步建立起既符合统计结果又基本符合语言学理论的汉语动词子语类框架类型集。实验证明,加入语言学理论的子语类框架类型集降低了对语料的依赖程度,比完全由分析语料产生的类型集更完备。
2007 Vol. 21 (5): 118-125 [摘要] ( 248 ) [HTML 1KB] [PDF 336KB] ( 1166 )
126 基于多层次特征集成的中文实体指代识别
张海雷,曹菲菲,陈文亮,任飞亮,王会珍,朱靖波
实体指代识别(Entity Mention Detection, EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。
2007 Vol. 21 (5): 126-130 [摘要] ( 327 ) [HTML 1KB] [PDF 136KB] ( 878 )
131 否定词跨标点句管辖的判断
张瑞朋,宋柔
现代汉语中基本否定词“不”以及扩充词“从不”、“很不”、“不能”、“不会”等的否定辖域受到学术界重视,但前人研究一般局限于句内,且主要局限于基本否定词,其实否定辖域也涉及多个标点句,否定词的管辖判断也涉及到扩充的否定词。跨标否定词跨标点句管辖的判断和否定词共享问题是整个跨标点句句法共享问题的一个重要组成部分。本文从形式上找到了一些否定词跨标点句的共享规律,即着重从形式角度讨论了否定词跨标点句的辖域问题,对现代汉语长句句法分析有重要作用,并对汉外机器翻译有实用价值。
2007 Vol. 21 (5): 131-135 [摘要] ( 268 ) [HTML 1KB] [PDF 223KB] ( 964 )
136 ACL2007会议观感
刘群,刘洋
每年一度的计算语言学学会年会(Annual Meeting of ACL)是计算语言学界的盛会,也是计算语言学和自然语言处理领域最有影响的学术会议,ACL每年发表的论文都反映了这一领域的最新研究进展和学术动向,受到研究工作者的广泛重视。今年的ACL2007是ACL的第45届年会,在美丽而又浪漫的东欧古城——捷克首都布拉格召开,同时召开的有EMNLP-CoNLL 2007和IWPT 2007等2个学术会议(Conference)、15个学术研讨会(Workshop)以及5个专题讲座(Tutorial)。会期从6月23日开始一直持续到6月30日结束,根据ACL2007网站公布的名单,参加会议的人数达到了创纪录的1
2007 Vol. 21 (5): 136-138 [摘要] ( 229 ) [HTML 1KB] [PDF 163KB] ( 644 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发