中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2007年 21卷 3期
刊出日期:2007-06-15

综述
 
   
综述
3 自然语言处理的计算模型
张钹
本文讨论自然语言处理的计算模型。目前已经存在有各种类型的语言计算模型,如分析模型、概率统计模型、混合模型等,这些模型各具特色,并存在其自身的局限性。自然语言处理作为一个不适定问题,我们将讨论求解这类问题的本质困难,面临的挑战,以及解决这些困难的途径。
2007 Vol. 21 (3): 3-7 [摘要] ( 327 ) [HTML 1KB] [PDF 242KB] ( 1624 )
8 中文分词十年回顾 Hot!
黄昌宁,赵海
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为: (1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。
2007 Vol. 21 (3): 8-19 [摘要] ( 1148 ) [HTML 1KB] [PDF 501KB] ( 1775 )
20 有关“理解和分词孰先孰后”的反思
吴安迪
“中文分词十年回顾”一文中有“理解和分词孰先孰后”这一节,专门讨论NLPwin中文系统的分词。作为该系统的开发者之一,我觉得有必要对这个问题作一反省。
   作为一门科学,语言学的目标之一是了解人类语言处理的机制。对我而言,计算语言学的最高境界是做出一套能反映人脑语言机制真实状况的, 具有心理学价值的电脑系统。从心理语言学的角度看,“理解和分词孰先孰后”这个问题是不存在的。人脑分析句子的过程显然是一个分词和理解互动的过程,理解依赖于分词,分词也依赖于理解。NLPwin中文系统的设计理念就是要反映人脑的这一分析过程。我们没有做一个专用于分词的系统,因为孤立的分词不是一种自然的人类语言行为。
   从工程的角度看,分词和理解是完全可以分开的。对于工程来说,切分一个汉语的字串和切分任何其他字串没有太大的区别。我们可以把最好的、具有通用性的切分技术用于汉语分词。在此过程中我们不需要知道所切汉语字串所表达的意义。这里所要解决的主要是一个数学问题,而不是语言理解问题。把理解插入分词过程会大大增加计算的复杂度,其结果往往是得不偿失。所以如果我们的目的仅仅是分词,理解是没有必要的。
2007 Vol. 21 (3): 20-20 [摘要] ( 269 ) [HTML 1KB] [PDF 89KB] ( 755 )
21 汉语基本块描述体系
周强,
块分析是自然语言处理研究中的重要技术,其处理基础是设计一套合理有效的块描述体系。本文在吸收和总结前人研究成果和经验的基础上,提出了一套基于拓扑结构的汉语基本块描述体系。它通过引入词汇关联信息确定基本拓扑结构,形成了很好的基本块内聚性判定准则,建立了句法形式与语义内容的有机联系桥梁。这套描述体系大大简化了从现有的句法树库TCT中自动提取基本块标注语料库和相关词汇关联知识库的处理过程,为进一步进行汉语基本块自动分析和词汇关联知识获取互动进化研究打下了很好的基础。
2007 Vol. 21 (3): 21-27 [摘要] ( 298 ) [HTML 1KB] [PDF 174KB] ( 771 )
28 单纯形算法在统计机器翻译Re-ranking中的应用
付雷,刘群
近年来,discriminative re-ranking技术已经被应用到很多自然语言处理相关的分支中,像句法分析,词性标注,机器翻译等,并都取得了比较好的效果,在各自相应的评估标准下都有所提高。本文将以统计机器翻译为例,详细地讲解利用单纯形算法(Simplex Algorithm)对翻译结果进行re-rank的原理和过程,算法的实现和使用方法,以及re-rank实验中特征选择的方法,并给出该算法在NIST-2002(开发集)和NIST-2005(测试集)中英文机器翻译测试集合上的实验结果,在开发集和测试集上,BLEU分值分别获得了1.26%和1.16%的提高。
2007 Vol. 21 (3): 28-33 [摘要] ( 316 ) [HTML 1KB] [PDF 283KB] ( 789 )
34 双语知识库中关联实例的多策略提取机制
张桂平,,姚天顺,尹宝生,蔡东风,宋彦
双语库是翻译记忆系统最重要的组成部分之一。从有限规模的双语库中提取更多的符合用户当前翻译需要的关联实例是翻译记忆技术研究的主要内容,本文首先对当前基于单一方法的实例检索算法存在的局限性进行了分析,并在对双语库进行知识化表示的基础上,提出了基于多策略的关联实例提取机制,即综合运用句子句法结构匹配、句子编辑距离计算、句子短语片段匹配、词汇语义泛化、基于扩展信息(如: 句子来源、所属专业、应用频度等信息)的优选等策略进行关联实例提取。试验结果表明,该方法有效提高了关联实例的召回数量和质量,明显改善了对用户的辅助效果。
2007 Vol. 21 (3): 34-39 [摘要] ( 288 ) [HTML 1KB] [PDF 309KB] ( 662 )
40 汉语述语形容词机器词典机器学习词聚类研究
王锦,陈群秀
本文提出了一个基于现代汉语述语形容词机器词典以及平衡语料库的形容词多信息聚类算法。聚类的过程根据形容词的语料提取了三重信息(所修饰的名词,同义近义词以及反义词),从而使形容词与形容词之间构成网络关系。本文重点描述了如何根据三重信息分别建模计算形容词的相似性并通过计算字面相似度以及路径权值这些辅助信息修正每两个形容词之间的相似度,从而在某种程度上缓解了数据稀疏的问题,实验结果显示该算法是有效的。
2007 Vol. 21 (3): 40-46 [摘要] ( 316 ) [HTML 1KB] [PDF 820KB] ( 1267 )
47 基于层次聚类的自适应信息过滤学习算法
洪宇,张宇,刘挺,郑伟,龚诚,李生
本文采用一种基于层次聚类的自适应学习策略,从系统反馈的信息流中,动态提取一类最优信息的质心更新用户模型,有效屏蔽了阈值失真和初始信息稀疏造成的大量反馈噪声,并且能够近似模仿人工反馈,完善自适应学习机制的智能性。
2007 Vol. 21 (3): 47-53 [摘要] ( 287 ) [HTML 1KB] [PDF 1095KB] ( 832 )
54 一种基于紧密度的半监督文本分类方法
郑海清,林琛,牛军钰
自动的文本分类已经成为一个重要的研究课题。在实际的应用情况下,很多训练语料都只有一个数目有限的正例集合,同时语料中的正例和未标注文档在数量上的分布通常也是不均衡的。因此这种文本分类任务有着不同于传统的文本分类任务的特点,传统的文本分类器如果直接应用到这类问题上,也难以取得令人满意的效果。因此,本文提出了一种基于紧密度衡量的方法来解决这一类问题。由于没有标注出来的负例文档,所以,本文先提取出一些可信的负例,然后再根据紧密度衡量对提取出的负例集合进行扩展,进而得到包含正负例的训练集合,从而提高分类器的性能。该方法不需要借助特别的外部知识库来对特征提取,因此能够比较好的应用到各个不同的分类环境中。在TREC’05(国际文本检索会议)的基因项目的文本分类任务语料上的实验表明,该算法在解决半监督文本分类问题中取得了优异的成绩。
2007 Vol. 21 (3): 54-60 [摘要] ( 287 ) [HTML 1KB] [PDF 717KB] ( 1211 )
61 基于信息增益的中文文本关联分类
陈志雄,陈健,闵华清
关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度-置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则,忽略了文字的分类有效性。本文提出一种新的ACIG算法,结合信息增益与FoilGain在中文文本中选择规则的文字,以提高文字的分类有效性。实验结果表明,ACIG算法比其他关联分类算法(CPAR)有更高的准确率。
2007 Vol. 21 (3): 61-68 [摘要] ( 313 ) [HTML 1KB] [PDF 959KB] ( 776 )
69 基于小世界模型的中文文本主题分析
石晶,胡明,戴国忠
本文旨在研究如何基于小世界模型进行文本分割,确定片段主题,进而总结全文的中心主题,使文本的主题脉络呈现出来。为此首先证明由文本形成的词汇共现图呈现短路径,高聚集度的特性,说明小世界结构存在于文本中;然后依据小世界结构将词汇共现图划分为“簇”,通过计算“簇”在文本中所占的密度比重识别片段边界,使“簇”与片段对应起来;最后利用短路径,高聚集度的特性提取图“簇”的主题词,采取背景词汇聚类及主题词联想的方式将主题词扩充到待分析文本之外,尝试挖掘隐藏于字词表面之下的文本内涵。虽然国际上已有很多关于小世界结构及基于其上的应用研究,但利用小世界特性进行主题分析还是一个崭新的课题。实验表明,本文所给方法的结果明显好于其他方法,说明可以为下一步文本推理的工作提供有价值的预处理。
2007 Vol. 21 (3): 69-75 [摘要] ( 310 ) [HTML 1KB] [PDF 314KB] ( 1191 )
76 用于文本分类的改进KNN算法
王煜,王正欧,白石
最近邻分类器是假定局部的类条件概率不变,而这个假定在高维特征空间中无效。因此在高维特征空间中使用k最近邻分类器,不对特征权重进行修正就会引起严重的偏差。本文采用灵敏度法,利用前馈神经网络获得初始特征权重并进行二次降维。在初始权重下,根据样本间相似度采用SS树方法将训练样本划分成若干小区域,以此寻找待分类样本的近似k0个最近邻,并根据近似k0个最近邻和Chi-square距离原理计算新权重,搜索出新的k个最近邻。此方法在付出较小时间代价的情况下,在文本分离中可获得较好的分类精度的提高。
2007 Vol. 21 (3): 76-82 [摘要] ( 292 ) [HTML 1KB] [PDF 312KB] ( 983 )
83 中文网络聊天语言的奇异性与动态性研究
夏云庆,黄锦辉,张普
: 随着互联网走入社会生活,网络聊天逐渐成为一种新的沟通渠道,网络聊天语言便应运而生。这类语言的日益丰富,给语言信息处理带来了新的挑战。研究发现,困难主要来自网络聊天语言的奇异性和动态性。本文借助真实网络聊天语言文本,对网络聊天语言的奇异性和动态性进行详细分析和归纳,并设计了面向解决奇异性和动态性问题的网络聊天语言文本识别与转换方法。我们先以网络聊天语言语料库为基础建立网络聊天语言模型和语言转换模型,通过信源–信道模型实现网络聊天语言向标准语言的转换。但该方法过于依赖网络聊天语言语料库,虽然能较好解决奇异性问题,但不能处理动态性问题。因此,我们进而以标准汉语语料库为基础建立文字语音映射模型,对信源–信道模型进行改进,最终有效解决了网络聊天语言的动态性问题。
2007 Vol. 21 (3): 83-91 [摘要] ( 331 ) [HTML 1KB] [PDF 465KB] ( 997 )
92 面向中文陌生文本的人机交互式分词方法
李斌,陈小荷
自动分词是中文信息处理的基础课题之一。为了克服传统分词方法在处理特殊领域文本时遇到的困难,本文提出了一种新的分词方法,在没有词表和训练语料的条件下,让用户参与到分词过程中,增加系统的语言知识,以适应于不同的语料和分词标准。系统采用改进的后缀数组算法,不断提取出候选词语,交给用户进行筛选,最后得到词表进行分词。四个不同语料的实验结果显示,不经过人工筛选,分词F值可以达到72%左右;而经过较少的人机交互,分词F值可以提高12%以上。随着用户工作量的增加,系统还能够进一步提高分词效果。
2007 Vol. 21 (3): 92-98 [摘要] ( 339 ) [HTML 1KB] [PDF 2348KB] ( 693 )
99 中文词语语义相似度计算——基于《知网》2000
李峰,李芳
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点: 认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。
2007 Vol. 21 (3): 99-105 [摘要] ( 468 ) [HTML 1KB] [PDF 425KB] ( 2135 )
106 基于广义置信度的样本选择算法
任俊玲
: 对模式识别系统而言,不同的训练样本在建立模式类模型时所起的作用不同,因此必须对训练样本进行选择。而在训练样本中,边界样本的判定方式以及训练样本中包含边界样本数量的多少对分类的精度起主要作用。为此,结合基于模板匹配的脱机手写汉字识别,定义了一种通过广义置信度判定边界样本的方法,并且在此基础上建立了基于广义置信度的训练样本选择算法。通过在脱机手写汉字数据库HCL2004上进行实验,由该算法选择出的训练样本集在训练样本数减少的同时,使得系统识别率有了较大的提高,从而证实了该算法的有效性。
2007 Vol. 21 (3): 106-110 [摘要] ( 337 ) [HTML 1KB] [PDF 140KB] ( 835 )
111 OpenOffice.org对非BMP平面字符支持的实现
介孟恩,吴健,贾彦民,吕元华,
Unicode标准中的非BMP平面字符多用于古籍研究或者少数民族语言文字,由于这些字符的使用面特别窄,多数软件系统包括办公软件都不支持对这些字符的处理。本文以开源办公套件OpenOffice.org为基础,分析了它对非BMP平面支持的现状,然后着重探讨了实现对非BMP平面字符的全面支持所需要解决的一系列问题,并分别给出了合理的改进方案,最后以CJK和藏文为例展示了改进后的效果。
2007 Vol. 21 (3): 111-116 [摘要] ( 281 ) [HTML 1KB] [PDF 3354KB] ( 589 )
117 基于弹性网格模糊特征的手写体汉字识别方法
刘伟,朱宁波,何浩智,李德鑫,孙发军
网格方向特征在手写体汉字识别系统中得到广泛应用,被认为是目前较成熟的手写体汉字特征之一。网格技术是网格方向特征的关键技术之一。根据汉字笔画分布特点及拓扑结构的相关性,提出了一种新的基于弹性网格及其相关模糊特征的提取方法。该方法使特征向量的信息量增加,特征更加稳定。对银行支票图像大写金额的识别率达到97.64%,实验结果证明本文方法比其他网格方向特征更有效。
2007 Vol. 21 (3): 117-121 [摘要] ( 525 ) [HTML 1KB] [PDF 446KB] ( 705 )
122 支持重音合成的汉语语音合成系统
朱维彬
针对基于单元挑选的汉语语音合成系统中重音预测及实现,本文采用了知识指导下的数据驱动建模策略。首先,采用经过感知结果优化的重音检测器,实现了语音数据库的自动标注;其次,利用重音标注数据库,训练得到支持重音预测的韵律预测模型;用重音韵律预测模型替代原语音合成系统中的相应模型,从而构成了支持重音合成的语音合成系统。实验结果分析表明,基于感知结果优化的重音检测器的标注结果是可靠的;支持重音的韵律声学预测模型是合理的;新的合成系统能够合成出带有轻重变化的语音。
2007 Vol. 21 (3): 122-128 [摘要] ( 306 ) [HTML 1KB] [PDF 2607KB] ( 1051 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发