中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2006年 20卷 4期
刊出日期:2006-08-15

 
   
3 基于规则与统计相结合的中文文本自动查错模型与算法
张仰森,曹元大,俞士汶
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43% ,误报率为30.57%。
2006 Vol. 20 (4): 3-9,57 [摘要] ( 350 ) [HTML 1KB] [PDF 322KB] ( 1436 )
10 引入标点处理的层次化汉语长句句法分析方法
李幸,宗成庆
在分析汉语标点符号用法和句法功能的基础上,本文提出了一种新的面向汉语长句的层次化句法分析方法。这种方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级来进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句或短语之间的句法关系以及子句和短语内部成分的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的一遍图表(chart)分析方法相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。
2006 Vol. 20 (4): 10-17 [摘要] ( 325 ) [HTML 1KB] [PDF 557KB] ( 1186 )
18 隐喻的计算研究与进展
王治敏
隐喻作为自然语言处理最棘手的问题之一逐渐引起了学者们的关注,国外学者在隐喻模型设计和隐喻知识库建设方面进行了很多尝试,也取得了一定效果。相比较而言,中文隐喻计算研究却显得有些薄弱,因此本文在传统隐喻研究的基础上综述了隐喻计算模型和隐喻知识库建设方面的进展,重点介绍了基于优选限制思想的Met5系统,基于实例方法的MIDAS系统,以及以统计为手段,基于大规模语料库提取的隐喻分析模型CorMet系统。通过总结国外的相关研究成果,探索面向信息处理的汉语隐喻形式化的研究方向。
2006 Vol. 20 (4): 18-26 [摘要] ( 310 ) [HTML 1KB] [PDF 436KB] ( 1032 )
27 复述技术研究综述
刘挺,李维刚,张宇,李生
复述是自然语言中比较普遍的一个现象,它集中反映了语言的多样性。复述研究的对象主要是短语或者句子的同义现象。自然语言处理各种底层技术的不断发展和成熟,为复述研究提高了可能,使之受到越来越多的关注。在英文和日文方面,复述技术已经被成功的应用到信息检索、自动问答、信息抽取、自动文摘以及机器翻译等多个领域,有效地提高了系统的性能。本文主要对复述实例库的构建、复述规则的抽取以及复述的生成等几方面的最新研究进展进行详细的综述,并简要介绍了我们在中文复述方面进行的初步研究工作。在文章的最后一部分,我们对复述技术的难点及未来的发展方向进行了展望,并对全文进行了总结。
2006 Vol. 20 (4): 27-34 [摘要] ( 472 ) [HTML 1KB] [PDF 328KB] ( 1667 )
35 重新审视跨语言信息检索
闵金明,孙乐,张俊林
阻碍互联网资源在世界范围内广泛共享的一个主要障碍是多语言问题,而跨语言信息检索是解决这个问题的有效方法之一。本文从定义跨语言信息检索系统开始,给出了一个标准的跨语言信息检索系统框架和评价方法,对主流研究方法进行了重新审视,进一步明确指出了跨语言信息检索中必须解决的核心问题,最后通过分析研究现状给出了未来可能的重点研究方向。
2006 Vol. 20 (4): 35-42 [摘要] ( 359 ) [HTML 1KB] [PDF 391KB] ( 906 )
43 基于混合语言模型的文档相似性计算模型
李晓光,于戈,王大玲
为了克服现有文档相似性模型对文档特性拟合的不完全性和缺乏理论根据的弱点,本文在统计语言模型的基础上,提出了一种基于混合语言模型(Mixture Language Model,MLM)文档相似性计算模型。MLM利用统计语言模型描述文档特征,将相关影响因素作为模型的潜在子模型,文档语言模型由各子模型混合构成,从而准确和全面地反映文档特征。由于MLM根据具体应用确定相关影响因素,并以此构建相应文档描述模型,因此具有很强的灵活性和扩展性。在MLM的基础上,本文给出了一个基于文档主题内容相似性的实例,在TREC9数据集上的实验表明MLM优于向量空间模型(VSM)。
2006 Vol. 20 (4): 43-50 [摘要] ( 375 ) [HTML 1KB] [PDF 248KB] ( 933 )
51 基于概念匹配的中文问答处理模型核心问题探讨
吴晨,张全
为了解决问答处理系统中的语义模糊问题,提高问答处理的性能,研究人员尝试采用概念作为系统处理的对象,而不再是语言表层符号,然而,在引入概念进行处理的同时引来了一些新的问题,如概念的抽取、概念关联计算以及特定于问答系统的问题理解、问题求解、答案生成等问题。在概念抽取、概念关联计算方面,已有一些比较成功的算法。本文将在此基础上,针对实现这样一个问答处理系统所存在的一些未涉及的核心问题进行一个探讨,同时提出解决以上问题的方法。实验及实际应用表明基于所提出算法的概念问答系统具有较强的性能,系统总体自动处理准确率将近达到40%。在实际应用中也表现出较高的应用价值。
2006 Vol. 20 (4): 51-57 [摘要] ( 280 ) [HTML 1KB] [PDF 299KB] ( 750 )
58 蒙古语语言-文字的自动化处理
伊·达瓦,张玉洁,上园一知,大川茂树,章森,井佐原均,白井克彦
本文首先叙述了蒙文电子化的意义以及蒙文电子化数据的现状。然后重点讨论了在不同地区和国家使用的蒙文书面语以及口语的不同和蒙文在计算机处理时所面临的问题。最后,介绍了我们在日本建设的针对蒙古语语言信息处理的两种语言资源:蒙古语多方言口语语料库和蒙文多文种-多语言并行语法标注电子词典,后者得到了2005年中日蒙韩国际合作课题“蒙文自然语言处理技术的研究”的资助。
2006 Vol. 20 (4): 58-64,95 [摘要] ( 263 ) [HTML 1KB] [PDF 771KB] ( 766 )
65 基于HMM的满文文本识别后处理的研究
赵骥,李晶皎,王丽君,张继生
将满文单词识别系统的识别信息和满文的词组信息有机的结合起来,建立满文词组和待定词集统计信息库,采用基于统计的隐马尔可夫模型的方法,依据贝叶斯准则,综合满文待定词的后验概率和词组的先验概率信息,建立合理有效便于实现的数据结构,采用动态规划法对满文单词识别系统输出存在的拒识词和错识词进行检测和纠正,从而有效的提高满文文本识别系统的识别率。实验表明:后处理性能除取决于语言模型外,还取决于概率的精确估计。另外,在单词识别系统识别率高的情况下,后处理的纠错能力会增强。
2006 Vol. 20 (4): 65-69 [摘要] ( 269 ) [HTML 1KB] [PDF 224KB] ( 687 )
70 基于trigram语体特征分类的语言模型自适应方法
梁奇,郑方,徐明星,吴文虎
本文从书面语和口语存在的差异出发,提出了语言模型的语体自适应方法。自适应采用了几种不同的计数意义上的插值算法。考虑Katz平滑的插值算法根据trigram单元的可信度来分配权值。基于trigram语体特征分类的自适应算法根据trigram单元的语体特征倾向动态分配权值,并选取了几种不同的权值生成函数。对口语语料做音转字的实验证明,使用这几种自适应算法可以让基准模型的性能有不同程度的提高,其中综合考虑单元可信度和特征倾向的算法效果最好,相对于本文的两个基准的汉字错误率下降率分别达到了50.2%和23.7%。
2006 Vol. 20 (4): 70-76 [摘要] ( 305 ) [HTML 1KB] [PDF 298KB] ( 839 )
77 基于HMM的可训练中文语音合成
吴义坚,王仁华
本文将基于HMM的可训练语音合成方法应用到中文语音合成。通过对HMM建模参数的合理选择和优化,并基于中文语音特性设计上下文属性集以及用于模型聚类的问题集,提高其建模和训练效果。从对比评测实验结果来看, 98.5%的合成语音在改进后其音质得到改善。此外,针对合成语音节奏感不强的问题,提出了一种基于状态和声韵母单元的两层模型用于时长建模和预测,集外时长预测RMSE由29,56ms降为27.01ms。从最终的合成系统效果来看,合成语音整体稳定流畅,而且节奏感也比较强。由于合成系统所需的存贮量非常小,特别适合嵌入式应用。
2006 Vol. 20 (4): 77-83 [摘要] ( 482 ) [HTML 1KB] [PDF 568KB] ( 1447 )
84 一种新的基于主题的语言模型自适应方法
任纪生,王作英
基于主题的语言模型自适应方法应尽可能提高语言模型权重系数的更新速度并降低语言模型的调用量以满足语音识别实时性要求。本文采用基于聚类的方法实现连续相邻二元词对的量化表示并以此刻画语音识别预测历史和各个文本主题中心,依据语音识别历史矢量和各个文本主题中心矢量的相似度更新语言模型权重系数并摒弃全局语言模型。同传统的基于EM算法的自适应方法相比,实验表明该方法明显提高了语音识别性能和实时性,识别错误率相对下降5.1% ,说明该方法可比较准确地判断测试内容所属文本主题。
2006 Vol. 20 (4): 84-89 [摘要] ( 235 ) [HTML 1KB] [PDF 256KB] ( 793 )
90 LINUX下维、哈、柯文多语种图形化处理平台的设计与实现
苏国平,缪成,夏国平
针对维吾尔文字、哈萨克文字、柯尔克孜文字(以下简称“维哈柯文”)的特点以及进行维哈柯文、西文等多语种混合处理时的特殊需求,本文通过对Linux的I18N体系中NLS(National Language Support)研究分析,提出了基于Linux的多语种图形化处理平台的设计目标与总体架构。该平台由维哈柯文本地化环境、维哈柯文显示、自适应维哈柯文输入和维哈柯文打印输出等4个子系统的十余个模块组成。本文详细介绍了各子系统主要模块的实现技术。通过在redhat linux 810、turbolinux上测试表明,该平台在桌面环境、编辑软件、网络浏览、数据库软件、多媒体软件、图形处理软件等应用中均能较好的实现维哈柯文、汉文、西文的混合输入、显示、编辑、排版、打印等功能。
2006 Vol. 20 (4): 90-95 [摘要] ( 295 ) [HTML 1KB] [PDF 267KB] ( 867 )
96 基于Qt的国际化图形用户界面设计与实现
刘汇丹,芮建武,姚延栋,吴健
一次开发多语言使用是国际化软件开发的主要目标。但是世界上的文字多种多样,它们的书写方向也有所不同,除了水平从左向右书写的英文、水平从右往左书写的阿拉伯文外,还有类似蒙古文这样垂直排列的文字,这对计算机图形用户界面提出了更高的要求,现有的计算机系统将这类垂直排列的文字沿水平方向输出,极不符合少数民族人民的习惯。在分析现有Qt库对类似阿拉伯文这样从右向左书写的文字的部分支持机制的基础上,我们设计并实现了支持四种方向模式的国际化的图形用户界面,现在它已经能够适应世界上几乎所有的文字。这对于软件国际化以及民族语言信息处理有重要意义。
2006 Vol. 20 (4): 96-101 [摘要] ( 346 ) [HTML 1KB] [PDF 552KB] ( 978 )
102 智能型汉字数码输入技术的研究
顾平,朱巧明,李培峰,钱培德
针对数字编码的特点,本文提出了一种在不改变编码方案的情况下通过改进输入规则,结合语言模型,实现汉字数字编码的智能输入技术。文章首先讨论了怎样设计字词码本结构,使之能够满足灵活多样的输入方式,继而设计了一种动态自学习语言模型,重点分析了数据平滑算法在语言模型中的应用与改进,最后通过一个输入法示例程序,对改进前后不同情况下的输入效果进行了测试。实验表明,这种输入技术不但降低了输入法的平均码长,而且显著地提高了首字命中率。
2006 Vol. 20 (4): 102-107 [摘要] ( 257 ) [HTML 1KB] [PDF 475KB] ( 696 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发