中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2006年 20卷 3期
刊出日期:2006-06-15

 
   
3 应用二叉树剪枝识别韵律短语边界
荀恩东,钱揖丽,郭庆,宋柔
句子的韵律短语识别是语音合成的重要研究内容。本文提出了应用统计语言模型生成的二叉树,结合最大熵方法识别待合成汉语句子的语音停顿点。文中给出了二叉树相关的模型训练和生成算法;二叉树与语音停顿点之间的关系;在最大熵方法中应用二叉树剪枝识别句子的韵律短语。实验结果表明,在搜索算法中,利用二叉树进行剪枝,可以很大程度上提高语音停顿预测的正确率和召回率,基于试验数据的f-Score提高了近35%。
2006 Vol. 20 (3): 3-7,30 [摘要] ( 265 ) [HTML 1KB] [PDF 314KB] ( 668 )
8 基于AdaBoost.MH算法的汉语多义词消歧
刘风成,黄德根,姜鹏
本文提出一种基于AdaBoost MH算法的有指导的汉语多义词消歧方法,该方法利用AdaBoost MH算法对决策树产生的弱规则进行加强,经过若干次迭代后,最终得到一个准确度更高的分类规则;并给出了一种简单的终止算法中迭代的方法;为获取多义词上下文中的知识源,在采用传统的词性标注和局部搭配序列等知识源的基础上,引入了一种新的知识源,即语义范畴,提高了算法的学习效率和排歧的正确率。通过对6个典型多义词和SENSEVAL3中文语料中20个多义词的词义消歧实验,AdaBoost MH算法获得了较高的开放测试正确率(85.75%)。
2006 Vol. 20 (3): 8-15 [摘要] ( 388 ) [HTML 1KB] [PDF 335KB] ( 885 )
16 基于粗糙集的基本名词短语识别
郭永辉,杨红卫,马芳,王炳锡
本文提出了一种基于粗糙集的基本名词短语(BaseNP)识别方法。该方法首先进行BaseNP标注,然后实现BaseNP识别。它把BaseNP标注看作一个决策问题用粗糙集理论解决,因而具有特征约简和规则优化的特点。文章介绍了基于粗糙集的规则学习方法和相应的算法,同时也给出了BaseNP标注和识别的算法流程,提出了解决实例冲突问题的方法,并提高了识别效果。文章最后给出了详细的实验步骤和结果,并与几个典型系统进行了比较与分析,提出了进一步改进的方向。
2006 Vol. 20 (3): 16-23 [摘要] ( 316 ) [HTML 1KB] [PDF 312KB] ( 763 )
24 中文文本分类中基于概念屏蔽层的特征提取方法
廖莎莎,江铭虎
本文提出了一种新的基于概念抽取和屏蔽层的特征选择方法。该方法利用HowNet概念词典中的概念树,通过义原在概念树中的位置信息进行概念抽取,并赋予其适当权值来说明其描述能力。对于权值低于屏蔽层的义原,我们不将其选入特征集,并相应保留原词。具体到每个词,我们计算其DEF条目中的权值,决定是将原词选入特征集还是进行概念抽取。本文重点研究了如何给义原设定一个合适的权值,如何在选取原词和概念之间取得平衡以及针对非概念词的加权处理。实验证明,设定合适的屏蔽层,不仅可以缩小特征维数,使分类正确率得到一定的提高,而且可以减少不同类别间的分类正确率的差别。
2006 Vol. 20 (3): 24-30 [摘要] ( 501 ) [HTML 1KB] [PDF 302KB] ( 617 )
31 基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统
毛伟,徐蔚然,郭军
本文提出了一个基于n-gram语言模型进行文本表示,采用链状朴素贝叶斯分类器进行分类的中文文本分类系统。介绍了如何用n-gram语言模型进行文本表示,阐述了链状朴素贝叶斯分类器与n-gram语言模型相结合的优势,分析了n-gram语言模型参数的选取,讨论了分类系统的若干重要问题,研究了训练集的规模和质量对分类系统的影响。根据863计划文本分类测评组所提供的测试标准、训练集以及测试集对本文所设计的分类系统进行测试,实验结果表明该分类系统有良好的分类效果。
2006 Vol. 20 (3): 31-37 [摘要] ( 420 ) [HTML 1KB] [PDF 403KB] ( 1086 )
38 《元朝秘史》电子文本检索系统的研制
江荻,严海林,孙伯君,斯钦朝克图,孟达来
本文概要地介绍13世纪《元朝秘史》的文献背景及原文所独有的复杂文本形式,通过对文本的内涵分析和版面分析,设计了关于《元朝秘史》电子检索系统的研制方案。其中主要解决了原文三行一体显示格式的还原问题,而且系统可以分别对原文汉字音写、汉语译文、汉字旁译、语音语法标注等不同部分进行检索和统计。检索输出结果包括研究者最重视的传统学术章节号、卷页码、在电子文本出现的具体位置。另外,系统对检索词采用了上下文检索技术,输出文本包括检索词的部分上下文内容。本系统基本满足历史、文学和语言研究的应用需求。
2006 Vol. 20 (3): 38-44 [摘要] ( 308 ) [HTML 1KB] [PDF 954KB] ( 762 )
45 面向自然语言信息处理的维吾尔语名词形态分析研究
阿依克孜·卡德尔,开沙尔·卡德尔,吐尔根·依布拉音
名词是人类语言中的基本词类之一。维吾尔语是一种形态变化很复杂的语言,其中名词是一种形态变化复杂的词类。因此名词的形态分析研究无论在语法研究还是在语言信息处理中都非常重要。本文对维吾尔语名词的形态变化(名词的数、人称、格等语法范畴)进行了形式化的描述和分析。指出了维吾尔语名词的基本形态参数,总结出参数的组配规律并统计了其类型,探索了维吾尔语名词的削尾方法。这些工作将为维吾尔语名词形态处理提供有效的方法和新的思路。
2006 Vol. 20 (3): 45-50,100 [摘要] ( 287 ) [HTML 1KB] [PDF 401KB] ( 848 )
51 藏文支持在OpenOffice.org办公套件中的实现
贾彦民,吴健,欧珠,孙玉芳
办公套件是人们日常应用最为广泛的信息处理软件之一,但真正意义的藏文办公套件至今都尚未问世,成为藏文信息技术发展的“瓶颈”。开源项目OpenOffice.org的不断发展和日益成熟,为藏文办公套件的研制开发提供了有利的契机。以OpenOffice.org为源代码基础,采用藏文编码字符集(扩充集A)国家标准,研制的藏文办公套件可支持藏文排版习惯和藏文本地环境,着重解决了藏文文本自动断行的问题,能够满足藏语文用户日常办公需要。
2006 Vol. 20 (3): 51-56,79 [摘要] ( 328 ) [HTML 1KB] [PDF 560KB] ( 651 )
57 文档聚类综述
刘远超,王晓龙,徐志明,关毅
聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行了综述。最后还介绍了聚类质量评测问题。
2006 Vol. 20 (3): 57-64 [摘要] ( 347 ) [HTML 1KB] [PDF 411KB] ( 1679 )
65 以本体构造中文信息过滤中的需求模型
袁兴宇,王挺,周会平,肖君
在信息过滤系统中,用户模板是机器可理解的用户需求表示形式,是否能准确地反映出用户的真实需求将直接影响着过滤系统的性能。在向量空间模型中,用户的模板表现为一组带权重的特征词集,但由于在这样的用户模板中缺少必要的语义信息,很难准确地反映出用户的需求。本文提出了以本体构造需求模板的方法,以本体的形式定义需求中概念间的语义关联关系,将向量空间模型中的特征向量定义为本体中的实例,通过实例间的关联路径计算特征项间的语义关联,并通过特征项间的语义关联计算出文档与模板的语义关联度。
2006 Vol. 20 (3): 65-71 [摘要] ( 274 ) [HTML 1KB] [PDF 372KB] ( 623 )
72 面向信息检索需要的网络数据清理研究
刘奕群,张敏,马少平
Web数据中的质量参差不齐、可信度不高以及冗余现象造成了网络信息检索工具存储和运算资源的极大浪费,并直接影响着检索性能的提高。现有的网络数据清理方式并非专门针对网络信息检索的需要,因而存在着较大不足。本文根据对检索用户的查询行为分析,提出了一种利用查询无关特征分析和先验知识学习的方法计算页面成为检索结果页面的概率,从而进行网络数据清理的算法。基于文本信息检索会议标准测试平台的实验结果证明,此算法可以在保留近95%检索结果页面的基础上清理占语料库页面总数45%以上的低质量页面,这意味着使用更少的存储和运算资源获取更高的检索性能将成为可能。
2006 Vol. 20 (3): 72-79 [摘要] ( 277 ) [HTML 1KB] [PDF 468KB] ( 620 )
80 基于相关文档池建模的查询扩展
吕碧波,赵军
在信息检索领域,相关反馈是提高检索性能的有效方法之一。所谓相关反馈,指用户按照一定策略从查找到的相关文档中选择一些和主题相关的词进行查询扩展的技术。本文介绍了概率模型和向量空间模型下的常用查询扩展方法,并提出了一种基于语言模型的相关反馈方法,该方法同时考虑了扩展词应该具备的两个特征,即相关性和覆盖性。在TREC测试集上对这些算法进行了比较,结果表明这种新算法在平均准确率上比传统方法有所提高。
2006 Vol. 20 (3): 80-85 [摘要] ( 227 ) [HTML 1KB] [PDF 411KB] ( 695 )
86 一种基于局部共现的查询扩展方法
丁国栋,白硕,王斌
针对信息检索中文档与查询之间的词不匹配问题,本文提出了一种基于局部共现的查询扩展方法LOCOOC。LOCOOC利用词项与所有查询词在局部文档集合中的共现程度来评估扩展词的质量,并整合了词项在语料集中的全局统计信息,使得选取的扩展词与初始查询所表征的主题或概念具有更好的相关性。实验结果表明:与未进行查询扩展时相比,采用LOCOOC方法进行扩展后,平均准确率提高40%以上;与传统的局部反馈方法以及局部上下文分析方法(LCA,Local Context Analysis)相比,LOCOOC不仅具有更优的检索性能,而且有着更好的鲁棒性。
2006 Vol. 20 (3): 86-93 [摘要] ( 307 ) [HTML 1KB] [PDF 337KB] ( 1073 )
94 基于反馈学习自适应的中文话题追踪
王会珍,朱靖波,季铎,叶娜,张斌
在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。该算法能够解决话题漂移现象,并能够弥补现有自适应方法的不足。该算法中还考虑了话题追踪任务的时序性,将时间信息引入到了算法中。本文实验采用TDT4语料中的中文部分作为测试语料,使用TDT2004的评测方法对基于反馈学习的自适应的中文话题追踪系统进行评价,实验数据表明基于反馈学习的自适应方法能够提高话题追踪的性能。
2006 Vol. 20 (3): 94-100 [摘要] ( 279 ) [HTML 1KB] [PDF 576KB] ( 888 )
101 语音识别准确率与检索性能的关联性研究
周梁,高鹏,丁鹏,徐波
对海量语音进行基于内容的检索需要语音识别技术和检索技术的结合。本文通过调节语言模型的途径研究在不同识别率的语音识别文本上进行关键词检索的差异,由此研究语音识别性能和检索性能之间的关联性。通过对114小时语音数据的实验表明:语音识别性能与检索性能有一定的相关性,同时也说明改进检索的方法可以消除一部分由于语音识别所带来的误差。研究结果为进一步针对性地改进识别引擎、语音识别输出的表示和相应的快速检索方法提供了基础。
2006 Vol. 20 (3): 101-106 [摘要] ( 240 ) [HTML 1KB] [PDF 266KB] ( 660 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发