中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2003年 17卷 5期
刊出日期:2003-10-15

 
   
2 词性标注中生词处理算法研究
张孝飞,陈肇雄,黄河燕,蔡智
词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有很大的难度。文章基于隐马尔科夫模型(HMM),通过将生词的词性标注问题转化为求词汇发射概率,在词性标注中提出了一种生词处理的新方法。该方法除了用到一个标注好的单语语料库外,没使用任何其他资源(比如语法词典、语法规则等),封闭测试正确率达97%左右,开放测试正确率也达95%左右,基本上达到了实用的程度。同时还给出了与其他同样基于HMM的词性标注方法的测试比较结果,结果表明本文方法的标注正确率有较大的提高。
2003 Vol. 17 (5): 2-6 [摘要] ( 312 ) [HTML 1KB] [PDF 211KB] ( 879 )
7 汉英双语语料库中名词短语的自动对应
刘冬明,赵军,杨尔弘
本文提出了一种在汉英双语语料库句子对齐的基础上,自动进行汉英名词短语划分和对应的方法。该方法的主要特点在于在无需严格识别汉语名词短语的情况下,对高频短语和低频短语分别进行处理,对于高频短语,利用英语短语和汉语词在双语语料库中的关联信息,采用一种迭代重估算法进行双语短语的对应;对于低频短语,根据双语词典中源词和译词之间的对应信息,结合一套人工编写的句法规则进行双语低频短语的对应。该方法能够从整体上把握对应信息,并具有很高的覆盖率。
2003 Vol. 17 (5): 7-13 [摘要] ( 267 ) [HTML 1KB] [PDF 332KB] ( 994 )
14 基于记忆的自适应汉语语言模型的研究
曲卫民,张俊林,孙乐,孙玉芳
基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现,它没有考虑到常用词的影响,以及不同单词间的相互影响。本文针对这一问题从两个方面对原有模型进行了改进,一是采用TFIDF公式代替了原有的简单频率统计法;二是建立了一种基于记忆的扩展二元模型,并采用权重过滤法以节省模型计算量。实验表明这两种改进在很大程度上提高了原有模型的性能,增强了模型的自适应性。
2003 Vol. 17 (5): 14-19,41 [摘要] ( 272 ) [HTML 1KB] [PDF 263KB] ( 655 )
20 HNC作用效应句的汉英句类转换
张克亮,黄曾旸
作用效应句是作用句的一个特殊子类,是HNC57组基本句类中一个极富个性的重要句类。从HNC概念网络的角度看,作用效应句主要由使役类动词和逼迫类动词直接形成,或者由一般作用类动词(含泛动类动词) 通过“得”字结构间接形成。由这三类动词形成的作用效应句遵循不同的句类转换和格式转换规则,因此在汉英机器翻译中,需要采取不同的句类转换框架,以确保译文语句句法语义结构的正确性。初步的试验表明,有关作用效应句的这些句类-格式转换规则具有很好的适用性和覆盖率。
2003 Vol. 17 (5): 20-27 [摘要] ( 446 ) [HTML 1KB] [PDF 297KB] ( 740 )
28 名人网页的相关度评价
昝红英,苏玉梅,孙斌,俞士汶
本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了中文名人网页相关度评价的因素、算法和相应的检索结果。针对目前搜索引擎服务的不足之处,该工作旨在改进网上信息服务的质量,提高个性化网上信息服务的能力。本系统在北京大学天网搜索引擎的基础上,利用自然语言处理、特别是中文信息提取的新技术,结合网页信息的特点,针对名人网页的检索提出了一种新的网页相关度评价算法,改善了检索结果排序的合理性,提高了名人网页检索服务的质量。
2003 Vol. 17 (5): 28-34 [摘要] ( 250 ) [HTML 1KB] [PDF 344KB] ( 940 )
35 关于“中文网页自动分类竞赛”结果的分析
冯是聪,王继民
在最近召开的“全国搜索引擎与网上信息挖掘学术研讨会”上,举办了一场“中文网页自动分类竞赛”,共有来自全国各地的10个队参加。本文在介绍本次竞赛活动规则和过程的基础上,详细分析了竞赛的结果,从而使我们对于目前中文网页自动分类技术的现状有了一种具体的认识:目前已有分类器的性能没有呈现出明显的差距,中文网页的分类比普通文本的分类要困难的多。同时,本文还尝试推出一个标准的中文网页分类的实例样本集,希望通过不断完善,最终作为中文网页分类技术研究的基本语料。
2003 Vol. 17 (5): 35-41 [摘要] ( 288 ) [HTML 1KB] [PDF 190KB] ( 626 )
42 基于对话回合衰减的cache语言模型在线自适应研究
何伟,李红莲,袁保宗,林碧琴
目前由于特定任务域语料的稀疏并且难以收集,这严重阻碍了对话系统的可移植性。如何利用在线收集的少量训练语料,实现语言模型的快速自适应,从而有效提高对话系统在新任务域的识别率是本文的目的所在。本文对传统cache模型修正后,提出了基于历史单元衰减的cache语言模型,以在线递增方式收集语料进行自适应,并与通用语言模型进行线性插值。在对话系统中,以对话回合为历史单元,也可称为基于对话回合衰减的cache语言模型。在两个完全不同任务域——颐和园导游与火车票订票任务域进行的实验表明,在自适应语料不到1千句时,与无自适应模型相比,有监督模式下的识别错误率分别降低了47.8%和74.0% ,无监督模式下的识别错误率分别降低了30.1%和51.1%。
2003 Vol. 17 (5): 42-48 [摘要] ( 289 ) [HTML 1KB] [PDF 355KB] ( 872 )
49 基于韵律特征和语法信息的韵律边界检测模型
吴晓如,王仁华,刘庆峰
韵律短语边界的自动检测,对语音合成中语料库的韵律标注以及语音识别中韵律短语的自动划分都有重要意义。本文通过对影响韵律短语边界的声学、韵律等参量的分析,得到和韵律短语边界关联性较大的一组声学特征参数、韵律环境参数和语法信息;同时引入语音合成中的韵律预测思想,在假定所有音节边界均为非韵律短语边界时,预测每个音节的基频。最后使用决策树模型,将音节边界处的韵律环境信息、语法信息以及预测结果作为决策树的输入,利用决策树综合判定当前音节边界是否为韵律短语的边界。实验表明,这种方法对于基于确定性文本(text-dependent)的语音韵律短语边界的检测,具有较好效果,同时可以显著提高语音合成中语料库的标注效率和标注结果的一致性。
2003 Vol. 17 (5): 49-55 [摘要] ( 534 ) [HTML 1KB] [PDF 126KB] ( 1126 )
56 复杂彩色文本图像中字符的提取
陈又新,刘长松,丁晓青
从复杂彩色文本图像中提取和识别字符已经成为一个既困难又有趣的问题。本文给出了一个具有创新性和实用性的区域生长算法用于彩色图像的分割:彩色图像游程邻接算法CRAG(color run-length adjacency graph algorithm)。我们将该算法用于彩色文本图像,首先得到图像的彩色连通域,再对这些连通域的平均颜色进行颜色聚类,可得到若干个聚类中心,然后根据不同的颜色中心将图像分为相应的彩色层面,最后通过连通域分析判断所需的文字层。该生长算法修改并扩展了传统的BAG算法,并将其运用于彩色印刷体文本图像中,充分利用了彩色图像的颜色和位置信息。实验结果表明新的方法能很好的从彩色印刷图像中提取多种常见的艺术字,并具有较高的提取速度,同时保留了文字和背景图像的原始色彩,便于将来的图像恢复。
2003 Vol. 17 (5): 56-60 [摘要] ( 310 ) [HTML 1KB] [PDF 231KB] ( 838 )
61 甲骨文象形码编码方法研究
肖明,赵慧,甘仲惟
甲骨文因字形独特、年代久远,所以一直没能进行有效编码。本文吸取现代编码思想,采用模糊数学模型分析甲骨文的部件(字根)特点,对其进行模糊聚类,并使用32个字符(25个英文字母和7个阿拉伯数字)作为码元,与甲骨文中的500多个字根相对应,实现了一字一码的编码方案。在此基础上,运用信息论中的熵理论,分析了这种编码的效率和科学性,得出甲骨文编码的最佳码长大致接近于3,从而为5000多个甲骨文字进行科学编码提供理论基础。
2003 Vol. 17 (5): 61-66 [摘要] ( 382 ) [HTML 1KB] [PDF 144KB] ( 860 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发