中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2005年 19卷 1期
刊出日期:2005-02-15

 
   
2 利用主语和谓语的句法关系识别谓语中心词
李国臣,孟静
谓语中心词识别对于整个句子的句法分析起着重要的作用。目前已有的谓语中心词识别方法,利用谓语中心词候选项的静态语法特征和动态语法特征来确定谓语中心词。在此基础上,本文提出一种利用句子的主语和谓语之间的句法关系来识别谓语中心词的方法。该方法除了利用谓语中心词候选项的静态语法特征和动态语法特征外,还利用主谓语之间的句法关系识别谓语中心词。实验表明,与传统方法相比,这种方法对谓语中心词的识别正确率可以提高3%左右。
2005 Vol. 19 (1): 2-8,42 [摘要] ( 285 ) [HTML 1KB] [PDF 368KB] ( 773 )
9 一种改进的基于记忆的自适应汉语语言模型
张俊林,孙乐,孙玉芳
基于记忆的自适应语言模型虽然在一定程度上增强了语言模型对不同领域的适应性,但其假设过于简单,即认为一个在文章的前面部分出现过的词往往会在后面重复出现。通过对一些文本的观察分析,我们认为作者在书写文章的时候,除了常常使用前文中出现过的词汇外,为了避免用词单调,还会在行文过程中使用前文出现过词汇的近义词或者同义词。另外,一篇文章总是围绕某个主题展开,所以在文章中出现的许多词汇往往在语义上有很大的相关性。我们对基于记忆的语言模型进行了扩展,利用汉语义类词典,将与缓存中所保留词汇语义上相近或者相关的词汇也引入缓存。实验表明这种改进在很大程度上提高了原有模型的性能,与n元语言模型相比困惑度下降了4011% ,有效地增强了语言模型的自适应性。
2005 Vol. 19 (1): 9-14 [摘要] ( 240 ) [HTML 1KB] [PDF 235KB] ( 673 )
15 汉语中的零形回指及其在汉英机器翻译中的处理对策
侯敏,孙建军
回指是语篇衔接的重要手段,零形回指是汉语中常见的一种回指形式。由于汉语、英语是不同类型的语言,因此零形回指对汉英机器翻译会产生一定的影响。本文详细分析了汉语零形回指的确认、类型、产生的原因及使用的条件,指出其对汉英机器翻译造成的主要障碍是生成的英语句子在结构上不合语法,并提出在句组层面上解决问题的算法。
2005 Vol. 19 (1): 15-21 [摘要] ( 280 ) [HTML 1KB] [PDF 232KB] ( 1486 )
22 基于词类串的汉语句子结构相似度计算方法
王荣波,池哲儒
句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。对于基于实例的汉英机器翻译研究,汉语句子相似度衡量的准确性,直接影响到最后翻译结果的输出。本文提出了一种汉语句子结构相似性的计算方法。该方法比较两个句子的词类信息串,进行最优匹配,得到一个结构相似性的值。在小句子集上的初步实验结果表明,该方法可行,有效,符合人的直观判断。
2005 Vol. 19 (1): 22-30 [摘要] ( 430 ) [HTML 1KB] [PDF 382KB] ( 912 )
31 从搭配知识获取最优种子的词义消歧方法
全昌勤,何婷婷,姬东鸿,刘辉
基于统计的词义消歧模型的一个关键问题是如何自动从语料库中获取指示词,虽然通过学习初始搭配实例能够在语料库中获取更多的搭配知识,但人工获取质量较好的初始搭配是比较困难的,并且无法保证有效的扩大搭配知识。针对该问题,提出了通过机器学习初始搭配实例获取最优种子,再由最优种子扩增更多指示词,最后利用这些指示词实现具有多个义项的多义词消歧。采用该方法对8 个多义词进行消歧的测试实验中取得了8717 %的平均正确率。
2005 Vol. 19 (1): 31-36 [摘要] ( 352 ) [HTML 1KB] [PDF 238KB] ( 793 )
37 基于向量空间模型的文本分类系统的研究与实现
陈治纲,何丕廉,孙越恒,郑小慎
文本分类是信息处理的一个重要的研究课题,它可以有效的解决信息杂乱的现象并有助于定位所需的信息。本文综合考虑了频度、分散度和集中度等几项测试指标,提出了一种新的特征抽取算法,克服了传统的从单一或片面的测试指标进行特征抽取所造成的特征“过度拟合”问题,并基于此实现了二级分类模式的文本分类系统。和类中心分类法相比,实验结果表明二级分类模式具有较高的精度和召回率。
2005 Vol. 19 (1): 37-42 [摘要] ( 263 ) [HTML 1KB] [PDF 115KB] ( 1126 )
43 信息检索策略性能的云模型评价方法
康海燕,李彦芳,林培光,樊孝忠
在信息检索中,目前常见的评价方法仅能反映检索策略的平均性能,不能反映策略的稳定性、随机性等问题,因此对检索策略的评价不够全面。本研究提出了基于云模型的检索策略评价方法,该方法建立了定性评价和定量数据之间的自然转换,这种转换是通过严格的数学方法来实现的,用该方法评价检索策略,不仅能反映策略的平均性能,而且能反映策略的稳定性。实验数据表明,该方法是切实可行的,评价结果更加逼近实际情况。该方法也可以用于文本分类策略的评价。
2005 Vol. 19 (1): 43-48 [摘要] ( 282 ) [HTML 1KB] [PDF 245KB] ( 678 )
49 基于内容和合作模式的信息推荐机制
林鸿飞,杨志豪,赵晶
如何根据用户的兴趣向用户推荐相关信息成为目前研究的热点,本文提出了基于内容和合作模式的信息推荐机制。其基本思想是根据用户所关心的文本内容将用户划分为不同的内容类,同时按照用户的访问模式以及用户评注的一致性,将用户分成不同的合作类。综合考虑其内容类和合作类对于用户评注影响,利用Fisher 判别分析,给出了信息推荐机制,将相关文本推送给用户。此外,随着信息数量的增加和用户的增加,自动调节各项参数,适应系统的变化,同时考虑到系统负荷和响应速度等方面的约束。
2005 Vol. 19 (1): 49-56 [摘要] ( 288 ) [HTML 1KB] [PDF 354KB] ( 762 )
57 自然语言文本水印
张宇,刘挺,陈毅恒,赵世奇,李生
本文主要介绍了基于自然语言处理的文本水印技术,也即自然语言文本水印技术。该技术是在不改变文本原意的前提下,将需要隐藏的文本信息(水印信息) 插入到原始文本中的一种信息隐藏技术。这种技术对于确认信息来源和信息的秘密传送,以及版权维护等方面都有着很大的应用价值。本文首先给出了基于自然语言处理技术的文本水印的概念、特点及攻击模型,并对文本水印的研究现状进行了分析。通过分析可以看出,自然语言文本水印技术有着更好的灵活性,并且在适度的攻击下,不会破坏水印信息。本文详细介绍了文本水印系统的设计过程,包括该技术的基础数学理论- 二次余数理论。最后详细介绍了两种自然语言文本水印嵌入方法,分别是基于句法分析和基于语义的水印嵌入方法。
2005 Vol. 19 (1): 57-63,71 [摘要] ( 413 ) [HTML 1KB] [PDF 368KB] ( 1277 )
64 知网与同义词词林的信息融合研究
梅立军,周强,臧路,陈祖舜
本文主要探讨了将知网(HowNet) 和同义词词林进行信息融合的方法。我们针对知网对词的概念描述和同义词词林对词的语义分类的特点,提出了一种词典信息融合的方法:首先为词林的每个词集确定一个与知网中DEF 类似的概念描述,在此基础上对两部词典中同时收录且均只有一个义项的词语进行双向意义联结,最后根据分类算法对两部词典中同时收录非单一义项的词语进行双向意义联结。实验表明,本文提出的处理策略达到了93 %的信息融合正确率,融合后形成的新词典兼有词林的分类学信息和知网的概念描述信息。
2005 Vol. 19 (1): 64-71 [摘要] ( 536 ) [HTML 1KB] [PDF 299KB] ( 1586 )
72 现代藏字全集的属性统计研究
高定国,龚育昌
藏文基本属性的研究是藏文信息处理技术的基础,现代藏字的研究是藏文信息处理的重点。藏字全集是有限集,为了更好地研究现代藏字,本文以现代藏字为研究对象,按照现代藏文文法的规律,对全部现代藏字用计算机辅助统计了藏字全集的个数、藏字的字长、藏字的结构方式、位置特征、字符频度以及所有现代藏字中的整基字丁,并且简要地分析了这些数据。这些数据可以较全面地反映现代藏字的本质特征,可为藏文研究和藏字信息处理提供基础数据。
2005 Vol. 19 (1): 72-76 [摘要] ( 233 ) [HTML 1KB] [PDF 207KB] ( 733 )
77 汉语口语对话系统中语义分析的消歧策略
刘蓓,杜利民
框架语义分析是目前汉语口语对话系统中常用的语义解析方法,本文分析了语义分析过程中容易产生的两种典型歧义现象- 结构歧义和语义关系歧义。并针对这两种歧义结构,分别提出基于语义PCFG模型的结构歧义消歧策略以及基于语义期待模型EM的语义关系歧义消歧策略,并给出了有效的消歧算法。实验结果表明综合运用本文提出的消歧策略后,基线系统理解模块的句子语义分析正确率大大提高,从原来的7517 %上升到9115 % ,而且标志语义单元理解率的三项指标,准确率,召回率和精度也平均提高了10 %。
2005 Vol. 19 (1): 77-84 [摘要] ( 352 ) [HTML 1KB] [PDF 411KB] ( 1089 )
85 多项式回归的汉语时长预测模型
孙璐,胡郁,王仁华
时长信息是韵律的重要组成部分,对于语音合成的自然度和可懂度都有不可忽视的作用。时长预测是建立对时长有影响的韵律环境与自然语流中音段时长的对应关系。本文引入了统计学中etasquared 的概念研究汉语中韵律环境因素对时长的影响,设计了残差算法定量分析属性之间的交互作用,由此建立了多项式回归的汉语时长预测模型。实验结果表明,使用5~6 个韵律属性基本上就能够建立比较相关的对应关系,和使用同样韵律属性的Wagon 回归树的效果相比有明显的优势。
2005 Vol. 19 (1): 85-91 [摘要] ( 241 ) [HTML 1KB] [PDF 276KB] ( 840 )
92 基于凸包像素比特征的粘连汉字切分
魏湘辉,马少平
汉字切分正确与否直接影响了汉字识别系统的识别率,粘连汉字则是切分中的难点。本文将基于背景细化的切分方法应用于《四库全书》的两字符粘连汉字数据集,并针对其中切分路径选择问题,提出了一种新特征- 凸包像素比,反映了在不同切分路径下汉字结构变化的特性。实验结果表明该特征对多种分类器均能有效地提高切分路径选择的正确率。其中在使用基于高斯混合模型分类器时取得了8816 %正确率。
2005 Vol. 19 (1): 92-98 [摘要] ( 259 ) [HTML 1KB] [PDF 262KB] ( 913 )
99 进一步的“正易全”——三级汉字编码输入法
张小衡
本文报告“正易全”汉字输入法的新进展。从整体上来讲,正易全已发展成为全字笔顺、全字笔组和2 21 笔组三级输入法系列。前两级简单灵活,键选率极低,方便大字集查检;第三级在常用字和通用字中表现极佳,适合日常快速打字。在编码技术上,多笔笔组码元的选用、单结构的定义和多结构字的二部划分等方面都作了进一步的简化、系统化和规律化。此外,码表在GB1300011 字符集的基础上增加了1164 个港澳台地区用字或字形。
2005 Vol. 19 (1): 99-105 [摘要] ( 286 ) [HTML 1KB] [PDF 351KB] ( 851 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发