中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2002年 16卷 6期
刊出日期:2002-12-16

 
   
2 汉语基本短语的自动识别
张昱琪,周强
本文应用基于实例的MBL(Memory-Based Learning)学习方法,对汉语中较常见的9种基本短语的边界及类别进行识别,并利用短语内部构成结构和词汇信息对预测中出现的边界歧义和短语类型歧义进行了排歧处理。实验中还比较了在特征向量中加入词汇信息与否对实验结果的影响。实验取得了比较令人满意的结果:对这9种基本短语的识别正确率达到95.2%;召回率达到93.7%。
2002 Vol. 16 (6): 2-9 [摘要] ( 473 ) [HTML 1KB] [PDF 261KB] ( 1399 )
10 指代消解的基本方法和实现技术
王厚峰
指代是自然语言中常见的语言现象,大量出现在篇章或对话中。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理上热门的研究问题。针对指代和指代消解的有关问题,本文对基本概念作了说明,分析了语言中典型的指代现象和指代消解所需的基本语言知识;同时,介绍了指代消解中有代表性的几种计算模型和近10年来采用的若干实现技术。
2002 Vol. 16 (6): 10-18 [摘要] ( 960 ) [HTML 1KB] [PDF 458KB] ( 4919 )
19 一种新的基于统计的自动文本分类方法
刘斌,黄铁军,程军,高文
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中,互联网和文本库提供了大量经过粗分类的训练文本,但普遍存在样本质量较差的问题,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。
2002 Vol. 16 (6): 19-25 [摘要] ( 304 ) [HTML 1KB] [PDF 432KB] ( 1198 )
26 基于统计分词的中文网页分类
黄科,马少平
本文将基于统计的二元分词方法应用于中文网页分类,实现了在事先没有词表的情况下通过统计构造二字词词表,从而根据网页中的文本进行分词,进而进行网页的分类。因特网上不同类型和来源的文本内容用词风格和类型存在相当的差别,新词不断出现,而且易于获得大量的同类型文本作为训练语料。这些都为实现统计分词提供了条件。本文通过试验测试了统计分词构造二字词表用于中文网页分类的效果。试验表明,在统计阈值选择合适的时候,通过构建的词表进行分词进而进行网页分类,能有效地提高网页分类的分类精度。此外,本文还分析了单字和分词对于文本分类的不同影响及其原因。
2002 Vol. 16 (6): 26-32 [摘要] ( 259 ) [HTML 1KB] [PDF 320KB] ( 856 )
33 一种基于上下文的中文信息检索查询扩展
贺宏朝,何丕廉,高剑峰,黄昌宁
在中文信息检索的研究和实践中,由于查询中所使用的词可能与文件集中使用的词不匹配而导致一些相关的文件不能被成功地检索出来,这是影响检索效果的一个很关键的问题。查询扩展可以在一定程度上解决这种词的不匹配现象,然而,实验表明,通常简单的查询扩展并不能稳定地提高中文信息检索的检索效果。本论文中提出并实现了一种基于上下文的查询扩展方法,可以根据查询的上下文对扩展词进行选择,是一种相对“智能”的查询扩展方法。在TREC - 9 中文信息检索测试集上进行的实验表明,相对于通常简单的查询扩展,基于上下文的查询扩展方法取得了具有统计意义提高的检索效果。
2002 Vol. 16 (6): 33-38+46 [摘要] ( 376 ) [HTML 1KB] [PDF 319KB] ( 1233 )
39 “CAU”词及其知识图分析
刘小冬,张蕾
专家系统是人工智能研究领域的一个重要研究分支。专家系统主要由两部分组成:知识库和推理机。知识库中的知识主要由“IF-THEN”这样的知识组成。知识图是一种新的知识表示方法。在知识图中,含有“IF-THEN”结构的句子是由起因操作符(causal operator)或起因关系(CAU-relation)表示的。本文挑选了一些具有一定代表性的起因意义的汉语“CAU”操作符,并且基于知识图理论分析了这些操作符,并进行了分类,目的是为专家系统中知识库的建立做准备。
2002 Vol. 16 (6): 39-46 [摘要] ( 272 ) [HTML 1KB] [PDF 410KB] ( 923 )
47 自动问答综述
郑实福,刘挺,秦兵,李生
自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。本文介绍了自动问答技术的发展现状和自动问答系统中常用的技术。自动问答系统一般包括三个主要组成部分:问题分析、信息检索和答案抽取。本文分别介绍了这三个主要组成部分的主要功能和常用的方法。最后还介绍了自动问答系统的评价问题。
2002 Vol. 16 (6): 47-53 [摘要] ( 1362 ) [HTML 1KB] [PDF 318KB] ( 3575 )
54 汉字输入法码本自动更正设计研究
陆剑江,钱培德
本文主要研究了在汉字输入法设计中的码本自动更正的设计与实现,提出了码本规则库的概念及设计思想,阐述了更正系统的工作原理,详细讨论了基于规则库的自动更正设计方案及工作流程,最后从实际应用的角度出发,提出了如何将输入法更正系统与输入法的集成策略。
2002 Vol. 16 (6): 54-58 [摘要] ( 755 ) [HTML 1KB] [PDF 154KB] ( 784 )
59 北京大学现代汉语语料库基本加工规范(续)
俞士汶,段慧明,朱学锋,孙斌
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。
2002 Vol. 16 (6): 59-65 [摘要] ( 540 ) [HTML 1KB] [PDF 307KB] ( 1128 )
65 附录按代码的字母顺序排列的标记集
2002 Vol. 16 (6): 65-66 [摘要] ( 209 ) [HTML 1KB] [PDF 111KB] ( 366 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发