中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2001年 15卷 1期
刊出日期:2001-02-15

综述
 
   
综述
1 利用平行网页建立中英文统计翻译模型
聂建云,陈江
建立翻译模型的目的是试图从平行文本(或翻译例句)中自动抽取翻译关系。本文将描述我们在建立中英文统计翻译模型上的尝试。我们所用的平行文本是从万维网上自动获得的半结构性平行文本。在训练过程中,我们尽量利用文本中的HTML结构信息。实验表明,所训练的翻译模型能达到80%的准确率。对于象跨语言信息检索这样的应用,这样的准确率已经能大致满足需要。这一工作表明,对于检索引擎上的问句的翻译可以使用比机器翻译成本更低的工具。
2001 Vol. 15 (1): 1-12 [摘要] ( 352 ) [HTML 1KB] [PDF 236KB] ( 1468 )
13 提高汉语自动分词精度的多步处理策略
赵铁军,吕雅娟,于浩,杨沐昀,刘芳
汉语自动分词在面向大规模真实文本进行分词时仍然存在很多困难。其中两个关键问题是未登录词的识别和切分歧义的消除。本文描述了一种旨在降低分词难度和提高分词精度的多步处理策略,整个处理步骤包括7个部分,即消除伪歧义、句子的全切分、部分确定性切分、数词串处理、重叠词处理、基于统计的未登录词识别以及使用词性信息消除切分歧义的一体化处理。开放测试结果表明分词精确率可达98%以上。
2001 Vol. 15 (1): 13-18 [摘要] ( 487 ) [HTML 1KB] [PDF 188KB] ( 915 )
19 利用遗传算法实现词类标记集的优化
孙宏林,陆勤,俞士汶
过去词类标记集的选择主要基于专家的经验知识,缺乏自动或半自动的方法来辅助这一过程。本文提出了一种利用遗传算法来搜索优化的标记集的新方法。这种方法可以在一个候选标记集集合中自动搜索一个最优或较优的标记集,并可根据应用的需求调整参数以适应特定任务的需求。实验表明:遗传算法为标记集的选择提供了一种系统的有效的辅助手段。
2001 Vol. 15 (1): 19-27 [摘要] ( 299 ) [HTML 1KB] [PDF 458KB] ( 659 )
27 中科院自动化所模式识别国家重点实验室正式成为国际语音翻译研究协会核心成员
宗成庆
语音翻译(Speech-to-speech Translation)是近几年来国际上发展迅速的热点研究领域,为了推动语音翻译技术研究的快速发展,由美国CMU(Carnegie Mellon University)、日本ATR、德国Karlsruhe大学等单位联合发起,于1991年正式成立了国际语音翻译研究协会(Consortium for Speech Translation Advanced Research,简称C-STAR)。到目前为止C-STAR已经历了三个发展阶段,今年10月正式转为第三阶段C-STAR Ⅲ。C-STAR发展阶段的提升,标志着国际上语音翻译技术的不断进展。
2001 Vol. 15 (1): 27-27 [摘要] ( 321 ) [HTML 1KB] [PDF 89KB] ( 690 )
28 基于分解与动态规划策略的汉语未登录词识别
吕雅娟,赵铁军,杨沐昀,于浩,李生
未登录词的识别是汉语自动分词中的主要问题。本文以对中国人名,中国地名和外国译名进行整体识别为目标,采用分解处理策略降低了整体处理难度,并使用动态规划方法实现了最佳路径的搜索,较好地解决了未登录词之间的冲突问题。通过对真实语料识别的测试,证明该方法可以全面提高未登录词识别的正确率和召回率。
2001 Vol. 15 (1): 28-33 [摘要] ( 339 ) [HTML 1KB] [PDF 234KB] ( 1268 )
34 基于N-gram信息的中文文档分类研究
周水庚,关佶红,俞红奇,胡运发
传统文档分类系统都是基于文档的词属性,分类过程需要庞大的词典支持和复杂的切词处理。本文研究基于N-gram信息的中文文档分类,使中文文档分类系统摆脱对词典和切词处理的依赖,从而实现中文文档分类的领域无关性和时间无关性。利用kNN分类方法,实现了一个基于N-gram信息的中文文档分类系统。测试结果表明该文档分类系统具有和其它同类文档分类系统相当的性能。
2001 Vol. 15 (1): 34-39 [摘要] ( 390 ) [HTML 1KB] [PDF 348KB] ( 1088 )
40 基于变帧率训练的HMM汉语人名识别
刘刚,张洪刚,郭军
本文针对语音识别中HMM模型需要大量训练,而在某些实际应用中不可能训练多次的问题,提出一种基于余弦整形变换的变帧率训练方法,并在人名声控拨号系统中进行实验,在训练一次的条件下,系统识别率提高4.2%。实验表明,该方法对解决语音识别系统中训练数据少的问题具有明显效果。
2001 Vol. 15 (1): 40-45 [摘要] ( 305 ) [HTML 1KB] [PDF 295KB] ( 724 )
45 全国第六届计算语言学联合学术会议(JSCL-2001)2001年8月4日—6日太原:山西大学征文通知
为促进国内计算语言学的研究和应用,加强同行间的学术交流与合作,中国中文信息学会、中国计算机学会、中国人工智能学会和北京市语言学会等四个单位决定于2001年8月4日-6日在太原山西大学联合举办“全国第六届计算语言学联合学术会议(JSCL - 2001) ”。会议论文的正式语言为中文与英文。会议向全国征集有关计算语言学、自然语言理解和机器翻译方面的论文。来稿要求在理论或应用技术上确有创见、叙述清楚、行文流畅。全文不超过8000字,每篇论文均应有中英文两种文字标题、作者、姓名、单位和不超过200字的摘要,来稿要求全文一式三份。作者请自留底稿,会议概不退稿。大会将正式出版会议论文集。
2001 Vol. 15 (1): 45-45 [摘要] ( 201 ) [HTML 1KB] [PDF 33KB] ( 441 )
46 一种利用校对信息的汉字识别自适应后处理方法
李元祥,刘长松,丁晓青
后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型,没有考虑所处理文本的特殊性;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息,一方面可以构建自适应语言模型,及时发现所处理文本的语言特点;另一方面可以利用识别器的动态识别特性,以修正候选字集;从而使得后续文本的识别后处理具有自适应性。40 万字的数据测试表明:这种方法的文本平均错误率较传统的后处理方法下降35.24%了,可以大大减轻数据录入人员的工作量,具有较高的实用价值。
2001 Vol. 15 (1): 46-52 [摘要] ( 313 ) [HTML 1KB] [PDF 270KB] ( 857 )
53 用过滤器实现Web网站汉字简繁体自动转换
张震,张曾科
本文对网络上汉字的显示与传输进行了研究,提出一种新的在Web服务器端直接解决汉字繁简体内码转换的方案,使得只有一种内码的中文主页也可以自动地对不同内码浏览器提供支持,而不必要求客户端安装软件。这种思想在Windows NT下用IIS里的ISAPI过滤器得以实现。
2001 Vol. 15 (1): 53-58 [摘要] ( 237 ) [HTML 1KB] [PDF 296KB] ( 697 )
58 《汉字规范码应用于基础教育教学实践》成果发布会在京召开
二○○○年十二月九日中国中文信息学会与北京教科院基础教育教学研究中心在北京人民大会堂召开了《汉字规范码应用于基础教育教学实践》成果发布会。
2001 Vol. 15 (1): 58-58 [摘要] ( 199 ) [HTML 1KB] [PDF 105KB] ( 369 )
59 《现代汉语语法信息词典》的新进展
俞士汶,朱学锋,王惠
《现代汉语语法信息词典》是面向汉语信息处理的基本语言知识库。1995年11月底通过技术鉴定。5年来,北大计算语言学研究所在应用、推广的同时,仍把重要的力量投入词典本身的发展。至目前为止,词典收词已由5万条增加到7.3万条,并且全部完成了归类;为了处理未定义词,还开发了一个全新的语素库;词语语法属性描述中的瑕疵得到了进一步的修正,新增了20多个语法属性项目和大量的实例。整个词典的规模和质量有了显著的提高。
2001 Vol. 15 (1): 59-65 [摘要] ( 632 ) [HTML 1KB] [PDF 118KB] ( 1902 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发