“论文” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 王晓瑞,丁鹏,梁家恩,徐波
    摘要 (547) PDF (1144 KB) (1053)
    语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一个面向广播语音识别的语言模型自适应框架,该框架联合了以下技术: 一种新的非迭代的新词提取方法,一种新的中文开放式词典语言模型,一种基于困惑度( PPL) 的背景语料筛选方法和一个 N2gram 概率分布自适应模块。另外,本文还专门分析了在语言模型自适应过程中命名实体词的识别情况。实验表明,通过使用该框架,误识率相对下降了10 % ,实体词识别准确率提高了4 %。
  • 董静,孙乐,冯元勇,黄瑞红
    摘要 (862) PDF (539 KB) (4232)
    命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测
  • 张志伟,孔凡让,刘维来,龙潜,刘永斌
    摘要 (665) PDF (169 KB) (1091)
    数学表达式定位是印刷体数学表达式识别的前提。针对中文科技文档,分别对独立表达式和内嵌表达式的定位问题提出了新的方法。采用自适应神经模糊推理系统(ANFIS) 对行特征进行分类,提取出独立表达式;采用模糊聚类和动态规划方法,从文档中依次提取出汉字、中文标点和英文字符,利用启发式规则合并剩余的数学符号而提取出内嵌表达式。实验表明,提出的表达式定位方法有很高的正确率。
  • 刘庆升, 魏思, 胡郁, 郭武, 王仁华
    摘要 (641) PDF (146 KB) (1466)
    随着普通话推广工作的深入,采用计算机进行普通话的辅助测试和学习的需求日益迫切。本文针对普通话发音特点,提出了一种改进的基于音素的自动发音质量评价算法。新算法在隐马尔科夫模型的对数后验概率算法基础上,引入普通话发音的语言学知识。与改进前相比,新算法不仅降低了运算量,而且在普通话水平测试的 303 人现场录音库上,使得机器打分与国家级评测员打分之间的相关度从0. 704 提升到0. 795 。
  • 章森, 华绍和
    摘要 (493) PDF (1253 KB) (820)
    广播语音的自动识别、标注、检索等是涉及到语音技术、自然语言处理、信息检索等多个领域的综合性课题。在介绍了广播语音的自动标注与检索的研究概况并分析了其中涉及的关键技术基础上,提出了面向普通话广播语音的多层次自动标注框架以及基于多层次标注的语音检索方案,对文档层、句子层和词语层的标注属性进行了探讨,采用了递归标注方法对属性逐层细化,并讨论了对语音自动标注至关重要的语音识别引擎和语音流分割等问题。基于本文提出的方法,对10 小时的普通话广播语音资料进行了标注和检索,得到了比较满意的实验结果。
  • 张玮,孙乐,冯元勇,李文波,黄瑞红
    摘要 (540) PDF (894 KB) (1383)
    中文输入法是中文信息处理的难题之一。随着互联网上中文用户的不断增加,中文输入法的重要性也变得日益突出。本文在对句子中长距离词汇依赖现象观察的基础上,抽取出语料库中的词汇搭配来获取长距离特征,并以此构建基于词汇搭配关系的拼音输入法系统;同时将词汇搭配的思想应用到拼音输入法的用户模型中,从而使我们的输入法系统能够辅助用户更加有效的输入。实验表明基于词汇搭配关系的改进方法对提高输入法的准确率有积极的作用。
  • 江荻
    摘要 (509) PDF (288 KB) (979)
    本文讨论藏语述说动词管控的句子性小句宾语。藏语述说动词包括“说”类动词、认知动词、思考动词、询问动词及其他语义相关的动词。从小句自身结构看,可以是完整的句子,带主语、谓语以及句末动词体貌标记和语气词,也可能只是单一的谓语动词。小句宾语自身具有谓词性,通常通过添加名词化标记使之名词化。小句宾语的标记来自古代述说类动词的类典型zer 的语法化,而在现代藏语中作为小句标记语音和书写形式上都有多个变体。小句宾语内部也有复杂的关系和层次,类似于英语的直接引语与间接引语。小句缺省主语的情况下,动作发出者可通过表示体貌、情态的语法词以及上下文来确定。小句的句类包括陈述、疑问、祈使和感叹,可带不同的句类语气词。最后应该指出,有一部分述说动词小句宾语经常不带名词化标记,这种现象会给句法处理算法带来一定的麻烦,相关原因和解决办法还须进一步研究。
  • 苏国平,缪成,夏国平
    摘要 (488) PDF (341 KB) (965)
    本文面向维哈柯文自动选择显示字形研究,分析了新疆地区普遍使用的维吾尔、哈萨克文和柯尔克孜文变形显示的特点,简要介绍了最新Open Type 字体技术的结构与操作步骤,基于该字体技术设计了一种通用维哈柯文自动选形引擎,通过分析文字的连接类型,构建自动选形规则库,按照规则绑定字形标签,并应用Open Type 字体解释引擎按照字形标签完成字符替换与置位操作。并且在永中office 维哈柯文版本上实现了该自动选形引擎, 经实际应用测试证明,该字体引擎完全实现了维哈柯文变形显示的要求。
  • 陈壮
    摘要 (640) PDF (292 KB) (1147)
    标准化是实现技术产业化的基础。中文信息处理技术是我国特有的、具有国际领先水平的技术。我国自 20 世纪80 年代参与ISO/ IEC J TC1/ SC2 的活动以来,在中文编码技术的国际标准化工作中取得了显著成绩。本文介绍了ISO/ IEC J TC1/ SC2 的工作领域、工作方式和组织结构;我国参与ISO/ IEC J TC1/ SC2 及其下属该组织活动的方式;国际标准ISO/ IEC 10646 的大致情况和我国在参与此国际标准研制工作中取得的成绩、当前的工作和未来工作的计划。本文论述了我国参与本文ISO/ IEC J TC1/ SC2 活动的意义,以及我国在ISO/ IEC J TC1/ SC2 活动中的作用、地位和影响。作者还提出了对未来工作的建议。
  • 谢谦,吴健,孙玉芳
    2005, 19(4): 98-105.
    摘要 (516) PDF (471 KB) (958)
    Linux 系统对少数民族文字的支持需要建立在国际化机制基础上,本文在总结现有Linux 国际化框架层次结构基础上,分析了X核心系统国际化的一些关键问题,并以增加藏文支持的实践为例,系统说明了增加民族文字支持所需对X核心系统进行的改动,对在相关项目中的实施情况和效果进行了评估,最后结合其他民族文字系统的研究,对这些工作的局限性进行了深入分析,并提出了今后的工作方向。
  • 支秉彝
    摘要 (505) PDF (230 KB) (720)
           在今天,生物工程学应用生物信息原理发展了近代遗传工程学和其它生物学的新问题, 建立了新的理论基础, 说明了人自身有各种功 能的信息, 这是客观存在的事实。不仅如此, 人还能通过人的感觉机构去采集人体外自然界中的各种信息, 并进行综合处理。人的认识过程是对信息反映的过程。信息和物质、能量一样都是客观世界存在的三大要素。但信息不是事物实体, 而是事物特征, 在人们的认识较 为抽象。如以信息的观点去解释人对客观世界的认识, 可以说, 人的 感觉即是信息的获取, 人的思想则是对信息的处理, 处理信息的结果 成为人的观点。人的大脑细胞在母体里已经生成了, 但人的知识只有 在客观世界中才能得到。没有生而知之, 只有学而知之者。
  • 陈力为
    摘要 (546) PDF (188 KB) (858)
           中文信息技术是研究我国民族语言文字的信息处理问题的应用技术, 是一门近十年来发展起来的多学科交叉的综合性技术学科,其研究涉及到计算机科学、语言学、数学和心理学等多门学科。 
           中文信息技术的研究水平将直接决定我国计算机应用水平, 对于 贯彻“ 面向应用, 以用立业” 的发展方针, 促进我国计算机行业发展 有重大意义。
  • 刘涌泉
    摘要 (426) PDF (355 KB) (797)
           词库的建立标志着中文信息处理进人一个新阶段。基本词库应是通用型的, 其容量至少需要五万词。词长以不超过六个音节为宜。从静态上讲, 二、三音节的词应占绝大多数。
  • 李家治,陈永明
    摘要 (463) PDF (405 KB) (732)
           汉语同西方语言的明显区别在于它没有变格, 即没有词形变化来表明一个名词是属于什么时态可是没有汉语语法却未源于西方1898年间问世的“ 马氏文通” 是我国第一部汉语语法, 它是从拉丁语语法移植来的, 因而不能很好解释汉语。
  • 刘源,梁南元
    摘要 (834) PDF (588 KB) (1498)
           汉语词领统计是汉语言处理的一项基础工程。汉语词汇量巨大, 人工统计精度上难以保证。由于存在编码输入、分词等方面的困难, 直到八十年代初期, 我国才开始利用计算机进行汉语分词、统计的研究。“ 现代汉语词预统计” 是由北京航空学院等个单位研制成功的、规模巨大的汉语基础工程。它选取汉语材料约三亿字, 从中抽样输入了二千余万汉字, 并对之进行了计算机自动分词和频度统计。它首次实现了一个汉语自动分词系统一CDWS, 建立了一个有十三余万词条的计算机词典, 研制了一个有五十二个属性的汉字信息库。
  • 关英春,秦蓓
    摘要 (567) PDF (442 KB) (1038)
           本文从理论和实践上论证了汉语字、词的频度统计自动化的可行性问题, 简要介绍了计算机自动统计方法、研制成功的汉字自动统计CWSS系统和CWDB汉语词库的结构、功能和特点。提出在设计和实现CWSS和CWDB中的若干技术问题和解决方法。该系统和CWDB经过一年多试用, 效果良好, 稳定可靠, 适合各专业部门需要。
  • 袁琦
    摘要 (611) PDF (332 KB) (983)
           中文信息技术按其发展过程, 可以划分为汉字字符处理、语词处理、语句处理和文脉处理四个阶段。研究会成立五年来, 通过全国性、跨行业、跨部门的学术交流活动, 有力地促进了中文处理技术发展。现在, 我国的中文信息技术已从汉字字符处理阶段, 进入语词和语句处理阶段。今后, 中文信息技术将与人工智能研究紧密结合, 朝向自然语言处理的广泛领域迅速发展。
  • 鲁川,梁镇韩
    摘要 (467) PDF (511 KB) (915)
           计算机对汉语的理解和生成, 是在我国推广应用计算机、实现办公自动化、研制我国的第五代计算机第一代智能机的关键研究课题。这项研究属于人工智能的重要领域—自然语言理解。
  • 米尔
    摘要 (423) PDF (229 KB) (892)
           1986年8月20日在新加坡举行了1986国际中文计算机会议(1986 International Conference on Chinese Computing)。会议是由中文计算机学会、新加坡国立大学系统科学学院新加坡电脑学会、电气及电子工程师协会(IEEE)下属的电脑学会新加坡分会共同召开的。参加这次会议的有来自澳大利亚、加拿大、中国、香港、日本、新加坡、美国、联邦德国、马来西亚、南朝鲜十个国家或地区的代表共二百多名, 其中包括中国大陆学者二十五名, 台湾学者十余名
  • 曹礼德,姚天顺
    摘要 (624) PDF (277 KB) (850)
    本文初步探讨了实现关系数据库上泛关系查询与自然语言查询接口的一种方法, 文章对其中的若干问题如词典的组织、翻译算法等作了比较详细的讨论并通过实例进行了具体的说明。
  • 孙玉方
    摘要 (514) PDF (865 KB) (840)
    UNIX 系统是目前16位、32位微型、小型机上通用的多用户系统。本文围绕着一类机器上多种 UNIX 版本上 C—UNIX 的开发工作,全面论述了 UNIX 的总体结构,各种不同的实现方案,中西文兼容的 C-UNIX 的设计目标和总体方案以及实现过程,特别是讲述了核心的改造工作,最后表达了作者对实现 C-UNIX 的一些看法及今后的打算。
  • 尹晓峰,阎昌德,苏东庄
    摘要 (545) PDF (450 KB) (934)
    本文选取八种汉字特征, 对汉字基本集所包含的6763字种在同一字形数据集上进行了特征提取及分类试验, 分析了特征分布情况, 并对试验结果进行了比较。试验中所选取的八种特征是1.转动惯量, 2.Fourier变换, 3.Wastsh变换,4.区域码, 5.复杂度指数,6. 4一SDF, 7.LDC, 8.网格单元.
    由于试验在同一字形数据集上进行, 使得各种特征提取及其分类结果的横向比较更为客观准确试验字种也提高到了国标二级6763个汉字, 为我们开发实用的汉字识别系统提供了经验和依据。
  • 赵珀璋
    摘要 (503) PDF (242 KB) (910)
    本文首先简介了语言学, 语音学基本知识, 接着讨论了语音信息处理原理及汉语语音基础知识, 最后阐述了计算机中文语音信息处理基本方法。
  • 吴新瞻
    摘要 (683) PDF (351 KB) (820)
    由于汉字的数量多, 构形复杂, 以及书写时字体变化大, 手写体汉字的自动识别对计算机而言仍然是艰巨的任务。但是, 手写体汉字的联机识别, 由于记录了每一个汉字书写时的笔划顺序, 使得汉字的几何结构基本上可由笔划的一个有序集表示, 只剩下少量的汉学不能由此完全区分, 因而间题大大地简化, 这是手写体汉字联机识别近年来能够付诸实践的根本原因。
  • 袁琦
    摘要 (523) PDF (53 KB) (818)
    由国家科委下达, 并委托国家标准局主管的“ 现代汉语词频统计” 重大科研项目, 经过主办单位北航以及参加协作的人大、北大等十个单位的科技工作者历时四年半的努力, 最近完成全部研制工作, 并于今年月在北京通过了国家科委委托国家标准局组织的国家级鉴定。