中文信息学报

Select

揭春雨 ,刘源 ,梁南元

1989, 3(1): 3-11.

摘要 (888) PDF (605 KB) (2068)

Baidu(488)

文章简单考查了目前中文信息处理领域中已有的几种主要的汉语自动分词方法, 提出自动分词方法的结构模型ASM(d,a,m)，对各种分词方法的时间复杂度进行计算, 对于时间复杂度对分词速度的影响, 以及分词方法对分词精度的影响也进行了分析；同时指出并论证在自动分词中设立“ 切分标志”是没有意义的。

Select

北京大学现代汉语语料库基本加工规范

俞士汶,段慧明,朱学锋,孙斌

2002, 16(5): 51-66.

摘要 (1497) PDF (670 KB) (2623)

Baidu(410)

北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外, 还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库墓本加工规范》是为了抛砖引玉, 更广泛地向专家、同行征询意见, 以便进一步修订。

Select

一种中文分词词典新机制——双字哈希机制

李庆虎,陈玉健,孙家广

2003, 17(4): 14-19.

摘要 (864) PDF (255 KB) (1899)

Baidu(360)

汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制——双字哈希机制,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,提高了中文分词的速度和效率。

Select

基于大规模日志分析的搜索引擎用户行为分析

余慧佳,刘奕群,张敏,茹立云,马少平

2007, 21(1): 109-114.

摘要 (1008) PDF (292 KB) (2803)

Baidu(306)

用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。

Select

中文姓名的自动辨识

孙茂松1，黄昌宁1，高海燕2，方捷1

1995, 9(2): 16-27.

摘要 (970) PDF (687 KB) (3021)

Baidu(278)

中文姓名的辨识对汉语自动分词研究具有重要意义。本文提出了一种在中文文本中自动辨识中文姓名的算法。我们从新华通讯社新闻语料库中随机抽取了300个包含中文姓名的句子作为测试样本。实验结果表明, 召回率达到了99.77%。

Select

书面汉语自动分词专家系统设计原理

何克抗,徐辉,孙波

1991, 5(2): 3-16,30.

摘要 (746) PDF (1175 KB) (2230)

Baidu(273)

本文深入地分析了歧义切分字段产生的根源和性质, 把歧义字段从性质上划分为四类, 并给出了消除每一类歧义切分字段的有效方法。在对歧义字段进行统计分析的基础上提出了切分精度的“四级指标体系”, 并论证了专家系统方法是实现自动分词系统的最佳方素。

Select

一种新的句子相似度度量及其在文本自动摘要中的应用

张奇,黄萱菁,吴立德

2005, 19(2): 94-100.

摘要 (850) PDF (341 KB) (2237)

Baidu(244)

本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的unigram ,还考虑了bi-gram 和tri-gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的,利用句子间相似度以及句子的权重的抽句式文摘算法,在抽取出句子的同时也去掉了冗余。DUC2003、DUC2004 (Document Understanding Conference 2003 ,2004) 的评测结果征明了方法的有效性。我们的系统在DUC2004 的评测中列第二位。

Select

一种基于上下文的中文信息检索查询扩展

贺宏朝,何丕廉,高剑峰,黄昌宁

2002, 16(6): 33-38+46.

摘要 (1018) PDF (319 KB) (1809)

Baidu(203)

在中文信息检索的研究和实践中,由于查询中所使用的词可能与文件集中使用的词不匹配而导致一些相关的文件不能被成功地检索出来,这是影响检索效果的一个很关键的问题。查询扩展可以在一定程度上解决这种词的不匹配现象,然而,实验表明,通常简单的查询扩展并不能稳定地提高中文信息检索的检索效果。本论文中提出并实现了一种基于上下文的查询扩展方法,可以根据查询的上下文对扩展词进行选择,是一种相对“智能”的查询扩展方法。在TREC - 9 中文信息检索测试集上进行的实验表明,相对于通常简单的查询扩展,基于上下文的查询扩展方法取得了具有统计意义提高的检索效果。

Select

论歧义结构的潜在性

冯志伟

1995, 9(4): 14-24.

摘要 (767) PDF (838 KB) (1509)

Baidu(202)

本文把作者在科技术语结构研究中提出的“潜在歧义论”(PA论)进一步推广到日常语言, 说明在汉语日常语言中也广泛地存在着潜在歧义结构, 而在具体的语言文本中, 许多潜在歧义都消解了。自然语言有歧义性的一面, 又有非歧义性的一面, 潜在歧义论正好揭示了自然语言的歧义性和非歧义性对立统一的规律。潜在歧义论指出了潜在歧义结构本身就包含了消解歧义的因素, 因而这种理论可为自然语言处理提供消解歧义的方法和手段。

Select

面向Internet的中文新词语检测

邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇

2004, 18(6): 2-10.

摘要 (829) PDF (137 KB) (1165)

Baidu(184)

随着社会的飞速发展,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法,通过大规模地分析从Internet上采集而来的网页,建立巨大的词和字串的集合,从中自动检测新词语,而后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出采集语料中存在的新词语。根据该方法实现的系统,可以寻找不限长度和不限领域的新词语,目前正应用于《现代汉语新词语信息(电子)词典》的编纂,在实用中大大的减轻了人工查找新词语的负担。

Select

基于语料库的中文姓名识别方法研究

郑家恒1 , 李鑫2 , 谭红叶1

2000, 14(1): 7-12.

摘要 (893) PDF (283 KB) (2908)

Baidu(168)

本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95.23%;精确率为87.31% 。

Select

HNC理论概要

黄曾阳

1997, 11(4): 12-21.

摘要 (743) PDF (458 KB) (1910)

Baidu(155)

主编按语:《HNC理论概要》的作者黄曾阳先生创立的面向整个自然语言理解的理论框架, 在语义表达上有自己的特色, 在语义处理上走了一条新路。鉴于汉语语法研究尚有诸多困惑, HNC理论所走的以语义表达为基础的新路子对突破汉语理解问题尤其有实际意义。

Select

藏文自动分词系统的设计与实现

陈玉忠,李保利,俞士汶

2003, 17(3): 16-21,66.

摘要 (841) PDF (329 KB) (1494)

Baidu(140)

藏文自动分词系统的研制目前在国内仍是空白。本文从四个方面详细报告了书面藏文自动分词系统的具体实现过程,内容包括系统结构、分词知识库的组织与实现以及分词策略、算法设计及其详细的自动分词过程实例。文章最后给出了实验结果,结果表明系统具有较高的切分精度和较好的通用性。

Select

规则和统计相结合的汉语词类标注方法

周强

1995, 9(3): 1-10.

摘要 (568) PDF (616 KB) (1334)

Baidu(127)

本文分析了汉语的多类词现象与汉语词类标注的困难, 介绍了汉语词类标注中的规则排歧和统计排歧的处理策略以及规则和统计相结合的处理思路。按此思路设计的软件系统, 对封闭语料和开放语料的标注正确率分别达到了96.06%和95.82%。

Select

一种中文文档的非受限无词典抽词方法

金翔宇,孙正兴,张福炎

2001, 15(6): 34-40.

摘要 (734) PDF (268 KB) (1544)

Baidu(123)

本文提出了一种非受限无词典抽词模型,该模型通过自增长算法获取中文文档中的汉字结合模式,并引入支持度、置信度等概念来筛选词条。实验表明:在无需词典支持和利用语料库学习的前提下,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感,而又对计算速度要求很高的中文信息处理应用,例如实时文档自动分类系统。

Select

自然语言文本水印

张宇,刘挺,陈毅恒,赵世奇,李生

2005, 19(1): 57-63,71.

摘要 (1374) PDF (368 KB) (1888)

Baidu(113)

本文主要介绍了基于自然语言处理的文本水印技术,也即自然语言文本水印技术。该技术是在不改变文本原意的前提下,将需要隐藏的文本信息(水印信息) 插入到原始文本中的一种信息隐藏技术。这种技术对于确认信息来源和信息的秘密传送,以及版权维护等方面都有着很大的应用价值。本文首先给出了基于自然语言处理技术的文本水印的概念、特点及攻击模型,并对文本水印的研究现状进行了分析。通过分析可以看出,自然语言文本水印技术有着更好的灵活性,并且在适度的攻击下,不会破坏水印信息。本文详细介绍了文本水印系统的设计过程,包括该技术的基础数学理论- 二次余数理论。最后详细介绍了两种自然语言文本水印嵌入方法,分别是基于句法分析和基于语义的水印嵌入方法。

Select

汉语计算机自动分词知识

梁南元

1990, 4(2): 31-35.

摘要 (884) PDF (225 KB) (1109)

Baidu(108)

汉语分词是汉语言计算机处理的一项不可缺少的工作。使用自动分词知识可以进一步提高自动切分精度, 满足高标准的需求。本文在[1][2][3]的研究基础上, 介绍了一些行之有效的自动分词知识。根据对48092 个汉字的语言材料统计结果表明统计材料分社会科学和自然科学两部分, 这些自动分词知识可以处理左右的歧义切分字段。

Select

现代汉语语法信息词典规格说明书

俞士汶，朱学锋，王惠，张芸芸

1996, 10(2): 1-22.

摘要 (988) PDF (1167 KB) (1757)

Baidu(86)

《现代汉语语法信息词典》是为计算机实现汉语分析和汉语生成而研制的一部电子词典。这部电子词典可以在语言信息处理的广泛领域中得到应用。本词典的详细规格说明书的初稿制订于1990年。在八五攻关期间1991年至1995年,一方面严格按照规格说明书进行词典内容的开发, 一方面在开发过程中又对规格说明书进行了局部的调整与修订, 于1995年11月形成的现在的版本。这份规格说明书也是汉语信息处理研究的一项重要成果。#br#现在发表的这份规格说明书共分以下五章第一章介绍词典的设计目标与结构第二章介绍总库的属性字段。第三章介绍各类词库的共同属性字段,第四章介绍各类词库专有的属性字段。第五章介绍《现代汉语语法信息词典》于年月通过专家鉴定时所达到的规模附录给出了面向信息处理的现代汉语词语分类体系的词类代码表。

Select

基于潜在语义索引的文本浏览机制

林鸿飞,姚天顺

2000, 14(5): 49-56.

摘要 (819) PDF (193 KB) (1165)

Baidu(84)

文本浏览是伴随着因特网上日益增多的在线文本而出现的辅助阅读机制,本文给出了基于潜在语义索引的文本浏览机制。它吸取了潜在语义索引和概念标注的优点,利用潜在语义索引,减少词汇间的“斜交”现象,在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算。利用概念词典将文本特征项按语义分类,给予层次分类以确定的含义。最后,实现以分层概念为基础的信息导航。

Select

中文词的自动办理

王永成,苏海菊,莫燕

1990, 4(4): 3-13.

摘要 (690) PDF (524 KB) (1383)

Baidu(81)

本文综述了中文词处理方面的进展, 并系统地科学地提出了最新的分词算法思想利用切割标志, 将中文切割成一些词段再用词典对分割出的词段进行匹配抽词恰当地处理切分与抽词后留下的字串：应用“ 解答树” 及若干介词原则及切分规则或具体的分词知识以解决不同形式切分及其人工选择问题。

Select

基于弹性网格模糊特征的手写体汉字识别方法

刘伟,朱宁波,何浩智,李德鑫,孙发军

2007, 21(3): 117-121.

摘要 (1096) PDF (446 KB) (1249)

Baidu(79)

网格方向特征在手写体汉字识别系统中得到广泛应用,被认为是目前较成熟的手写体汉字特征之一。网格技术是网格方向特征的关键技术之一。根据汉字笔画分布特点及拓扑结构的相关性,提出了一种新的基于弹性网格及其相关模糊特征的提取方法。该方法使特征向量的信息量增加,特征更加稳定。对银行支票图像大写金额的识别率达到97.64%,实验结果证明本文方法比其他网格方向特征更有效。

Select

基于搭配对的汉语形容词—名词聚类

闻扬,苑春法,黄昌宁

2000, 14(6): 45-50.

摘要 (801) PDF (348 KB) (1524)

Baidu(78)

本文提出了一个双向分级聚类的算法同时对不同词性的词进行聚类。在聚类过程中,不同词性的词的聚类交替进行,相互影响。我们以最小描述长度的原理为基础构造了目标函数。为了减小数据稀疏的影响,又提出了修饰度的与修正距离的概念。将此算法应用于汉语形容词- 名词的搭配对,对形容词与名词进行聚类,实验结果显示该算法是有效的。

Select

基于规则学习的韵律结构预测

赵晟,陶建华,蔡莲红

2002, 16(5): 32-39.

摘要 (810) PDF (1009 KB) (1912)

Baidu(78)

韵律结构的分析和预测作为提高语音合成系统自然度的一个重要核心组成, 日益受到重视。本文提出了一种基于规则学习的汉语韵律结构预测方法, 该方法从人工韵律标注的语料库中抽取语言学特征和两级韵律结构标记, 构建了实例数据库（example database), 再利用规则学习(rule learning)算法从实例中自动归纳韵律短语预测规则。本文通过大量的实验挑选出对于汉语韵律结构预测最有效的特征, 采用和比较了两种典型的规则学习算法。同时, 对于实验结果给出了较为系统的评价参数。实践表明, 规则学习算法用于韵律结构预侧达到了90%以上的正确率, 优于目前其他方法的结果, 是一种行之有效的办法。

Select

基于反馈学习自适应的中文话题追踪

王会珍,朱靖波,季铎,叶娜,张斌

2006, 20(3): 94-100.

摘要 (770) PDF (576 KB) (1330)

Baidu(75)

在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。该算法能够解决话题漂移现象,并能够弥补现有自适应方法的不足。该算法中还考虑了话题追踪任务的时序性,将时间信息引入到了算法中。本文实验采用TDT4语料中的中文部分作为测试语料,使用TDT2004的评测方法对基于反馈学习的自适应的中文话题追踪系统进行评价,实验数据表明基于反馈学习的自适应方法能够提高话题追踪的性能。

Select

汉语自动分词及歧义组合结构的处理

李国臣,刘开瑛,张永奎

1988, 2(3): 29-35.

摘要 (740) PDF (465 KB) (1097)

Baidu(75)

现代汉语计算机自动分词是中文信息处理领域所特有的一个重要研究课题, 机器翻译（MT）、自然语言理解（NLU）、情报检索（IR）等许多工作都需以自动分词作为基础。#br#本文对现有的几种计算机自动分词界法进行了简要的分析和评价, 提出了一种新的分词算法—“联想—回溯法”（Association — Backhacking Method）, 简称AB法, 并对这种基于知识的分词算法进行了详细的讨论。在此基础之上, 我们着重论述了歧义组合结构的切分策略,提出了许多处理歧义结构的实用切分规则

Select

基于卷积神经网络的微博情感倾向性分析

刘龙飞,杨亮,张绍武,林鸿飞

2015, 29(6): 159-165.

摘要 (2160) PDF (2370 KB) (2501)

Baidu(73)

微博情感倾向性分析旨在发现用户对热点事件的观点态度。由于微博噪声大、新词多、缩写频繁、有自己的固定搭配、上下文信息有限等原因,微博情感倾向性分析是一项有挑战性的工作。该文主要探讨利用卷积神经网络进行微博情感倾向性分析的可行性,分别将字级别词向量和词级别词向量作为原始特征,采用卷积神经网络来发现任务中的特征,在COAE2014任务4的语料上进行了实验。实验结果表明,利用字级别词向量及词级别词向量的卷积神经网络分别取得了95.42%的准确率和94.65%的准确率。由此可见对于中文微博语料而言,利用卷积神经网络进行微博情感倾向性分析是有效的,且使用字级别的词向量作为原始特征会好于使用词级别的词向量作为原始特征。

Select

社会标注及其在信息检索中的应用研究综述

靳延安1,2,李瑞轩1,文坤梅1,辜希武1,卢正鼎1,段东圣1

2010, 24(4): 52-63.

摘要 (950) PDF (2149 KB) (1387)

Baidu(68)

社会标注作为一种新型的网络资源管理和组织形式,在互联网和企业网中已经成为一种普遍的网络服务。社会标注具有标引、分类、资源发现和语义特性,这些特性可以帮助用户找到预期的信息。因此,可以利用社会标注来进行信息检索。该文首先对社会标注及标注对象和标注方法进行了概述。然后,从社会标注的分类特性、社区发现以及社会标注与语义搜索等方面进行综述评论。最后,讨论社会标注研究领域存在的挑战,并指出未来可能的研究方向。

Select

基于智能技术的远程教育答疑系统研究

高光来,王玉峰

2003, 17(6): 54-60.

摘要 (868) PDF (337 KB) (1147)

Baidu(65)

网上答疑系统是现代远程教育系统中不可缺少的一部分,然而当前的答疑系统只是根据用户的输入对题库中的问题进行简单的关键词匹配,查询精度和用户界面满足不了用户的需求。针对以上缺点,本文给出一个应用语义网络原理构筑起来的智能答疑系统。文章分析了建立智能答疑系统的必要性,由此提出了一个基于限定领域的智能答疑系统模型及其技术路线,并以两门大学计算机课程作为知识库来源,实现了系统的功能。试验结果表明,本文所提出的方法有效地提高了查询精度,用户界面友好方便。

Select

建立现代汉语依存关系的层次体系

刘伟权，王明会，钟义信

1996, 10(2): 32-46.

摘要 (742) PDF (629 KB) (1368)

Baidu(65)

依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构本文针对从短语到句群的各级单位内部的各种依存关系展开讨论。提出依存关系普遥存在于各级单位之中, 初步建立了汉语依存关系的层次体系。这一体系覆盖了大部分常见的语言现象, 经检验可应用于句法分析过程中, 作为表示句子结构的一种手段。为了增进体系的完备性和正确性, 显然还有许多工作要做。

Select

汉语句型自动分析和分布统计算法与策略的研究

罗振声，郑碧霞

1994, 8(2): 1-19.

摘要 (718) PDF (947 KB) (1689)

Baidu(65)

汉语句型的自动分析与分布统计是继我国汉字字频统计和词频统计之后的又一重要的基础性研究课题本文就以结构特征为标准的句型系统, 提出以谓语为中心的句型成分分析与句型匹配相结合的分析算法与策略, 讨论了句型成分及其短语边界的识别与判定方法, 给出了有关竣义结构的处理策略, 以及实验模型的测试结果与分析。

Select

基于转换的时间-事件关系映射

王昀,苑春法

2004, 18(4): 24-31.

摘要 (820) PDF (464 KB) (1252)

Baidu(64)

近些年来,中文时间信息抽取和处理已经变得越来越重要。然而,很少有研究者关注中文文本中事件信息所对应的时间信息的识别和分析。本文的目的就是确定文本中时间信息和事件信息之间的映射关系。区别于传统的基于规则的方法,本文采用了一种机器学习的方法—基于转换的错误驱动学习—来确定事件相应的时间表达,这种学习算法可以自动的获取和改进规则。使用训练得到的转换规则集后,系统的时间-事件映射错误率减少了9.74%,实验结果表明本系统对基于规则的方法有很好的改进效果。

Select

文本处理中的MapReduce技术

李锐1,2,王斌1

2012, 26(4): 9-21.

摘要 (834) PDF (1762 KB) (1127)

Baidu(63)

用于文本处理的很多数据集已经达到TB、PB甚至更大规模,传统的单机方法难以对这些数据进行有效处理。近年来出现的MapReduce计算框架能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,得到了学术界和工业界的广泛认可和使用。目前,MapReduce已经被用于自然语言处理、机器学习及大规模图处理等领域。该文首先对MapReduce做了简单的介绍,并分析了其特点、优势还有不足;然后对MapReduce近年来在文本处理各个方面的应用进行分类总结和整理;最后对MapReduce的系统和性能方面的研究也做了一些介绍与展望。

Select

中文Web文档库全文检索技术研究与实现

杨文清,黄宜华,张福炎

1999, 13(4): 50-57.

摘要 (853) PDF (347 KB) (1305)

Baidu(63)

全文检索是一种非常有效的信息检索技术,本文结合国家863项目《WWW文档协同写作系统》的设计与开发,研究对中文Web文档库实现全文检索的主要技术,着重讨论了字表法全文检索技术细节,最后介绍了一个实用的全文检索系统的实现。

Select

汉语短语的自动划分和标注

周强

1997, 11(1): 1-10.

摘要 (757) PDF (604 KB) (960)

Baidu(63)

考虑到传统的基于规则的汉语分析器对大规模真实文本的分析所遇到的困难, 本文在使用统计方法进行汉语自动句法分析方面作了一些探索, 提出了一套基于统计的汉语短语自动划分和标注算法, 它分为预测划分点、括号匹配和分析树生成等三个处理阶段, 其间利用了从人工标注的树库中统计得到的各种数据进行自动句法排歧, 最终得到一棵最佳句法分析树, 从而可以自顶向下地完成对一句句子的短语自动划分和标注, 对一千多句句子的封闭测试结果表明, 短语划分的正确率约为86%, 短语标注的正确率约为92%, 处理效果还是比较令人满意的。

Select

一种基于信息熵的中文高频词抽取算法

任禾,曾隽芳

2006, 20(5): 42-45,92.

摘要 (1108) PDF (126 KB) (1861)

Baidu(61)

为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。

Select

中文输入中语法分析技术的应用

俞士汶

1988, 2(3): 22-28.

摘要 (618) PDF (446 KB) (1577)

Baidu(60)

北京大学计算机研究所研制了一种以词和基础的中文语句输入方法。为了减少选择同特征词的麻烦, 输入方法使用了语法分析技术, 取得了一定的效果。本文叙述了方法的梗概、应用语法公式的原理以及加速语法分析的剪枝算法。

Select

解决多音字字-音转换的一种统计学习方法

张子荣,初敏

2002, 16(3): 40-46.

摘要 (997) PDF (211 KB) (3501)

Baidu(59)

字-音转换是语音合成系统中的一个重要模块,其中多音词和以单字词形式存在的多音字读音的确定一直是个没有很好解决的问题。本文通过对大量标注有正确拼音的语料的统计,指出着重解决41个重点多音字和22个重点多音词就可基本解决字-音转换的问题。本文采用基于扩展的随机复杂度的随机决策列表方法自动提取多音字(词)的读音规则,将字-音转换的错误率由8.8‰降低到4.4‰。规则的训练和测试的材料的标注是一个耗费人力和时间的工作,而训练材料的数量和质量又直接影响最终的结果。本文提出一种半自动的语料标注流程,可以节省将近一半的人工和时间。

Select

统计与词典相结合的领域自适应中文分词

张梅山,邓知龙,车万翔,刘挺

2012, 26(2): 8-13.

摘要 (1346) PDF (950 KB) (1378)

Baidu(58)

基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。

Select

藏语语料库词语分类体系及标记集研究

才让加

2009, 23(4): 107-113.

摘要 (887) PDF (285 KB) (920)

Baidu(57)

青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。

Select

中文科技术语的结构描述及潜在歧义

冯志伟

1989, 3(2): 3-18.

摘要 (786) PDF (682 KB) (1310)

Baidu(56)

本文是作者最近在中文术语数据库研究中提出的“ 潜在歧义论”（简称PA论）的第一部分, 说明了中文科技术语中存在着PT-结构、SF-结构和LS-结构三个层次不同的结构, 而当术语的PT-结构与SF-结构不一一对应时, 就会产生潜在歧义, 这种潜在歧义普遍地存在于中文科技术语的PT-结构之中, 是中文词组型术语结构自动分析中的关键问题。“ 潜在歧义论” 为中文科技术语的自动分析提供了一个行之有效的“ 受限语法” 模型。

选择文件类型/文献管理软件名称

选择包含的内容