中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2017年 31卷 1期
刊出日期:2017-02-15

信息抽取与文本挖掘
少数民族及周边语言信息处理
语言资源建设
情感分析与社会计算
信息检索与问答系统
自然语言处理应用
语言分析与计算
篇章分析与计算
 
   
信息检索与问答系统
1 基于问题与答案联合表示学习的半监督问题分类方法
张 栋;李寿山;王晶晶
问题分类旨在对问题的类型进行自动分类,该任务是问答系统研究的一项基本任务。该文提出了一种基于问题和答案联合表示学习的问题分类方法。该方法的特色在于利用问题及其答案作为共同的上下文环境,学习词的分布式表示,从而充分利用未标注样本中问题和答案隐含的分类信息。具体而言,首先,我们引入神经网络语言模型,利用问题与答案联合学习词向量表示,增加问题词向量的信息量;其次,加入大量未标注的问题与答案样本参与词向量学习,进一步增强问题词向量表示能力;最后,将已标注的问题样本以词向量形式表示作为训练样本,采用卷积神经网络建立问题分类模型。实验结果表明,该文提出的基于半监督问题分类方法能够充分利用词向量表示和大量未标注样本来提升性能,明显优于其他基准半监督分类方法。
2017 Vol. 31 (1): 1-7 [摘要] ( 733 ) [HTML 1KB] [PDF 4492KB] ( 1262 )
8 面向阅读理解复杂问题的句子融合
谭红叶; 赵红红; 李 茹;
阅读理解是目前NLP领域的一个研究热点。阅读理解中好的复杂问题解答策略不仅要进行答案句的抽取,还要对答案句进行融合、生成相应的答案,但是目前的研究大多集中在前者。该文针对复杂问题解答中的句子融合进行研究,提出了一种兼顾句子重要信息、问题关联度与句子流畅度的句子融合方法。该方法的主要思想为: 首先,基于句子拆分和词重要度选择待融合部分;然后,基于词对齐进行句子相同信息的合并;最后,利用基于依存关系、二元语言模型及词重要度的整数线性规划优化生成句子。在历年高考阅读理解数据集上的测试结果表明,该方法取得了82.62%的F值,同时更好地保证了结果的可读性及信息量。
2017 Vol. 31 (1): 8-16 [摘要] ( 675 ) [HTML 1KB] [PDF 2295KB] ( 1158 )
17 基于事件元素无向图的查询扩展方法
叶 雷;高盛祥;余正涛;秦广顺;洪旭东
借助新闻事件元素之间的关联特性,提出了基于事件元素无向图的查询扩展方法,利用新闻事件元素之间的关联关系进行查询扩展提升新闻事件检索效果。首先分析候选事件文档与查询项的关系,确定待扩展的元素;然后利用事件元素之间的关联关系构建无向图,通过事件向量空间计算边的权重;最后,利用无向图节点权重模型计算事件元素权重,依据权重进行事件元素扩展。在新闻事件查询扩展方面进行了对比试验,结果表明该文提出的查询扩展方法取得了较好的效果。
2017 Vol. 31 (1): 17-22 [摘要] ( 575 ) [HTML 1KB] [PDF 2120KB] ( 1087 )
自然语言处理应用
23 基于文档发散度的作文跑题检测
陈志鹏;陈文亮;
作文跑题检测是作文自动评分系统的重要模块。传统的作文跑题检测一般计算文章内容相关性作为得分,并将其与某一固定阈值进行对比,从而判断文章是否跑题。但是实际上文章得分高低与题目有直接关系,发散性题目和非发散性题目的文章得分有明显差异,所以很难用一个固定阈值来判断所有文章。该文提出一种作文跑题检测方法,基于文档发散度的作文跑题检测方法。该方法的创新之处在于研究文章集合发散度的概念,建立发散度与跑题阈值的关系模型,对于不同的题目动态选取不同的跑题阈值。该文构建了一套跑题检测系统,并在一个真实的数据集中进行测试。实验结果表明基于文档发散度的作文跑题检测系统能有效识别跑题作文。
2017 Vol. 31 (1): 23-30 [摘要] ( 608 ) [HTML 1KB] [PDF 2761KB] ( 911 )
31 利用词表示和深层神经网络抽取蛋白质关系
李丽双;蒋振超;万 佳;黄德根
蛋白质关系抽取是生物医学信息抽取领域的重要分支。目前研究中,基于特征和核函数方法的蛋白质关系抽取已被充分研究,并且达到了很高的F-值,通过改进特征和核函数进一步优化实例表示变得十分困难。该文结合词表示和深层神经网络,提出了一种实例表示模型。该模型能够充分利用词表示的语义表示能力和深层神经网络的表示优化能力;同时引入主成分分析和特征选择进行特征优化,并且通过比较多种传统的分类器,寻找适合蛋白质关系抽取的分类器。该方法在AIMed语料、BioInfer语料和HPRD50语料上的F-值分别取得了70.5%、82.2%和80.0%,在蛋白质关系抽取任务上达到了目前最好的抽取水平。
2017 Vol. 31 (1): 31-40 [摘要] ( 587 ) [HTML 1KB] [PDF 1928KB] ( 1035 )
41 汉语词汇测试自动命题研究
胡韧奋
为了提升汉语词汇测试的命题效率,该文从汉语语言特性和二语教学需求出发,对词语听力、多空词语选择、词语排序和单空词语选择四种词汇测试题型进行自动命题尝试,以满足不同语言信息、不同难度的词汇知识考查。在词语特征的提取上,构建了一个覆盖词音、词形、词义、语法、搭配、偏误各层次信息的词汇知识库,在句子特征的提取上,实现了语法项目自动识别、句子难度分析等算法,为自动命题中的题干句、目标词和干扰项选择提供依据。通过词句选择和语块合成等步骤,生成四种题型共计7 263道词汇测试题。人工测试数据显示,词汇测试自动命题的初步尝试取得了较好的效果,约58%的试题被评价为完全合理,经人工简单调整,试题接受率达到75.7%。
2017 Vol. 31 (1): 41-49 [摘要] ( 578 ) [HTML 1KB] [PDF 1964KB] ( 1086 )
50 英汉《小王子》抽象语义图结构的对比分析
李 斌;闻 媛;卜丽君;曲维光;薛念文
AMR(抽象语义表示)是国际上一种新的句子语义表示方法,有着接近于中间语言的表示能力,其研发者已经建立了英文《小王子》等AMR语料库。AMR与以往的句法语义表示方法的最大不同在于两个方面,首先采用图结构来表示句子的语义;其次允许添加原句之外的概念节点来表示隐含的语义。该文针对汉语特点,在制定中文AMR标注规范的基础上,标注完成了中文版《小王子》的AMR语料库,标注一致性的Smatch值为0.83。统计结果显示,英汉双语含图结构句子具有很高的相关性,且含有图的句子比例高达40%左右,额外添加的概念节点则存在较大差异。最后讨论了AMR在汉语句子语义表示以及跨语言对比方面的优势。
2017 Vol. 31 (1): 50-57 [摘要] ( 1010 ) [HTML 1KB] [PDF 1970KB] ( 1742 )
58 基于点关联测度矩阵分解的中英跨语言词嵌入方法
于 东;赵 艳;韦林煊;荀恩东;
研究基于矩阵分解的词嵌入方法,提出统一的描述模型,并应用于中英跨语言词嵌入问题。以双语对齐语料为知识源,提出跨语言关联词计算方法和两种点关联测度的计算方法: 跨语言共现计数和跨语言点互信息。分别设计目标函数学习中英跨语言词嵌入。从目标函数、语料数据、向量维数等角度进行实验,结果表明,在中英跨语言文档分类中以前者作为点关联测度最高得到87.04%的准确率;在中英跨语言词义相似度计算中,后者作为点关联测度得到更好的性能,同时在英—英词义相似度计算中的性能略高于主流的英语词嵌入。
2017 Vol. 31 (1): 58-65 [摘要] ( 522 ) [HTML 1KB] [PDF 2113KB] ( 846 )
66 利用源域结构的粒迁移学习及词性标注应用
孙世昶;林鸿飞;孟佳娜;刘洪波
迁移学习在一定程度上减轻了目标域的数据稀疏问题对泛化能力的影响,然而泛化能力的提高仍然受到负迁移等问题的影响。为了解决负迁移问题,该文提出使用源域结构的文本语料的信息粒化方法,用区间信息粒表示出源域数据集的结构对数据集中统计量的影响。然后提出区间二型模糊隐马尔可夫模型(Interval Type-2 fuzzy Hidden Markov Model, IHMM) 以处理区间信息粒。给出了IHMM的构建方法和去模糊化方法。在文本的词性标注任务中进行了多个实验,可以证实利用源域结构信息的粒迁移学习方法避免了负迁移,提高了模型的泛化能力。
2017 Vol. 31 (1): 66-74 [摘要] ( 608 ) [HTML 1KB] [PDF 2888KB] ( 917 )
75 基于BCC的离合词离析形式自动识别研究
臧娇娇;荀恩东
该文从中文信息处理角度对动宾型离合词自动识别进行研究。通过分析离合词在实际语料中的使用特点以及离合词离析成分在大规模语料库中的表现形式,从离合词内部入手,形式化地表示离合词的离析形式,总结自动识别的规则,设计基于规则的自动识别算法。经过优化后,该算法在20亿字的语料中达到了91.6%的正确率。离合词语素构词能力强,分词与词性标注错误,规则的不完整性,语料本身的错误,以及人工标注的疏漏等是影响实验结论的主要因素。
2017 Vol. 31 (1): 75-83 [摘要] ( 570 ) [HTML 1KB] [PDF 1054KB] ( 819 )
84 基于规则的“把”字句语义角色标注
何保荣;邱立坤;徐德宽
“把”字句是现代汉语中一种重要的特殊句式,该文尝试用基于知识库的规则方法对把字句进行语义角色自动标注。首先,我们从《人民日报》语义角色标注语料库中收集把字句例句,形成一个覆盖范围较广的把字句例句库;之后,对例句库中把字句的句法和语义构成规律进行手工标注,标注内容包括谓语动词的配价类型、把字句谓语结构类型、把字句句模类型等。在上述标注的基础上,对把字句的句模构成规律进行分析,总结出若干条语义角色标注规则;最后,在测试数据上对前述规则进行验证,语义角色标注的最终正确率为98.61%,这一结果说明该文所提出的规则在把字句语义角色标注上是有效的。
2017 Vol. 31 (1): 84-93 [摘要] ( 532 ) [HTML 1KB] [PDF 2173KB] ( 1230 )
94 基于语义构词的汉语词语语义相似度计算
康司辰;刘 扬;
汉语词语语义相似度计算,在中文信息处理的多种应用中扮演至关重要的角色。基于汉语字本位的思想,我们采用词类、构词结构、语素义等汉语语义构词知识,以“语素概念”为基础,计算汉语词语语义相似度。这种词义知识表示简单、直观、易于拓展,计算模型简洁、易懂,采用了尽可能少的特征和参数。实验表明,该文方法在典型“取样词对”上的表现突出,其数值更符合人类的感性认知,且在全局数据上也表现出了合理的分布规律。
2017 Vol. 31 (1): 94-101 [摘要] ( 712 ) [HTML 1KB] [PDF 1507KB] ( 1085 )
少数民族及周边语言信息处理
102 藏汉跨语言话题模型构建及对齐方法研究
孙 媛;赵 倩;
如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题。该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题。在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐。
2017 Vol. 31 (1): 102-111 [摘要] ( 524 ) [HTML 1KB] [PDF 4186KB] ( 890 )
112 基于词向量的藏文词性标注方法研究
郑亚楠;珠 杰;
藏文词性标注是藏文信息处理的基础,在藏文文本分类、自动检索、机器翻译等领域有广泛的应用。该文针对藏文语料匮乏,人工标注费时费力等问题,提出一种基于词向量模型的词性标注方法和相应算法,该方法首先利用词向量的语义近似计算功能,扩展标注词典;其次结合语义近似计算和标注词典,完成词性标注。实验结果表明,该方法能够快速有效地扩大了标注词典规模,并能取得较好的标注结果。
2017 Vol. 31 (1): 112-117 [摘要] ( 667 ) [HTML 1KB] [PDF 1695KB] ( 1030 )
118 蒙古文原始语料统计建模研究
白双成;
蒙古文字符编码与字形之间的多对多复杂转换关系及录入不规范等众多原因导致原始语料存在严重的拼写多样化现象和字形拼写错误,成为大数据处理瓶颈。该文以蒙古文输入法为例,利用大词库和形码生成器,将原本基于读音正确的词晶格最佳路径搜索问题转换为基于形码词晶格路径搜索问题,很好地解决了原始文本统计建模问题。实验结果证明,该方法及字形归并的模型优化方法可显著提高输入效率,对所有蒙古文“音词转换”和“形词转换”研究都有广泛的参考价值。
2017 Vol. 31 (1): 118-125 [摘要] ( 532 ) [HTML 1KB] [PDF 4845KB] ( 831 )
126 基于语法的维吾尔语情感词汇自动获取
玛尔哈巴·艾赛提;艾孜尔古丽;玉素甫·艾白都拉
情感词汇的获取是文本倾向性分析的基础。为了解决人工识别方法低效的不足,并为维吾尔语情感词的研究及情感词词典的创建提供一些可供选择的方法和思路,该文首先分析了维吾尔语情感词汇在上下文中表现的特征,并结合维吾尔语本身的语法特征,建立了扩展的维吾尔语新增特征模型,与词频逆文档频率(TF-IDF)算法相结合,实现了维吾尔语情感词汇的识别。实验结果指出该特征模型有效地提高了情感词汇的识别率。
2017 Vol. 31 (1): 126-132 [摘要] ( 509 ) [HTML 1KB] [PDF 2863KB] ( 741 )
信息抽取与文本挖掘
133 基于多策略的维吾尔文网页识别方法
阿力木·木拉提;艾孜尔古丽;杨雅婷;李 晓;
经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。
2017 Vol. 31 (1): 133-139 [摘要] ( 541 ) [HTML 1KB] [PDF 2263KB] ( 758 )
140 知识图谱中实体相似度计算研究
李 阳;高大启
实体相似度的计算有诸多应用,例如,电商平台的相似商品推荐,医疗疗效分析中的相似病人组等。在知识图谱的实体相似度计算中,给出了每个实体的属性值,并对部分实体进行相似度的标注,要求能得到其他实体之间的相似度。该文把该问题归结为监督学习问题,提出一种通用的实体相似度计算方法,通过清洗噪声数据,对数值、列表以及文本等不同数据类型进行预处理,使用SVM, Logistic回归等分类模型、Random Forest等集成学习模型以及排序学习模型进行建模,得到了较好的结果。
2017 Vol. 31 (1): 140-146 [摘要] ( 1164 ) [HTML 1KB] [PDF 5261KB] ( 1446 )
147 基于Dropout正则化的汉语框架语义角色识别
王瑞波;李济洪;李国臣;杨耀文
汉语框架语义角色识别是汉语框架语义分析的重要任务之一。该文基于汉语词语、词性等特征的分布式表示,使用一种多特征融合的神经网络结构来构建汉语框架语义角色识别模型。鉴于可用的训练语料规模有限,该文采用了Dropout正则化技术来改进神经网络的训练过程。实验结果表明,Dropout正则化的加入有效地缓解了模型的过拟合现象,使得模型的F值有了近7%的提高。该文进一步优化了学习率以及分布式表示的初始值,最终的汉语框架语义角色识别的F值达到70.54%,较原有的最优结果提升2%左右。
2017 Vol. 31 (1): 147-154 [摘要] ( 501 ) [HTML 1KB] [PDF 1888KB] ( 893 )
情感分析与社会计算
155 基于神经网络的语义选择限制知识自动获取
贾玉祥;许鸿飞;昝红英
语义选择限制刻画谓语对论元的语义选择倾向,对自然语言的句法语义分析有重要作用,语义选择限制知识的自动获取也成为一个重要的研究课题。鉴于神经网络模型在自然语言处理的很多任务中都有出色的表现,该文提出基于神经网络的语义选择限制知识获取模型,设计了引入预训练词向量的单隐层前馈网络和两层maxout网络。在汉语和英语的伪消歧实验中神经网络模型取得了较好的效果,优于基于隐含狄利克雷分配的模型。
2017 Vol. 31 (1): 155-161 [摘要] ( 528 ) [HTML 1KB] [PDF 1294KB] ( 831 )
162 一种针对短文本的主题情感混合模型
谢 珺;郝 洁;苏婧琼;邹雪君;李思宇
主题情感混合模型可以同时提取语料的主题信息和情感倾向。针对短文本特征稀疏的问题,主题情感联合分析方法较少的问题,该文提出了BJSTM模型(Biterm Joint Sentiment Topic Model),在BTM模型(Biterm Topic Model)的基础上,增加情感层的设置,从而形成“情感-主题-词汇”的三层贝叶斯模型。对每个双词的情感和主题进行采样,从而对整个语料的词共现关系建模,一定程度上克服了短文本的稀疏性。实验表明,BJSTM模型在无监督情感分类和主题提取方面都有不错的表现。
2017 Vol. 31 (1): 162-168 [摘要] ( 863 ) [HTML 1KB] [PDF 1937KB] ( 880 )
169 基于深度表示学习和高斯过程迁移学习的情感分析方法 Hot!
吴冬茵;桂 林;陈 钊;徐睿峰
情感分析是自然语言处理领域的重要研究问题。现有方法往往难以克服样本偏置与领域依赖问题,严重制约了情感分析的发展和应用。为此,该文提出了一种基于深度表示学习和高斯过程知识迁移学习的情感分析方法。该方法首先利用深度神经网络获得文本样本的分布式表示,而后基于深度高斯过程,从辅助数据中迁移与测试集数据分布相符的高质量样例扩充训练数据集用于分类器训练,以此提高文本情感分类系统性能。在COAE2014文本情感分类数据集上进行的实验结果显示,该文提出的方法可以有效提高文本情感分类性能,同时可以有效缓解训练数据的样本偏置以及领域依赖问题的影响。
2017 Vol. 31 (1): 169-176 [摘要] ( 1444 ) [HTML 1KB] [PDF 2142KB] ( 1911 )
177 词典与机器学习方法相结合的维吾尔语文本情感分析
热西旦木·吐尔洪太;吾守尔·斯拉木;伊尔夏提·吐尔贡
随着互联网整体水平的提高,大量基于维吾尔文的网络信息不断建立,引起了对不同领域的信息进行情感倾向性分析的迫切需要。该文考虑到维吾尔文没有足够的情感训练语料和完整的情感词典,结合机器学习方法和词典方法的优点,构建一个分类器模型 LCUSCM(Lexicon-based and Corpus-based Uyghur Text Sentiment Classification Model),先用自己构建的维吾尔文情感词典对语料进行高质量的情感分类,分类过程中对词典进行递归扩充,再根据每条句子的情感得分,从词典分类的结果中选择一部分语料来训练一个分类器并改进第一步的分类结果。此方法的正确率比单独使用机器学习方法提高了9.13%, 比词典方法提高了1.82%。
2017 Vol. 31 (1): 177-183 [摘要] ( 680 ) [HTML 1KB] [PDF 2148KB] ( 788 )
语言分析与计算
184 基于语言现象的文本蕴涵识别
任 函;冯文贺;刘茂福;万 菁
该文提出一种基于语言现象的文本蕴涵识别方法,该方法建立了一个语言现象识别和整体推理判断的联合分类模型,目的是对两个高度相关的任务进行统一学习,避免管道模型的错误传播问题并提升系统精度。针对语言现象识别,设计了22个专用特征和20个通用特征;为提高随机森林的泛化能力,提出一种基于特征选择的随机森林生成算法。实验结果表明,基于随机森林的联合分类模型能够有效识别语言现象和总体蕴涵关系。
2017 Vol. 31 (1): 184-191 [摘要] ( 540 ) [HTML 1KB] [PDF 1402KB] ( 968 )
192 基于稀疏主成分分析的非正式语词的心理-人格特征研究
钟 毓;费定舟
针对社会媒体中非正式文本的数据分析经常出现的稀疏数据矩阵,在应用文本分析工具的基础上使用稀疏主成分分析这一特征,降维分析方法分析现实情况下聊天文本中非正式语词表现的认知语用特征、描述非正式语词与人格的关系。使用短文本主题模型、心理距离问卷、大五人格问卷测量人格和背景变量,使用计算机文本分析工具对被试提供的即时聊天文本内的语词计频,使用简体中文版语词查询与字词计数字典和认知语用学对稀疏主成分分析后非正式语词维度进行特征表征。在非正式语词降维上,稀疏主成分分析比主成分分析在因子载荷数上更稳定,在累积方差解释率上也相对更优(24.54% >23.40%);降维所得的6因子中“主观评价”与宜人性正相关(r0.05=.16, p =.03<0.05),“随意社交”与宜人性负相关(r0.05=-.16, p=.03<0.05),“认知愉悦”与性别显著正相关(r0.05=.43, p=.00<0.001)。使用稀疏主成分分析对非正式语词的降维效果较好,并且比较简体中文版语词查询与字词计数字典的非正式语词维度和降维后所得非正式语词维度,两者在和人格的相关上是相符的,且后者能探索出更多信息。
2017 Vol. 31 (1): 192-204 [摘要] ( 548 ) [HTML 1KB] [PDF 3208KB] ( 833 )
205 基于偏向相似性的自然语言关联和聚类研究
陈振宁;陈振宇
聚类按关联进行分类,关联和聚类分析的基础是相似性计算。通常相似性是指绝对相似性,具有对称性。但自然语言研究中发现大部分规律都是偏向的,具有不对称性,需要用偏向的思路来考察不对称的关联和聚类策略: 以类似条件概率的概率蕴涵指标来描写特征间的不对称关联,并在此基础上定义优势关系、紧密关系、控制中心、中途岛等关联特性;基于偏向相似性的聚类策略,从而能更好地处理语言本体研究中的“假性孤立点”、数据稀疏问题和家族象似性类型的聚类。
2017 Vol. 31 (1): 205-211 [摘要] ( 456 ) [HTML 1KB] [PDF 2960KB] ( 869 )
篇章分析与计算
212 《世说新语》的篇章连接词
冯文贺;郭海芳;李玉静;任 函
该文标注《世说新语》的篇章结构,据此研究其连接词的显隐、语义及用法。研究发现: 1)隐式关系(3 346,81.4%)多于显式关系(786,18.6%),17类关系仅有三类(假设,选择,让步)显多隐少;2)各类关系的同义连接词种数与使用有差异,其中种数最多36(顺承),最少则无(总分,背景);3)连接词(90种)单义为多(55),多义为少(35),义项最多为八种(“乃”),分布也有差异。对比发现,《世说新语》与同时期《文心雕龙》的连接词使用有一定差异。
2017 Vol. 31 (1): 212-220 [摘要] ( 497 ) [HTML 1KB] [PDF 1017KB] ( 887 )
语言资源建设
221 汉语二语教学领域词义标注语料库的研究及构建
王 敬;杨丽姣;蒋宏飞;苏靖杰;付静玲
词汇教学在汉语二语教学领域占有极为重要的地位,其中多义词又是词汇教学的重点和难点。该研究通过分析三部经典领域词表,选取了1 181个重点多义词,以《现代汉语词典(第6版)》为标注体系,制定了适合实际标注的多义词标注规范和形式,在197册经典汉语二语教材上进行了多义词词义标注,构建了一个规模约350万字的面向汉语二语教学领域的词义标注语料库,并在此基础上对1 811个多义词、4 323个多义词义项进行了计量统计,分析了多义词不同词义的出现情况及其分布规律。为了更好地服务于汉语二语教学,开发了语料库检索系统,设计并实现了多义词义项的查询功能。
2017 Vol. 31 (1): 221-229 [摘要] ( 484 ) [HTML 1KB] [PDF 2316KB] ( 956 )
230 从短语到构式: 构式知识库建设的若干理论问题探析
詹卫东
构式语法(construction grammar)在汉语语法学界已引起持续关注,但在自然语言处理领域,将构式语法理论应用到计算机自动句法语义分析中的研究还很少见。该文提出构建现代汉语构式知识库的语言工程任务,讨论了构式与传统语法单位的关系、构式的形式表示、构式的内部小类及主要特征等。
2017 Vol. 31 (1): 230-238 [摘要] ( 516 ) [HTML 1KB] [PDF 1655KB] ( 1076 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发