中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2018年 32卷 12期
刊出日期:2018-12-17

综述
信息抽取与文本挖掘
语言资源建设
情感分析与社会计算
语言分析与计算
民族、跨境及周边语言信息处理
机器阅读理解
问答与对话系统
 
   
综述
1 文本可读性的自动分析研究综述
吴思远,蔡建永,于东,江新
文本可读性问题最初由教育学家提出,初衷是辅助教师为语言学习者推荐适合其阅读水平的文本。随着计算机技术的发展及网页文本的涌现,对文本进行可读性分析有了更加丰富的技术手段和应用场景。该文对可读性自动分析的相关研究进行了梳理,将可读性自动分析的方法总结为公式法、分类法和排序法三类;然后进一步介绍了可读性自动分析中的两项重要内容:文本特征的选择和数据集的使用;最后对可读性研究的发展方向进行展望。
2018 Vol. 32 (12): 1-10 [摘要] ( 862 ) [HTML 1KB] [PDF 1486KB] ( 1460 )
语言分析与计算
11 怎样利用语言知识资源进行语义理解和常识推理 Hot!
袁毓林,卢达威
该文讨论怎样利用语言知识资源来帮助机器进行语义理解和常识推理。首先,指出人类生活在常识和意义世界中,人工智能机器人必须理解自然语言的意义,能够在此基础上进行常识推理。接着,简单梳理了基于知识和基于统计两种自然语言处理路线各自的优长和短缺。然后,说明完全绕开知识的统计方法和深度学习,都不能真正理解概念和语言。该文通过具体案例说明,《实词信息词典》已经配备了有关词项的语义角色关系及其句法配置信息;把这种语言知识加入知识图谱和内容计算中,可以为人工智能提供理解和解释从而造就一种可解释的人工智能。由于“物性角色”描述了名词所指事物的百科知识,可用以回答相关事物是什么(形式角色)、有哪些部件(构成角色)、用什么做的(材料)、怎么形成的(施成)、有什么用途(功用)等常识性问题。
2018 Vol. 32 (12): 11-23 [摘要] ( 1013 ) [HTML 1KB] [PDF 1806KB] ( 1122 )
24 句法网与语义网的对比研究
马丹,赵怿怡
基于网络观的语言研究已经成为语言分析的趋势之一。但不同语言单位层级、不同语言单位关系的选取导致了语言网络的差异。从词的同现网到句法网再到语义网所需要的语言学知识也逐步深化,该文旨在构建语义学理论支撑的语义网络,并把虚词纳入语义分析过程,分别以句法关系和语义关系作为联结,用Cytoscape构建了句法网和语义网。结果发现: 语义网的直径、平均最短距离比句法网大,层级性比句法网差,聚集系数比句法网小,虚词节点“的”“和”“个”等有可能是局部的中心节点。
2018 Vol. 32 (12): 24-30 [摘要] ( 247 ) [HTML 1KB] [PDF 1946KB] ( 567 )
31 基于中文AMR语料库的非投影结构研究
闻媛,宋丽,吴泰中,李斌,周俊生,曲维光
非投影结构是指依存树上的词语节点与原句中的词语序列出现错位的现象,对于句法分析器的影响较大,在语言理论上也有较大研究价值。在世界多种语言的依存树或图库上,都发现了含有非投影结构的句子,并对比展开了相关研究。而汉语的非投影结构尚未得到重视,语料库构建过程中也因遵循了投影性原则而缺乏对非投影结构的标注。该文基于概念对齐版的中文AMR语料库,在10 149句语料上统计出带有非投影结构的句子比例为31.62%,其三种主要类型为模态词提升、话题化和成分分离,并提出了相应的自动分析方案,以提高中文AMR自动分析效果。
2018 Vol. 32 (12): 31-40 [摘要] ( 263 ) [HTML 1KB] [PDF 3785KB] ( 620 )
41 基于多特征融合编码的神经网络依存句法分析模型
刘明童,张玉洁,徐金安,陈钰枫
在基于神经网络的依存句法分析中,对分析栈和决策层信息的表示和利用依然有值得深入研究的空间。针对分析栈的表示,已有工作并没有对单棵依存子树独立编码的表示,导致无法利用各个依存子树的局部特征;也没有对生成的依存弧序列进行编码,导致无法利用依存弧的全局信息。针对决策层的表示,已有工作利用MLP预测转移动作,该结构无法利用历史决策动作的信息。对此,该文提出基于多特征融合编码的神经网络依存句法分析模型,基于依存子树和历史生成的依存弧表示分析栈,利用TreeLSTM网络编码依存子树信息,利用LSTM网络编码历史生成的依存弧序列,以更好地表示分析栈的局部信息和全局信息。进一步提出基于LSTM网络的结构预测转移动作序列,引入历史决策动作信息作为特征辅助当前决策。该文以汉语为具体研究对象,在CTB5汉语依存分析数据上验证所提出的多特征融合编码的神经网络模型。实验结果显示,汉语依存句法分析性能得到改进,在目前公布的基于转移的分析系统中取得最好成绩,在UAS和LAS评价指标上分别达到87.8%和86.8%的精度,表明所提出的对依存子树局部特征及历史依存弧信息和历史决策动作信息的编码方法,在改进依存分析模型性能方面的有效性。
2018 Vol. 32 (12): 41-47 [摘要] ( 383 ) [HTML 1KB] [PDF 1575KB] ( 836 )
48 基于转移的中文篇章结构解析研究
孙成,孔芳
篇章结构解析作为篇章分析的子任务,对于篇章理解和下游篇章应用至关重要。该文基于中文连接依存树篇章标注语料,利用转移系统和深度学习的方法,给出了一个完整的从平文本到树形结构的篇章结构自动解析框架。该文统计了中文篇章语料的基本特点,提出了针对树形篇章结构的评测方法,并采用不同的方法对篇章解析过程的篇章子结构进行分布式表示,对比了不同方法下篇章结构解析的性能。
2018 Vol. 32 (12): 48-56 [摘要] ( 508 ) [HTML 1KB] [PDF 2011KB] ( 797 )
语言资源建设
57 航空术语语义知识库辅助构建方法
王思博,王裴岩,张桂平
语义知识库是自然语言处理任务的基础性资源,广泛应用于语义计算和语义推理等任务。现有的大规模语义知识库基本都是通用型知识库,缺乏特定领域的语义知识。为了弥补这种不足,该文基于HowNet的语义理论体系,提出了一种辅助构建航空术语语义知识库的方法。该方法根据航空术语的特点将辅助构建分成四个关键过程,构建了2 000条术语概念描述(DEF)。最后通过对人工标注的术语间相似度与根据术语DEF计算的术语间相似度结果的对比,验证了该构建方法的有效性。
2018 Vol. 32 (12): 57-66 [摘要] ( 321 ) [HTML 1KB] [PDF 3424KB] ( 550 )
67 基于多译文的中文转述语料库建设及转述评价方案
阮翀,施文娴,李岩昊,翁伊嘉,胡俊峰
转述语料是转述现象研究的基础。针对目前学术界中文转述语料稀缺的现状,该文以《简爱》的多个中文译本为基础,通过句对齐得到五万句级别的平行转述语料。使用无监督的小句对齐和词对齐算法,从语料中挖掘到九千多对词汇转述知识。同时,还复现和改进了机器翻译测评指标 Meteor,使得该指标更适合于中文转述句子的测评,并构造了一个中文句子转述测评数据集,以便对不同的转述知识和评价指标进行比较。实验表明,该文算法挖掘到的词汇转述知识在封闭测试中不逊于《同义词词林》。
2018 Vol. 32 (12): 67-73 [摘要] ( 505 ) [HTML 1KB] [PDF 1567KB] ( 626 )
民族、跨境及周边语言信息处理
76 基于联合模型的藏文实体关系抽取方法研究
夏天赐,孙媛
从无结构文本中抽取实体与实体之间的关系是自然语言处理领域的重要研究内容,同时也为构建知识图谱、问答系统等应用提供重要支撑。基于联合模型的实体关系抽取任务将实体识别和关系抽取同时进行,克服了传统实体关系抽取任务中先识别句子中的实体,然后再进行实体关系判断这两次任务中的错误累加。该文针对藏文语料匮乏、实体识别准确率不高等问题,提出了基于联合模型抽取藏文实体关系的方法。基于藏文实体关系抽取任务,提出以下方案: ①针对藏文分词准确率不高的问题,对藏文进行字级和词级两种方式进行预处理,并给出对比实验,结果表明采用字级处理方式较词级处理方式效果有所提高。②藏文是一种语法规则比较强的语言,名词、格助词等能明确指示句子各组块之间的语法和语义结构关系,因此该文将藏文的词性标注特征加入到藏文的字词向量中,实验结果证明了方法的有效性。③该文借鉴了联合模型处理的优势,提出基于联合模型处理方式,采用端到端的BiLSTM框架将藏文实体关系抽取任务转变为藏文序列标注的问题,实验结果表明,该文的方法较传统的基于藏文处理方式,如SVM算法和LR算法,准确率提高了30%~40%。
2018 Vol. 32 (12): 76-83 [摘要] ( 349 ) [HTML 1KB] [PDF 2268KB] ( 732 )
信息抽取与文本挖掘
84 多特征融合的汉越双语新闻摘要方法
叶雷,余正涛,高盛祥,刘书龙,张亚飞
为了获取同一事件的汉越双语新闻的自动摘要,该文提出了一种多特征融合的汉越双语新闻摘要方法。关于同一事件的新闻文本,其句子间具有一定的关联关系,利用这些关联关系有助于生成摘要。根据该思想,首先计算句子间的新闻要素共现程度及句子间的相似度;然后将这两种特征融入句子无向图,并利用图排序算法对句子进行排序;之后结合句子的位置特征对排序结果进行调序;最后挑选重要句子并去除冗余生成摘要。在汉越双语新闻文档集上进行了摘要实验,结果表明该方法取得了较好的结果,具有有效性。
2018 Vol. 32 (12): 84-91 [摘要] ( 276 ) [HTML 1KB] [PDF 2087KB] ( 546 )
92 基于序列到序列的中文短文本省略补全
郑杰,孔芳,周国栋
省略作为一种常见的语言现象,在上下文中普遍存在,特别是在问答、对话等短文本中出现的频率更高。不同于传统的机器学习方法,该文针对问答、对话这样的短文本,构建了一个序列到序列的神经网络模型来实现对上下文中出现的省略进行识别和补全。在搜集和整理的短文本问答和对话语料上进行了各种实验,验证了该模型在省略识别和恢复上能够取得较好的性能。
2018 Vol. 32 (12): 92-99 [摘要] ( 470 ) [HTML 1KB] [PDF 2797KB] ( 802 )
100 基于主题网络的伪主题分析
闫蓉,高光来
传统无监督的主题建模方法利用相互独立的主题变量抽象描述文本语义,忽略了各主题内部隐含的结构和联系,粗粒化的文本主题分析加剧了“强制主题”问题对文本建模的影响。该文通过研究主题网络社区内部结构,结合主题内部语义耦合关系与网络拓扑结构,提出伪主题分析方法来识别和解释主题,实现从网络结构角度描述文本语义特征,弥补统计主题分析方法对文本语义结构刻画的不足。
2018 Vol. 32 (12): 100-108 [摘要] ( 299 ) [HTML 1KB] [PDF 3110KB] ( 535 )
问答与对话系统
109 面向任务口语对话系统中不含槽信息话语的端到端对话控制
黄锵嘉,黄沛杰,李杨辉,杜泽峰
端到端(end-to-end)模型因其能有效避免传统管道式设计存在的错误传递与累积问题,成为了近年来口语对话系统(spoken dialogue system, SDS)的研究热点。在面向任务SDS的end-to-end对话控制中,处理携带任务领域语义信息(槽信息)的话语可以结合命名实体识别、数据库查询结果等语义特征,而不含槽信息的话语,由于缺乏领域语义信息以及表达多样,其有效对话控制仍然是一个挑战。该文提出一种融合“显式”话语特征和“隐式”上下文信息的end-to-end混合编码网络用于处理不含槽信息话语。具体地,在应用卷积神经网络(convolutional neural network, CNN)对“显式”话语序列提取得到的特征表达的基础上,通过构造和捕获对话序列中“隐式”的系统后台上下文信息,进一步丰富了系统动作分类模型的特征表达。在限定领域面向中文任务SDS中的评估结果表明,与传统的管道式SDS和经典的end-to-end SDS相比,该文的方案在不含槽信息话语的单回合处理以及对话段整体性能上都得到了显著提升。
2018 Vol. 32 (12): 109-117 [摘要] ( 361 ) [HTML 1KB] [PDF 1355KB] ( 680 )
情感分析与社会计算
118 基于自联想记忆与卷积神经网络的跨语言情感分类
刘娇,崔荣一,赵亚慧
该文提出了一种以商品评论为对象的基于语义融合的跨语言情感分类算法。该算法首先从短文本语义表示的角度出发,基于开源工具Word2Vec预先生成词嵌入向量来获得不同语言下的信息表示;其次,根据不同语种之间的词向量的统计关联性提出使用自联想记忆关系来融合提取跨语言文档语义;然后利用卷积神经网络的局部感知性和权值共享理论,融合自联想记忆模型下的复杂语义表达,从而获得不同长度的短语融合特征。深度神经网络将能够学习到任意语种语义的高层特征致密组合,并且输出分类预测。为了验证算法的有效性,将该模型与最新几种模型方法的实验结果进行了对比。实验结果表明,此模型适用于跨语言情感语料正负面情感分类,实验效果明显优于现有的其他算法。
2018 Vol. 32 (12): 118-124 [摘要] ( 362 ) [HTML 1KB] [PDF 2524KB] ( 1225 )
机器阅读理解
125 基于自注意力机制的阅读理解模型
张浩宇,张鹏飞,李真真,谭庆平
机器阅读理解是自然语言处理领域一项得到广泛关注与研究的任务。该文针对中文机器阅读理解数据集DuReader,分析其数据集的特点及难点,设计了一种基于循环神经网络和自注意力机制的抽取式模型Mixed Model。通过设计段落融合等策略,该文提出的模型在DuReader测试集上达到了54.2的Rouge-L得分和49.14的Bleu-4得分。
2018 Vol. 32 (12): 125-131 [摘要] ( 472 ) [HTML 1KB] [PDF 2187KB] ( 1210 )
132 基于深度层次特征的阅读理解模型
霍欢,王忠萌
对于面向真实场景的中文机器阅读,理解文本所呈现的复杂信息至关重要。针对多篇章的连续答案片段型中文机器阅读任务,该文提出一种基于深度层次特征的模型,来提取细节、片段、全文三个层次的深度特征,从而多角度把握篇章包含的信息。在该模型中,词语经过词向量表示后,经过循环(recurrent)层编码后得到细节特征,并经过若干卷积(convolution)层和高速公路(highway)层等构造片段特征,同时对候选篇章进行全文特征的提取来进行整体的考察。最后,通过这些特征来确定答案所在篇章以及该篇章内的答案片段所在位置。在2018机器阅读理解技术竞赛中,单模型取得57.55的Rouge-L分数和50.87的Bleu-4分数,实验取得较好效果。
2018 Vol. 32 (12): 132-142 [摘要] ( 470 ) [HTML 1KB] [PDF 6043KB] ( 754 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发