中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2020年 34卷 9期
刊出日期:2020-10-12

信息抽取与文本挖掘
语言资源建设
情感分析与社会计算
自然语言处理应用
语言分析与计算
 
   
语言分析与计算
1 基于高斯混合模型的现代汉语构式成分自动标注方法
黄海斌,常宝宝,詹卫东
现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列,并对构式内部成分进行自动标注。相较于仅基于正则表达式匹配和词性匹配的自动标注结果,该方法的F1分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、14.9%(复句型构式)。
2020 Vol. 34 (9): 1-8 [摘要] ( 388 ) [HTML 1KB] [PDF 3205KB] ( 4164 )
语言资源建设
9 精细化的中文词性标注评测集的研制
唐乾桐,常宝宝,詹卫东
该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5 873句、涵盖了2 326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测。最后,该文指出了精细化评测体系将评测项目和评测语料联系起来的好处——在传统体系中,两者是分开的。该文从评测项目的价值和评测语料的组织性两个方面阐述了该文的评测体系相对于传统评测体系的优势,并指出了利用该文提出的评测体系改进被测程序的方法。
2020 Vol. 34 (9): 9-18 [摘要] ( 314 ) [HTML 1KB] [PDF 3552KB] ( 3999 )
19 三元搭配视角下的汉语动词语义角色知识库构建
王诚文,钱青青,荀恩东,邢丹,李梦,饶高琦
动词语义角色一直是国内外语言学界研究的重点和难点。在自然语言处理领域,相关的语言资源也在逐步构建。对于汉语而言,国内大部分工作集中在语义角色标注上。该文创造性地提出了一种三元搭配的动词语义角色知识表征形式,并在前人研究的基础上,提出了一套语义角色分类体系。在该体系指导下,对汉语动词进行了穷尽式的语义角色认定及相关知识加工,以构建汉语动词语义角色知识库。截至目前,该工程考察了5 260个动词,加工了语义角色及引导词的动词数量为2 685个,加工认定语义角色4 307个。
2020 Vol. 34 (9): 19-27 [摘要] ( 270 ) [HTML 1KB] [PDF 1185KB] ( 3976 )
28 细颗粒度汽车评论语料库的构建和分析
曹紫琰,冯敏萱,毛雪芬,程宁,宋阳,李斌
产品评论文本是情感分析的重要研究对象,目前已有的产品评论语料库大都较为粗疏,没有完整地标注出对象、属性、极性“三要素”,影响自动分析的应用场景。对此,该文构建了细颗粒度评论语料库,共包含9 343句汽车评论短文本,不仅人工标注了“三要素”的具体词语,而且将其对应到产品和属性的知识本体树上。此外,对无情感词的隐含表达、特殊文本(如建议文本、比较句等)也标注出对应的三元组并予以特殊标签。语料统计表明,对象和属性要素的共现率高达77.54%,验证了构建“三要素”齐全标注体系的必要性;基于该语料库的“三要素”自动标注实验F1值可达70.82%,验证了细颗粒度标注体系的可计算性以及语料库构建的规范性和应用价值。该语料库可以为细颗粒度情感分析研究提供基础数据。
2020 Vol. 34 (9): 28-35 [摘要] ( 366 ) [HTML 1KB] [PDF 1384KB] ( 4065 )
信息抽取与文本挖掘
36 基于改进TextRank的藏文抽取式摘要生成
李维,闫晓东,解晓庆
目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。
2020 Vol. 34 (9): 36-43 [摘要] ( 319 ) [HTML 1KB] [PDF 3775KB] ( 4032 )
44 基于粗糙数据推理的TextRank关键词提取算法
周宁,石雯茜,朱昭昭
基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩大关联范围,增加关联数据,得到的结果更加全面。结合粗糙数据推理理论中的关联规则,该文提出的算法做了以下改进: 依据词义对候选关键词进行划分;再通过粗糙数据推理对不同分类中候选词间的关联关系进行推理。实验结果表明,与传统的TextRank算法相比,改进后算法的提取精度有了明显的提高,证明了利用粗糙数据推理的思想能有效地改善算法提取关键词的性能。
2020 Vol. 34 (9): 44-52 [摘要] ( 258 ) [HTML 1KB] [PDF 1795KB] ( 4255 )
53 基于双向注意力机制的图像描述生成
张家硕,洪宇,李志峰,姚建民,朱巧明
结合注意力机制的编码器—解码器框架被广泛应用于图像描述生成任务中。以往方法中,注意力机制根据当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的“翻译”能力将图像特征解码成文字。然而,在此过程中,单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,该文提出一种基于双向注意力机制的图像描述生成方法,在单向注意力机制的基础上,加入图像特征到语义信息方向上的注意力计算,实现图像和语义信息两者在两个方向上的交互,并设计了一种门控网络对上述两个方向上的信息进行融合。最终,提高解码器所蕴含的语义信息与图像内容的一致性,使得所生成描述更加准确。此外,与前人研究不同的是,该文在注意力模块中利用了历史时刻的语义信息辅助当前时刻的单词生成,并对历史语义信息的作用进行了验证。该文基于MSCOCO和Flickr30k两种图像描述生成数据集,并使用两种图像特征进行了实验。实验结果显示,在MSCOCO数据集上,BLEU_4分值平均提升1.3,CIDEr值平均提升6.3。在Flickr30k数据集上,BLEU_4分值平均提升0.9,CIDEr值平均提升2.4。
2020 Vol. 34 (9): 53-61 [摘要] ( 291 ) [HTML 1KB] [PDF 10345KB] ( 3801 )
情感分析与社会计算
62 基于特征扩展卷积神经网络的案件微博观点句识别
王晓涵,余正涛,相艳,郭贤伟,黄于欣
通常的微博观点句识别主要根据微博评论本身是否带有观点来进行判断,而案件微博的观点句识别需要进一步考虑该评论是否讨论与特定案件相关的主题。针对这一任务,该文提出一种结合微博原文进行特征扩展的观点句识别模型。以卷积神经网络分类模型为基本框架,在嵌入层加入案件微博原文中的关键词向量,与对应评论词向量进行拼接;利用扩展的特征进行观点句识别。实验表明,该模型在根据案件微博爬取的两个数据集下准确率分别达到84.74%和82.09%,与现有的基准模型相比有较明显提升。
2020 Vol. 34 (9): 62-69 [摘要] ( 310 ) [HTML 1KB] [PDF 2359KB] ( 4082 )
70 基于螺旋注意力网络的方面级别情感分析模型
杜成玉,刘鹏远
方面级别情感分析是一项细粒度的情感分类任务,旨在确定特定方面的情感极性。以往的方法大都是基于方面或上下文向量的平均值来学习上下文或方面词的注意力权重,但当方面词和上下文较长时,这种方法可能会导致信息丢失。该文提出了一种建立在BERT表示上的螺旋注意力网络(BHAN)来解决这一问题,模型中的螺旋注意力机制与之前注意力机制不同的是,基于方面词得到加权后的上下文表示后,用这个新的表示计算方面词的权重,然后用这个新的方面词的表示重新计算上下文的权重,如此循环往复,上下文和方面词的表示会得到螺旋式的提高。该文在2014年SemEval任务4和Twitter数据集上进行了模型评估,实验结果表明,其性能超过了之前最佳模型的结果。
2020 Vol. 34 (9): 70-77 [摘要] ( 340 ) [HTML 1KB] [PDF 1840KB] ( 4332 )
78 基于改进生成对抗网络的谣言检测方法
李奥,但志平,董方敏,刘龙文,冯阳
传统谣言检测算法存在提取文本语义、关键特征等效果不理想的问题,而一般序列模型在文本检测中无法解决特定语义下的特征提取,导致模型泛化能力差。为解决上述问题,该文提出一种改进的生成对抗网络模型(TGBiA)用于谣言检测,该模型采用对抗训练方式,符合谣言在传播过程中人为增删、夸大和歪曲信息的特点,通过对抗网络生成器和判别器的相互促进作用,强化谣言指示性特征的学习,不断提高模型的学习能力。训练过程中的生成器通过Transformer结构代替单一的RNN网络,实现语义的提取和特征的学习,同时,在训练过程中的判别器采用基于双向长短期记忆单元的深度网络分类模型,并引入注意力机制来提升对较长时间序列谣言的判断能力。在公开的微博和Twitter数据集上的实验结果表明,该文提出的方法比其他现有方法检测效果更好,鲁棒性更强。
2020 Vol. 34 (9): 78-88 [摘要] ( 301 ) [HTML 1KB] [PDF 4645KB] ( 4136 )
89 基于生成对抗网络的控辩焦点识别
杨亮,周逢清,张琍,毛国庆,易斌,林鸿飞
近年来,随着深度学习技术的不断发展,自然语言处理作为人工智能的一个重要分支,在许多垂直领域有了广泛的应用,如司法、教育、医疗等。在司法领域的庭审过程中,控辩双方往往围绕案件的争议焦点持有不同观点,而该焦点也是影响案件最终判决和量刑的关键所在,该文旨在识别并生成电子卷宗中的控辩焦点。由于控辩焦点的构成大多依赖对案情文本的分析概括,受此启发该文尝试将文本摘要的思想迁移到该任务中,结合生成对抗网络构建控辩焦点的生成模型,进而获得案件的控辩焦点。在裁判文书网的真实司法数据的基础上,开展了相关的实验。实验结果显示,所提出的模型对控辩焦点的识别精度有了一定幅度的提升。因此,该文对检察机关办案人员的庭前预案及案件审理有着一定的辅助作用与应用价值。
2020 Vol. 34 (9): 89-96 [摘要] ( 201 ) [HTML 1KB] [PDF 1107KB] ( 3995 )
自然语言处理应用
97 基于最优文档嵌入的《红楼梦》作者辨析
薛扬,梁循,谢华伦,杜玮
该文以包括《红楼梦》在内的51部当代及明清文学作品为语料集,利用文档嵌入算法,根据文档嵌入向量的酉不变性定义了不同作者作品文档嵌入矩阵及文档嵌入损失函数,构建了文档嵌入模型中最优维度及最优窗口的选择模型,并根据文本用词和文档主题语义特征构建了高维空间中的文档嵌入向量。通过无监督的流形学习降维映射以及有监督的分类算法多组实验,验证了通过文档嵌入得到的向量空间模型可以有效区分不同作者的写作风格,对于已知确定作者的作品分类准确率达99.6%,对于风格较为接近的作者也可以有效识别,例如,文风相似的路遥和陈忠实。并在此分类模型的基础上,构建了变尺度滑动窗口分类模型对《红楼梦》进行深入分析,印证了“红楼梦”前80回与后40回可能来自不同作者,还发现了前100回与后20回也存在着较大的风格差异,不排除有再次更换作者的可能。该文在计算机技术层面上为《红楼梦》的作者辨析问题提供了一种支持意见和新的见解。
2020 Vol. 34 (9): 97-110 [摘要] ( 307 ) [HTML 1KB] [PDF 7923KB] ( 3713 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发