中文信息学报

Select

吴友政,李浩然,姚霆,何晓冬

2022, 36(5): 1-20.

摘要 (5094) PDF (4551 KB) (18006)

随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。

Select

基于语言模型的预训练技术研究综述

岳增营,叶霞,刘睿珩

2021, 35(9): 15-29.

摘要 (2239) PDF (1771 KB) (13526)

预训练技术当前在自然语言处理领域占有举足轻重的位置。尤其近两年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等预训练模型的成功,进一步将预训练技术推向了研究高潮。该文从语言模型、特征抽取器、上下文表征、词表征四个方面对现存的主要预训练技术进行了分析和分类,并分析了当前自然语言处理中的预训练技术面临的主要问题和发展趋势。

Select

基于偏旁部首知识表示学习的汉字字形相似度计算方法

刘梦迪,梁循

摘要 (1539) PDF (6022 KB) (12010)

该文提出了一种字形相似度计算方法，旨在解决汉字中相似字形（称作形似字）的识别和查找问题。首先，提出了汉字拆分方法，并构建了偏旁部首知识图谱；然后，基于图谱和汉字的结构特点，提出2CTransE模型，学习汉字实体语义信息的表示；最后，将输出的实体向量用于汉字字形的相似度计算，得到目标汉字的形似字候选集。实验结果表明，该文所提出的方法对于不同结构汉字的字形相似度计算有一定效果，所形成的汉字部件组成库，为之后字形计算的相关研究提供了行之有效的数据集。同时，也拓宽了日语等类汉语语言文字字体相似度计算的研究思路。

Select

知识图谱研究现状及军事应用

林旺群,汪淼,王伟,王重楠,金松昌

2020, 34(12): 9-16.

摘要 (4028) PDF (1920 KB) (11903)

知识图谱以语义网络的形式将客观世界中概念、实体及其之间的关系进行结构化描述,提高了人类从数据中抽取信息、从信息中提炼知识的能力。该文形式化地描述了知识图谱的基本概念,提出了知识图谱的层次化体系架构,详细分析了信息抽取、知识融合、知识架构、知识管理等核心层次的技术发展现状,系统梳理了知识图谱在军事领域的应用,并对知识图谱未来发展的挑战和趋势进行了总结展望。

Select

使用机器学习方法进行新闻的情感自动分类

徐军,丁宇新,王晓龙

2007, 21(6): 95-100.

摘要 (2109) PDF (340 KB) (10980)

本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。

Select

神经机器翻译前沿综述

冯洋,邵晨泽

2020, 34(7): 1-18.

摘要 (5379) PDF (6554 KB) (10623)

机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。神经机器翻译仅需使用神经网络就能实现从源语言到目标语言的端到端翻译,目前已成为机器翻译研究的主流方向。该文选取了近期神经机器翻译的几个主要研究领域,包括同声传译、多模态机器翻译、非自回归模型、篇章翻译、领域自适应、多语言翻译和模型训练,并对这些领域的前沿研究进展做简要介绍。

Select

从视觉到文本: 图像描述生成的研究进展综述

魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁

2020, 34(7): 19-29.

摘要 (5297) PDF (981 KB) (9433)

近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。

Select

基于多层次特征融合注意力网络的多模态情感分析

王靖豪,刘箴,刘婷婷,王媛怡,柴艳杰

2022, 36(10): 145-154.

摘要 (1427) PDF (4562 KB) (8699)

现有分析社会媒体中用户情感的方法,大多依赖于某一种模态数据的信息,缺少多种模态数据的信息融合,并且现有方法缺少分析多种模态数据的信息层次结构之间的关联。针对上述问题,该文提出多层次特征融合注意力网络,在分别提取社会媒体中文本和图像多层次特征的基础上,通过计算“图文”特征与“文图”特征,实现多模态的情感特征互补,从而准确感知社会媒体中用户的情感。在Yelp和MultiZOL数据集上的实验结果表明,该文方法可有效提升多模态数据情感分类的准确率。

Select

中文事件抽取技术研究

赵妍妍,秦兵,车万翔,刘挺

2008, 22(1): 3-8.

摘要 (2595) PDF (305 KB) (8592)

事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。

Select

中文症状知识库的建立与分析

昝红英,韩杨超,范亚鑫,牛承志,张坤丽,穗志方

2020, 34(4): 30-37.

摘要 (1468) PDF (1171 KB) (8386)

构建大规模的知识库是人工智能、自然语言理解等领域的基础任务之一。症状作为描述病人的主观感受和诊断疾病的重要依据,更是优化智能导诊、医学问答等任务的重要因素。该文在现有的医学症状知识库研究的基础上,结合症状的概念、特征及在医学诊断中发挥的作用,构建了一个公开的中文症状知识库。该知识库从症状的本体分类、相关疾病、发作部位及多发人群等层面对相关属性进行了详细描述,涵盖了8 772种症状,共计146 631条属性关系。所构建的症状知识库(CSKB)是中文医学知识图谱的重要组成部分,并为KBQA、知识推理及决策支持等应用提供了数据基础。

Select

文本对抗样本攻击与防御技术综述

杜小虎,吴宏明,易子博,李莎莎,马俊,余杰

2021, 35(8): 1-15.

摘要 (2746) PDF (1255 KB) (8100)

对抗样本攻击与防御是最近几年兴起的一个研究热点,攻击者通过微小的修改生成对抗样本来使深度神经网络预测出错。生成的对抗样本可以揭示神经网络的脆弱性,并可以修复这些脆弱的神经网络以提高模型的安全性和鲁棒性。对抗样本的攻击对象可以分为图像和文本两种,大部分研究方法和成果都针对图像领域,由于文本与图像本质上的不同,在攻击和防御方法上存在很多差异。该文对目前主流的文本对抗样本攻击与防御方法做出了较为详尽的介绍,同时说明了数据集、主流攻击的目标神经网络,并比较了不同攻击方法的区别。最后总结文本对抗样本领域面临的挑战,并对未来的研究进行展望。

Select

话题检测与跟踪的评测及研究综述

洪宇,张宇,刘挺,李生

2007, 21(6): 71-87.

摘要 (2517) PDF (761 KB) (8072)

话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。

Select

面向医疗文本的实体及关系标注平台的构建及应用

张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英

2020, 34(6): 36-44.

摘要 (1571) PDF (2358 KB) (7997)

医疗文本数据是推行智慧医疗的重要数据基础,而医疗文本为半结构或非结构化数据,难以对其直接进行应用。对医疗文本中所包含的实体及实体关系进行标注是文本结构化的重要手段,也是命名实体识别、关系自动抽取研究的基础。传统的人工标注方法费力费时,已难以适应大数据发展的需求。该文以构建中文医学知识图谱的任务为驱动,构建了半自动化实体及关系标注平台。该平台融合多种算法,能够实现文本预标注、进度控制、质量把控和数据分析等多种功能。利用该平台,进行了医学知识图谱中实体和关系标注,结果表明该平台能够在文本资源建设中控制标注过程,保证标注质量,提高标注效率。同时该平台也被应用于其他文本标注任务,表明该平台具有较好的任务移植性。

Select

注意力机制在深度学习中的研究进展

朱张莉,饶元,吴渊,祁江楠,张钰

2019, 33(6): 1-11.

摘要 (3458) PDF (2547 KB) (7620)

注意力机制逐渐成为目前深度学习领域的主流方法和研究热点之一,它通过改进源语言表达方式,在解码中动态选择源语言相关信息,从而极大改善了经典Encoder-Decoder框架的不足。该文在提出传统基于Encoder-Decoder框架中存在的长程记忆能力有限、序列转化过程中的相互关系、模型动态结构输出质量等问题的基础上,描述了注意力机制的定义和原理,介绍了多种不同的分类方式,分析了目前的研究现状,并叙述了目前注意力机制在图像识别、语音识别和自然语言处理等重要领域的应用情况。同时,进一步从多模态注意力机制、注意力的评价机制、模型的可解释性及注意力与新模型的融合等方面进行了探讨,从而为注意力机制在深度学习中的应用提供新的研究线索与方向。

Select

基于深度学习的命名实体识别综述

邓依依,邬昌兴,魏永丰,万仲保,黄兆华

2021, 35(9): 30-45.

摘要 (2448) PDF (2271 KB) (7449)

命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。

Select

指代消解的基本方法和实现技术

王厚峰

2002, 16(6): 10-18.

摘要 (2315) PDF (458 KB) (7440)

指代是自然语言中常见的语言现象,大量出现在篇章或对话中。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理上热门的研究问题。针对指代和指代消解的有关问题,本文对基本概念作了说明,分析了语言中典型的指代现象和指代消解所需的基本语言知识;同时,介绍了指代消解中有代表性的几种计算模型和近10年来采用的若干实现技术。

Select

面向任务型的对话系统研究进展

杨帆,饶元,丁毅,贺王卜,丁紫凡

2021, 35(10): 1-20.

摘要 (1966) PDF (8637 KB) (7237)

基于人工智能技术的人机对话系统在人机交互、智能助手、智能客服、问答咨询等多个领域应用日益广泛,这极大地促进了自然语言理解及生成、对话状态追踪和端到端的深度学习模型构建等相关理论与技术的发展,并成为目前工业界与学术界共同关注的研究热点之一。该文聚焦特定场景下的任务型对话系统,在对其基本概念进行形式化定义的基础上,围绕着以最少的对话轮次来获得最佳用户需求相匹配的对话内容为目标,针对目前存在的复杂业务场景下基于自然语言的用户意图的准确理解和识别、针对训练数据的标注依赖及模型结果的可解释性不足,以及多模态条件下对话内容的个性化生成这三个重大的技术问题和挑战,对当前的技术与研究进展进行系统地对比分析和综述,为进一步的研究工作奠定基础。同时,对新一代的面向任务型的人机对话系统未来的关键研究方向与任务进行总结。

Select

面向微博文本的情绪标注语料库构建

姚源林,王树伟,徐睿峰,刘滨,桂林,陆勤,王晓龙

2014, 28(5): 83-91.

摘要 (2592) PDF (1028 KB) (7060)

文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设计了一套完整的情绪标注规范。遵循这一规范,首先对微博文本进行了微博级情绪标注,对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后,对微博中的句子进行有无情绪及情绪类别进行标注,并标注了各情绪类别对应的强度。目前,已完成14000条微博,45431句子的情绪标注语料库构建。应用该语料库组织了NLP&CC2013中文微博情绪分析评测,有力地促进了微博情绪分析相关研究。

Select

三元搭配视角下的汉语动词语义角色知识库构建

王诚文,钱青青,荀恩东,邢丹,李梦,饶高琦

2020, 34(9): 19-27.

摘要 (1311) PDF (1185 KB) (6740)

动词语义角色一直是国内外语言学界研究的重点和难点。在自然语言处理领域,相关的语言资源也在逐步构建。对于汉语而言,国内大部分工作集中在语义角色标注上。该文创造性地提出了一种三元搭配的动词语义角色知识表征形式,并在前人研究的基础上,提出了一套语义角色分类体系。在该体系指导下,对汉语动词进行了穷尽式的语义角色认定及相关知识加工,以构建汉语动词语义角色知识库。截至目前,该工程考察了5 260个动词,加工了语义角色及引导词的动词数量为2 685个,加工认定语义角色4 307个。

Select

基于HRED模型的中文多轮对话任务方法研究

王孟宇,俞鼎耀,严睿,胡文鹏,赵东岩

2020, 34(8): 78-85.

摘要 (3539) PDF (1201 KB) (6571)

多轮对话任务是自然语言处理中最具有实用价值的技术之一,该任务要求系统在产生通顺回答语句的同时能够照顾到上下文信息。近年来,出现了一大批以HRED(hierarchical recurrent encoder-decoder)模型为基础的多轮对话模型,其运用多层级的循环神经网络来编码上下文信息,并在Movie-DiC等英文对话数据集上取得了不错的结果。在2018年京东举办的中文多轮对话大赛中,京东向参赛选手公布了一批高质量的真实客服对话语料。该文在此数据上进行实验,针对HRED模型的缺点以及在中文语料下的表现进行改进,提出基于注意力和跨步融合机制与HRED模型结合的方案,实验结果表明,该方案取得了较大的性能提升。

Select

基于深度神经网络的中文命名实体识别

张海楠,伍大勇,刘悦,程学旗

2017, 31(4): 28-35.

摘要 (2866) PDF (3348 KB) (6557)

Baidu(16)

由于中文词语缺乏明确的边界和大小写特征,单字在不同词语下的意思也不尽相同,较于英文,中文命名实体识别显得更加困难。该文利用词向量的特点,提出了一种用于深度学习框架的字词联合方法,将字特征和词特征统一地结合起来,它弥补了词特征分词错误蔓延和字典稀疏的不足,也改善了字特征因固定窗口大小导致的上下文缺失。在词特征中加入词性信息后,进一步提高了系统的性能。在1998年《人民日报》语料上的实验结果表明,该方法达到了良好的效果,在地名、人名、机构名识别任务上分别提高1.6%、8%、3%,加入词性特征的字词联合方法的F1值可以达到96.8%、94.6%、88.6%。

Select

汉字图象的小波分析

梁玉尧，李多，马争鸣

1996, 10(4): 12-19.

摘要 (691) PDF (436 KB) (6413)

Baidu(5)

目前, 我们进行汉字模式识别所使用的汉字是以图象的方式输入计算机。要将其转换为计算机所能识别的字符, 其关键在于输入汉字图象特征的提取。作为图象的汉字有其自身的特点, 它是由较简单的笔划所组成的, 每种笔划又有其较固定的方向性即空问分步的固定性, 所有的汉字都是由几种简单的笔划所组成的。而小波变换为我们提供了一个十分有效的分析图象信色的多分辫率方法, 它可以将原始图象分解为模糊子图家和水平方向、垂直方向、料方向上的子图象。因此, 小波变换为我们分析汉字图象信息提供了一个十分有效的手段。本文正是基于汉字的土述特点, 并利用小波对空问频率的多分辫率分析方法,对汉字图象处理而得到汉字图象特征的。

Select

基于深度学习的微博情感分析

梁军,柴玉梅,原慧斌,昝红英,刘铭

2014, 28(5): 155-161.

摘要 (3330) PDF (2605 KB) (6367)

中文微博情感分析旨在发现用户对热点事件的观点态度。已有的研究大多使用SVM、CRF等传统算法根据手工标注情感特征对微博情感进行分析。该文主要探讨利用深度学习来做中文微博情感分析的可行性,采用递归神经网络来发现与任务相关的特征,避免依赖于具体任务的人工特征设计,并根据句子词语间前后的关联性引入情感极性转移模型加强对文本关联性的捕获。该文提出的方法在性能上与当前采用手工标注情感特征的方法相当,但节省了大量人工标注的工作量。

Select

语义角色的精细等级及其在信息处理中的应用

袁毓林

2007, 21(4): 10-20.

摘要 (991) PDF (469 KB) (6064)

本文首先讨论语义角色的三种精细程度不一的分类层级,介绍它们各自在语言信息处理系统中的有关应用。接着,分别介绍三种为语言信息处理服务的语义资源对于语义角色的不同处理: (i)加州大学伯克利分校框架网的语义角色——基于场景的语义框架中的框架元素; (ii)宾州大学命题库的语义角色——基于特定动词的编了号的原型角色; (iii)北京大学中文网库的语义角色——基于特定谓词的各论元成分的论旨角色。最后,从建库目标、方法论、标注内容和系统构成等方面,比较这三个语义关系标注语料库的同异。

Select

面向国防科技领域的技术和术语语料库构建方法

冯鸾鸾,李军辉,李培峰,朱巧明

2020, 34(8): 41-50.

摘要 (1703) PDF (1200 KB) (6053)

互联网存在海量的文献和科技信息,隐含着大量高价值情报。识别国防科技领域中的技术和术语可以为构建国防科技知识图谱奠定基础。该文基于此领域的海量军事文本,以维基百科中军事领域的新技术为基点采集语料,涵盖了新闻、文献和维基百科三种体裁。在分析军事技术文本特点的基础上制定了一系列标注规范,开展了大规模语料的标注工作,构建了一个面向国防科技领域的技术和术语语料库。该语料库共标注了479篇文章,包含24 487个句子和33 756个技术和术语。同时,该文探讨了模型预标注策略的可行性,并对技术和术语类别在不同体裁上的分布以及语料标注的一致性进行了统计分析。基于该语料库的实验表明,技术和术语识别性能F₁值达到70.40%,为进一步的技术和术语识别研究提供了基础。

Select

基于改进生成对抗网络的谣言检测方法

李奥,但志平,董方敏,刘龙文,冯阳

2020, 34(9): 78-88.

摘要 (1567) PDF (4645 KB) (5877)

传统谣言检测算法存在提取文本语义、关键特征等效果不理想的问题,而一般序列模型在文本检测中无法解决特定语义下的特征提取,导致模型泛化能力差。为解决上述问题,该文提出一种改进的生成对抗网络模型(TGBiA)用于谣言检测,该模型采用对抗训练方式,符合谣言在传播过程中人为增删、夸大和歪曲信息的特点,通过对抗网络生成器和判别器的相互促进作用,强化谣言指示性特征的学习,不断提高模型的学习能力。训练过程中的生成器通过Transformer结构代替单一的RNN网络,实现语义的提取和特征的学习,同时,在训练过程中的判别器采用基于双向长短期记忆单元的深度网络分类模型,并引入注意力机制来提升对较长时间序列谣言的判断能力。在公开的微博和Twitter数据集上的实验结果表明,该文提出的方法比其他现有方法检测效果更好,鲁棒性更强。

Select

汉语复句的结构分析

张仕仁

1994, 8(4): 43-54.

摘要 (1241) PDF (648 KB) (5874)

本文详细分析了复句结构, 论述了用盒式图表示复句的形式结构, 用复杂特征集表示复句的意义结构前者直观易懂, 便于非专业人员理解, 后者从深层表示复句的意义, 便于计算机加工处理最后探讨了汉语复句的自动分析方法

Select

细颗粒度汽车评论语料库的构建和分析

曹紫琰,冯敏萱,毛雪芬,程宁,宋阳,李斌

2020, 34(9): 28-35.

摘要 (1505) PDF (1384 KB) (5844)

产品评论文本是情感分析的重要研究对象,目前已有的产品评论语料库大都较为粗疏,没有完整地标注出对象、属性、极性“三要素”,影响自动分析的应用场景。对此,该文构建了细颗粒度评论语料库,共包含9 343句汽车评论短文本,不仅人工标注了“三要素”的具体词语,而且将其对应到产品和属性的知识本体树上。此外,对无情感词的隐含表达、特殊文本(如建议文本、比较句等)也标注出对应的三元组并予以特殊标签。语料统计表明,对象和属性要素的共现率高达77.54%,验证了构建“三要素”齐全标注体系的必要性;基于该语料库的“三要素”自动标注实验F1值可达70.82%,验证了细颗粒度标注体系的可计算性以及语料库构建的规范性和应用价值。该语料库可以为细颗粒度情感分析研究提供基础数据。

Select

中文文本自动校对技术现状及展望

张仰森,丁冰青

1998, 12(3): 51-57.

摘要 (1100) PDF (260 KB) (5816)

本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。

Select

机器翻译译文质量估计综述

邓涵铖,熊德意

2022, 36(11): 20-37.

摘要 (1568) PDF (2385 KB) (5788)

机器翻译译文质量估计(Quality Estimation,QE)是指在不需要人工参考译文的条件下,估计机器翻译系统产生的译文的质量,对机器翻译研究和应用具有很重要的价值。机器翻译译文质量估计经过最近几年的发展,取得了丰富的研究成果。该文首先介绍了机器翻译译文质量估计的背景与意义;然后详细介绍了句子级QE、单词级QE、文档级QE的具体任务目标、评价指标等内容,进一步概括了QE方法发展的三个阶段: 基于特征工程和机器学习的QE方法阶段,基于深度学习的QE方法阶段,融入预训练模型的QE方法阶段,并介绍了每一阶段中的代表性研究工作;最后分析了目前的研究现状及不足,并对未来QE方法的研究及发展方向进行了展望。

Select

基于佐证图神经网络的多跳问题生成

庞泽雄,张奇

2022, 36(5): 94-101.

摘要 (1009) PDF (5046 KB) (5703)

多跳问题生成任务旨在聚合多段离散信息进行复杂推理并生成自然语言的问句。对于给定的问答对,文本中多数句子都是冗余或含有不相关信息的句子,而之前大多数方法在模型的训练和应用推断中都需要提前标注好的句级标签。然而,大规模的句子标注数据在现实场景中是难以获取的。为了解决这一问题,该文提出一种基于佐证句选择的图神经网络(Graph-based Evidence Selection network,GES)。该模型通过图神经网络从离散文档中提取出若干个关键句,然后根据对应结果引入归纳偏置来辅助问题生成。同时采用直通估计量(straight-through estimator)来端到端地训练模型。在公开数据集HotpotQA的对比实验中,该方法在问题生成的多个指标上均取得了显著的性能提升。

Select

情感语料库的构建和分析

徐琳宏,林鸿飞,赵晶

2008, 22(1): 116-122.

摘要 (1942) PDF (1096 KB) (5692)

本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。

Select

基于迭代回归树模型的跨平台长尾商品购买行为预测

白婷,文继荣,赵鑫,杨伯华

2017, 31(5): 185-193.

摘要 (1362) PDF (2497 KB) (5666)

长尾商品是指单种商品销量较低,但是由于种类繁多,形成的累计销售总量较大,能够增加企业盈利空间的商品。在电子商务网站中,用户信息量较少且购买长尾商品数量较少、数据稀疏,因此对用户购买长尾商品的行为预测具有一定的挑战性。该文提出预测用户购买长尾商品的比例,研究单一用户购买长尾商品的整体偏好程度。利用社交媒体网站上海量的文本信息和丰富的用户个人信息,提取用户的个人属性、文本语义、关注关系、活跃时间等多个种类的特征;采用改进的迭代回归树模型MART(Multiple Additive Regression Tree),对用户购买长尾商品的行为进行预测分析;分别选取京东商城和新浪微博作为电子商务网站和社交媒体网站,使用真实数据构建回归预测实验,得到了一些有意义的发现。该文从社交媒体网站抽取用户特征,对于预测用户购买长尾商品的行为给出一个新颖的思路,可以更好地理解用户个性化需求,挖掘长尾市场潜在的经济价值,改进电子商务网站的服务。

Select

字形技术及OpenType字体文件格式研究

肖明,胡金柱,赵慧

1999, 13(6): 54-61.

摘要 (1632) PDF (348 KB) (5653)

Baidu(49)

随着Windows操作系统及TrueType字体(TTF)的流行,字形技术的重要性已越来越受到人们的关注。本文介绍了从TrueType、OpenType到Clear Type的最新发展,比较详细地分析了OpenType字体(OTF)文件的结构,解释了其中的重要描述表。用户若能正确掌握OTF字体文件格式,就可以建立自己的特殊字体,并可以在字体应用领域取得良好的应用效果。

Select

煤矿安全知识图谱构建及智能查询方法研究

刘鹏,叶帅,舒雅,鹿晓龙,刘明明

2020, 34(11): 49-59.

摘要 (1532) PDF (5409 KB) (5651)

煤矿企业正从信息化建设向智能化迈进,以大数据、人工智能为代表的网络新技术已促进了矿山领域的智能化发展。但是由于煤矿领域数据信息的繁杂性,难以对其进行统一而高效地收集、信息挖掘,进而促进深一步的特定领域研究和应用。将知识图谱技术初步引入煤矿安全领域,对相关知识概念分类建模,并基于图数据库存储,用实体关系图的方式直观地描述各类概念及概念之间的关系,然后基于初步构建的知识图谱,提出了一种自然语言知识查询方法。实验证明,该文提出的方法具有较高的查全率和查准率,基于Spark的并行朴素贝叶斯问题分类方法可以在保证准确率的同时,显著提升训练效率。该文工作为煤矿安全知识图谱构建及智能查询做了初步有益探索。

Select

基于螺旋注意力网络的方面级别情感分析模型

杜成玉,刘鹏远

2020, 34(9): 70-77.

摘要 (1257) PDF (1840 KB) (5566)

方面级别情感分析是一项细粒度的情感分类任务,旨在确定特定方面的情感极性。以往的方法大都是基于方面或上下文向量的平均值来学习上下文或方面词的注意力权重,但当方面词和上下文较长时,这种方法可能会导致信息丢失。该文提出了一种建立在BERT表示上的螺旋注意力网络(BHAN)来解决这一问题,模型中的螺旋注意力机制与之前注意力机制不同的是,基于方面词得到加权后的上下文表示后,用这个新的表示计算方面词的权重,然后用这个新的方面词的表示重新计算上下文的权重,如此循环往复,上下文和方面词的表示会得到螺旋式的提高。该文在2014年SemEval任务4和Twitter数据集上进行了模型评估,实验结果表明,其性能超过了之前最佳模型的结果。

Select

基于Transformer增强架构的中文语法纠错方法

王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘

2020, 34(6): 106-114.

摘要 (2251) PDF (5647 KB) (5510)

语法纠错任务是自然语言处理领域的一项重要任务,近年来受到了学术界广泛关注。该任务旨在自动识别并纠正文本中所包含的语法、拼写以及语序错误等。该文将语法纠错任务看作是翻译任务,即将带有错误表达的文本翻译成正确的文本,采用基于多头注意力机制的Transformer模型作为纠错模型,并提出了一种动态残差结构,动态结合不同神经模块的输出来增强模型捕获语义信息的能力。受限于目前训练语料不足的情况,该文提出了一种数据增强方法,通过对单语语料的腐化从而生成更多的纠错数据,进一步提高模型的性能。实验结果表明,该文所提出的基于动态残差的模型增强以及腐化语料的数据增强方法对纠错性能有着较大的提升,在NLPCC 2018中文语法纠错共享评测数据上达到了最优性能。

Select

基于深度学习的流行度预测研究综述

曹婍,沈华伟,高金华,程学旗

2021, 35(2): 1-18,32.

摘要 (2898) PDF (4607 KB) (5491)

在线社交网络中的消息流行度预测研究,对推荐、广告、检索等应用场景都具有非常重要的作用。近年来,深度学习的蓬勃发展和消息传播数据的积累,为基于深度学习的流行度预测研究提供了坚实的发展基础。现有的流行度预测研究综述,主要是围绕传统的流行度预测方法展开的,而基于深度学习的流行度预测方法目前仍未得到系统性地归纳和梳理,不利于流行度预测领域的持续发展。鉴于此,该文重点论述和分析现有的基于深度学习的流行度预测相关研究,对近年来基于深度学习的流行度预测研究进行了归纳梳理,将其分为基于深度表示和基于深度融合的流行度预测方法,并对该研究方向的发展现状和未来趋势进行了分析展望。

Select

基于改进TextRank的藏文抽取式摘要生成

李维,闫晓东,解晓庆

2020, 34(9): 36-43.

摘要 (1226) PDF (3775 KB) (5481)

目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。

Select

基于一对多关系的多模态虚假新闻检测

袁玥,刘永彬,欧阳纯萍,田纹龙,方文泷

2023, 37(9): 131-139.

摘要 (969) PDF (4295 KB) (5454)

面向多模态的虚假新闻检测工作大部分是利用文本和图片之间的一对一关系,将文本特征和图片特征进行简单融合,忽略了帖子内多张图片内容的有效特征,对帖子间的语义关联建模不足。为了克服现有方法的局限性,该文提出了一种基于文图一对多关系的多模态虚假新闻检测模型。利用跨模态注意力网络筛选多张图片的有效特征,通过多模态对比学习网络动态调整帖子间高层次的语义特征关联,增强融合图文特征的联合表示。在新浪微博数据集上的实验结果表明,该模型能充分利用文图一对多关系的有效信息和帖子之间的语义特征关系,比基线模型准确率提升了3.15%。

选择文件类型/文献管理软件名称

选择包含的内容