“情感分析与社会计算” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 王佳,朱小飞,唐顾,黄贤英
    2024, 38(5): 136-145.
    摘要 (49) PDF (5316 KB) (15)
    会话情感分析指对一段会话中的每句话进行情感分类,目前大部分会话情感分析模型不仅忽略了对话中内部信息的相互影响,而且没有考虑到日常对话中存在的隐性背景情感。为了有效解决这些问题,该文提出了一个基于多粒度融合的图卷积神经网络,其主要包括两个模块,即特征提取模块和星图增强的图学习模块。首先,特征提取模块使用预训练语言模型RoBERTa获取会话中语句之间粗粒度的上下文信息,同时结合句法依赖树获取词之间细粒度的句法信息,从而将多粒度特征信息引入到会话情感建模。然后,在星图增强的图学习模块中建模会话的背景情感信息和会话中不同说话者之间的交互信息,从而增强会话情感分析的准确性。实验结果表明,该文提出的模型与其他基线模型相比,其准确性以及度量指标F1值在所有数据集上均有显著提升。
  • 季浩然,林鸿飞,杨亮,徐博
    2024, 38(5): 146-154.
    摘要 (52) PDF (1622 KB) (25)
    抑郁症作为世界第四大疾病,严重影响着人们的生理和心理健康。随着互联网的发展,社交媒体的发布内容已经成为研究精神疾病的重要数据源,研究者开始应用自然语言处理技术自动检测抑郁倾向。现存算法无法充分捕捉到长文本中的关键信息,忽略了对用户情绪状态的时序性建模,进而造成抑郁倾向识别性能不佳。该文提出一种融合文本摘要和情绪感知的抑郁倾向识别模型,首先利用文本摘要算法抽取用户历史文本的全局语义特征,在压缩文本长度的同时保留了与用户真实意图强相关的内容;然后利用词汇增强算法计算句子级的细粒度情绪表示,并结合深度神经网络捕获了用户的情绪变化特征。实验结果表明,该文提出的模型取得了更佳的识别效果,在抑郁倾向识别数据集上将检测结果的正类F1值提升至75.61%。
  • 刘烨,刘仕鑫,曾雪强,左家莉
    2024, 38(4): 120-133.
    摘要 (134) PDF (5396 KB) (111)
    随着基于互联网的社交媒体兴起,Emoji由于具有以图形化方式快速准确地表达情绪的特点,目前已经成为用户在日常交流中广泛使用的图像文本。已有研究工作表明,在基于文本的情绪识别模型中考虑Emoji信息,对于提升模型性能具有重要的作用。目前,考虑Emoji信息的情绪识别模型大多采用词嵌入模型学习Emoji表示,得到的Emoji向量缺乏与目标情绪的直接关联,Emoji表示蕴含的情绪识别信息较少。针对上述问题,该文通过软标签为Emoji构建与目标情绪直接关联的情感分布向量,并将Emoji情感分布信息与基于预训练模型的文本语义信息相结合,提出融合Emoji情感分布的多标签情绪识别方法(Emoji Emotion Distribution Information Fusion for Multi-label Emotion Recognition, EIFER)。EIFER方法在经典的二元交叉熵损失函数的基础上,通过引入标签相关感知损失对情绪标签间存在的相关性进行建模,以提升模型的多标签情绪识别性能。EIFER方法的模型结构由语义信息模块、Emoji信息模块和多损失函数预测模块组成,采用端到端的方式对模型进行训练。在SemEval2018英文数据集上的情绪预测对比实验结果表明,该文提出的EIFER方法比已有的情绪识别方法具有更优的性能。
  • 尤佩雯,王晶晶,高晓雅,李寿山
    2024, 38(4): 134-142.
    摘要 (145) PDF (3036 KB) (133)
    针对语音情感分类任务面临的语音数据标注困难的挑战,该文提出了一种新的跨模态语音情感分类任务,其可以使用文本模态数据(源端)帮助语音模态数据(目标端)进行情感分类。在此基础上,提出了一种基于知识蒸馏的跨模态情感分类模型,旨在通过知识蒸馏方法将文本情感分类模型(教师模型)学习到的预训练先验知识蒸馏到语音情感分类模型(学生模型)中。该模型的特色在于无须在测试端依赖昂贵的语音识别技术,可对原始语音数据直接进行情感分类,有利于该模型在实际语音情感分类应用场景中大规模落地。实验结果表明,该文所提出的方法可以有效利用文本模态分类的经验来提升语音模态的分类效果。
  • 高准,但志平,董方敏,张岩珂,张洪志
    2024, 38(2): 142-154.
    摘要 (153) PDF (4890 KB) (63)
    当前谣言检测工作主要研究谣言传播的方向特性,而忽视了谣言传播的全局结构特性,导致不能充分挖掘谣言潜在的结构特征;此外,现有研究忽略了谣言原始传播结构中存在的不真实关系,从而限制了传播节点特征的学习。为此,该文提出一种多层次的动态传播注意力网络模型(Multi-level Dynamic Propagation Attention Networks,MDPAN)用于检测谣言。该模型通过节点级注意力学习谣言传播图中所有连接边的贡献度,动态地关注对识别谣言有用的传播关系,并基于图卷积网络分别提取谣言不同层次的传播特征、扩散特征以及全局结构特征,最后引入基于注意力机制的池化方法对这些多层次的特征进行有效融合。在公开的Twitter15、Twitter16和Weibo16数据集上的实验结果表明,该文所提出的模型对比主流基于传播结构的EBGCN模型,整体准确率分别提高了2.1%、0.7%和1.7%。
  • 程艳,胡建生,赵松华,罗品,邹海锋,富雁,刘春雷
    2024, 38(2): 155-168.
    摘要 (142) PDF (2065 KB) (105)
    方面词提取是方面级情感分析中的一个核心任务,随着社交网络的不断发展,越来越多的用户倾向于根据评论文本来做决策,并且对评论文本的细节越来越关注。因此,从海量的评论文本中准确提取方面词对于用户快速决策具有重要意义。由于标注语料极其耗时耗力,成本高,所以当前公开的方面词数据集相对较少,从而影响了神经网络模型的有效训练。为了缓解这一问题,有研究者使用了领域自适应策略,该策略通过使用方面词和意见词之间的共同句法关系来弥补不同领域之间的差距,但这高度依赖于外部语言资源。针对上述问题,该文使用无监督领域自适应的方法,通过从粗粒度方面类别任务的丰富资源源域学习到的知识,来提高细粒度方面词任务的低资源目标域的学习能力。为了缓解领域间粒度不一致和特征不匹配问题,该文提出了一种双记忆交互网络,该网络通过将每个单词的局部记忆与全局方面词和方面类别记忆进行交互,不断迭代获得每个单词的相关向量,进而得到方面词与方面类别之间的相互联系,以及方面词或方面类别本身之间的内部相关性。最后为了验证方法的有效性,该文方法在Laptop、Restaurant和Device数据集上分别进行了实验。实验结果表明,与多个基线模型相比,该文提出的方法性能更优。
  • 叶施仁,丁力,AliMDRinku
    2024, 38(1): 124-134.
    摘要 (136) PDF (10102 KB) (117)
    在细粒度情感分析和情绪分析数据集中,标签之间的相关性和标签分布的不均匀性非常突出。类别标签分布不均匀,标签之间存在相关性容易影响学习模型的性能。针对这一问题,该文受计算机视觉领域中的Circle loss 方法的启发,将梯度衰减、成对优化 、添加余量引入损失函数来优化深度学习模型的性能。该方法可以很好地与预训练模型相结合,不需要修改骨干网络。与当前最新的经典方法相比,该方法在SemEval18数据集上Jaccard系数、micro-F1、macro-F1分别提升了1.9%、2%、1.9%;在GoeEmotions数据集上Jaccard系数、micro-F1、macro-F1分别提升了2.6%、1.9%、3.6%。实验表明,该文提出的损失函数对情感分析和情绪分析问题具有显著的提升作用。
  • 徐瑞,曾诚,程世杰,张海丰,何鹏
    2024, 38(1): 135-145.
    摘要 (217) PDF (4621 KB) (71)
    预训练模型的快速发展使得情感分类任务得到了突破性进展,然而互联网提供的海量数据中存在着大量语义模糊、易混淆的文本,制约了当前多数模型的分类效果。针对易混淆文本对情感分类的负面影响,该文提出了一种基于双三元组网络的易混淆文本情感分类方法。该方法有效解决了传统三元组网络中同类文本特征之间仍存在明显差异的问题,改进了三元样本组合的构建方式,分别从易分类文本和普通文本中构建出两对三元样本组合,并以不同权重进行特征相似度比对,让模型深入挖掘易混淆文本和易分类文本的特征编码差异,充分学习同类别文本间的相似性和混淆类别文本间的差异性,提高了文本特征的聚类效果;同时,在训练过程中将本批次的易混淆文本加入到下一批次进一步训练,更有效地利用了易混淆文本的语义信息,以此提升模型整体的分类效果。在nlpcc2014、waimai_10k和ChnSentiCorp数据集上进行对比实验,实验结果表明,与现有的易混淆文本情感分类方法相比,该方法在准确度和F1值上具有更好的表现,其中F1值相较于基准模型提升了3.16%、2.35%和2.5%,验证了所提方法的有效性和合理性。
  • 张童越,张绍武,林鸿飞,徐博,杨亮
    2023, 37(11): 142-150.
    摘要 (110) PDF (1165 KB) (47)
    幽默在人类交流中扮演着重要角色,并大量存在于情景喜剧中。笑点(punchline)是情景喜剧实现幽默效果的形式之一,在情景喜剧笑点识别任务中,每条句子的标签代表该句是否为笑点,但是以往的笑点识别工作通常只通过建模上下文语义关系识别笑点,对标签的利用并不充分。为了充分利用标签序列中的信息,该文提出了一种结合条件随机场的单词级-句子级多任务学习方法,该方法在两方面进行了改进,首先将标签序列中相邻两个标签之间的转移关系看作幽默理论中不一致性的一种体现,并使用条件随机场学习这种转移关系。其次,由于通过相邻标签之间的转移关系以及上下文语义关系均能够学习到铺垫和笑点之间的不一致性,我们引入了多任务学习方法,让模型同时学习每条句子的句义、 组成每条句子的所有字符的词义、 单词级别的标签转移关系, 以及句子级别的标签转移关系,使模型能够结合两种关系信息提高笑点识别的性能。该文在CCL2020“小牛杯”幽默计算——情景喜剧笑点识别评测任务的英文数据集上进行实验,结果表明,该文提出的方法比同期最好的方法F1值上提高了3.2%,在情景喜剧幽默笑点识别任务上取得了最好的效果,并通过消融实验证明了上述两方面改进的有效性。
  • 朱杰,刘苏文,李军辉,郭立帆,曾海峰,陈风
    2023, 37(11): 151-157.
    摘要 (201) PDF (1559 KB) (171)
    情感可解释分析是情感分析领域中一个新颖的任务,旨在判断文本极性,同时还需模型给出判断所依据的证据。现有的情感分析方法大多是黑盒模型,其内部决策机制对用户是不透明的。近年来,尽管模型可解释性受到越来越多的关注,但由于缺少人工标注的评测数据,可解释评估仍旧是一个亟待解决的问题。该文提出了一个基于 UIE (Universal Information Extraction)的情感可解释分析方法,该方法根据情感可解释任务的特点,使用小样本学习、文本聚类等技术,提高了模型的合理性、忠诚性。实验结果表明,该方法在“2022语言与智能技术竞赛: 情感可解释评测”任务上获得了第一名的成绩。
  • 吴佳铭,林鸿飞,杨亮,徐博
    2023, 37(5): 135-142,172.
    摘要 (476) PDF (1711 KB) (378)
    近年来,幽默识别逐渐成为自然语言处理领域的热点研究之一。已有的研究多聚焦于文本上的幽默识别,在多模态数据上开展此任务的研究相对较少,现有方法在学习模态间交互信息上存在不足。该文提出了基于注意力机制的模态融合模型,首先对单模态上下文进行独立编码,得到单一模态的特征向量;然后将注意力机制作用于两种模态的特征序列,使用层级注意力结构捕获多模态信息在段落上下文中的关联与交互。该文在UR-FUNNY公开数据集上进行了实验,相比之前最优结果在精确率上提升了1.37%。实验表明,该文提出的模型能很好地对多模态上下文进行建模,引入多模态交互信息和段落上下文信息可提高幽默识别的性能。
  • 李卫疆,吴宇宸
    2023, 37(5): 143-156.
    摘要 (292) PDF (11173 KB) (158)
    在目前方面级别情感分类的研究方法中,大部分是基于循环神经网络或单层注意力机制等方法,忽略了位置信息对于特定方面词情感极性的影响,并且此类方法编码语句和方面词时直接采用了拼接或者相乘的方式,导致处理长句子时可能会丢失信息以及无法捕获深层次情感特征。为了解决上述问题,该文提出了基于句法结构树和混合注意力网络的模型,其基本思想是将基于句法结构树构建的位置向量作为辅助信息,并提出混合注意力网络模型来提取句子在给定方面词下的情感极性。所以该文设计了浅层和深层网络,并分别构建位置注意力机制和交互型多头注意力机制获取句子中和方面词相关的语义信息。实验结果表明: 大多数情况下,该模型在SemEval 2014公开数据集中的Restaurant和Laptop以及ACL14 Twitter上的表现优于相关基线模型,可以有效地识别不同方面的情感极性。
  • 范钦,李兵,温立强,李伟平
    2023, 37(5): 157-164.
    摘要 (251) PDF (2182 KB) (151)
    案源线索管理是工商行政执法办案的初始环节。随着网络举报途径的简化,案源线索的数量激增,现有的人工对案源线索进行分派处理的方式存在压力大、错误率高、人工成本高等种种弊端。为了降低人工成本、提高案源线索分类的准确率,该文以某一线城市的案源线索数据为例,探索基于深度学习模型的分类算法,来实现违法种类的自动识别。经过模型选择和实证研究,发现所提算法的总体分类准确率较高,能够满足实际的业务需求。本研究的成果表明了基于深度学习模型的分类器,可以有效地实现案源线索的自动分类,为推进社会治理能力的智能化和现代化提供借鉴。
  • 林原,李家平,杨亮,赵昕航,覃雪,许侃,林鸿飞
    2023, 37(2): 129-137.
    摘要 (492) PDF (2398 KB) (381)
    情感分析是指通过提取文本特征对基于文本的情感倾向进行分类,是自然语言处理领域中的一项重要任务。为了提高文本情感分析的性能,该文将分类任务定义为一个比较问题,并提出了基于比较学习(Comparing to Learn,C2L)的分类模型。C2L的目标是通过与已标注的样本进行比较来对句子进行评分,实际上,通过比较方法进行分类比训练一个过于复杂的模型更加有效。在两个常用数据集上的实验结果表明,C2L的性能优于现有的许多模型;通过调整C2L的内部结构,可以在不同的任务和数据集上取得好的表现。
  • 梁斌,林子杰,徐睿峰,秦兵
    2023, 37(2): 138-147,157.
    摘要 (472) PDF (3372 KB) (381)
    现有的文本讽刺识别研究通常只关注句子级别的讽刺表达识别,但缺乏考虑讽刺对象对讽刺表达的影响。针对这一问题,该文提出一个新的面向话题的讽刺识别任务。该任务通过话题的引入,以话题作为讽刺对象,有助于更好地理解和建模讽刺表达。对应地,该文构建了一个新的面向话题的讽刺识别数据集,包含707个话题,以及对应的4 871个话题-评论对组。在此基础上,基于提示学习和大规模预训练语言模型,该文提出了一种面向话题的讽刺表达提示学习模型。在该文构建的面向话题讽刺识别数据集上的实验结果表明,相比基线模型,该文所提出的面向话题的讽刺表达提示学习模型性能更优。同时,实验分析也表明,面向话题的讽刺识别任务相比传统的句子级讽刺识别任务更具挑战性。本文的数据集和代码已发布在https://github.com/HITSZ-HLT/Tosarcasm.
  • 潘雨晨,尉桢楷,洪宇,徐庆婷,姚建民
    2023, 37(1): 132-143.
    摘要 (283) PDF (2007 KB) (127)
    属性抽取是细粒度情感分析的子任务之一,其目标是从评论文本中抽取用户所评价的属性。在特定领域中,某些属性可能会频繁出现在不同的评论文本中,称之为高频属性。高频属性具有较高的领域表征能力,易被监督学习模型感知。相对地,低频属性出现频率低,可供训练的样本总量较为稀疏,使得神经网络模型难以充分学习相应的语言现象,从而使测试阶段的低频属性抽取难度较高。由于低频属性经常与高频属性同时出现在局部文字片段之中,该文根据这一特点,提出一种融合高频属性信息的属性抽取方法: 跟踪和记录模型识别的高频属性,使用卷积神经网络和注意力机制编码高频属性的上下文信息,并通过门控机制融入其他词项的表示学习过程中,辅助低频属性的识别。该文在国际语义评测大会2014和2016提供的笔记本电脑及餐馆领域数据集上进行了实验,相比于基线模型,该文方法在这两个英文数据集上F1值分别提升了2.33和1.44个百分点,并且总体性能高于现有前沿技术。
  • 冯仁杰,王中卿
    2023, 37(1): 144-152.
    摘要 (461) PDF (1902 KB) (240)
    近些年来,随着电商平台的飞速发展,越来越多的人会选择在网上购物并且对商品进行评价。对于较长篇幅的评论,进行摘要可以让用户快速地了解到商品的优缺点。目前主流的生成式摘要模型大多只考虑文本的序列化信息,而对一个商品评论来说,评论中的商品属性信息和情感信息极为重要。为了让模型学习到评论中的商品属性及情感信息,该文提出了一种融合评论中属性及情感信息的生成式摘要方法。该方法通过将不同种类的情感和属性信息嵌入生成模型的编码阶段的方式,从而有效的结合这些信息。实验证明,该方法可生成更高质量的摘要,生成的摘要在ROUGE评价指标上会有较大幅度的提升。
  • 谭陈琛,余正涛,相艳,黄于欣,郭军军
    2023, 37(1): 153-159,168.
    摘要 (335) PDF (2194 KB) (161)
    涉案微博评论讽刺句检测的难点在于评论句字面语义与实际情感存在着较大差异,仅利用评论本身的特征难以判断,而涉案微博正文是案件的事实性描述,可以将其作为评论讽刺句检测的依据。为此,该文提出一种基于动态记忆案件描述的讽刺检测方法。首先利用动态记忆机制对微博正文进行案件特征抽取,其次利用注意力机制获得评论句特征,并与案件特征进行一致性比较,最后基于比较的特征进行讽刺句分类。实验结果表明,该文所提出方法的准确率和F1值分别达到85.65%和85.91%,较基线模型有较大提升,验证了案件描述对涉案微博评论讽刺句检测有很好的支撑作用。
  • 谭惜姿,朱苏阳,李寿山,周国栋
    2022, 36(12): 149-158.
    摘要 (474) PDF (1661 KB) (779)
    近年来,情绪分析方法的研究得到了飞跃式的进展,但作为情绪分析研究任务之一的情绪回归任务因语料的匮乏,目前还没有取得突破性的成果。相比情绪分类的研究,情绪回归方法受分类体系的影响较小,更具有泛化性。该文提出了一种基于维度-标签信息的多元情绪回归方法,可以同时预测输入文本在极性、强度和可控性三个维度的分值。该方法利用情绪维度和情绪类别的互信息,具体的方法是尽可能最大化两个不同情绪标签的文本在表示空间中的距离,从而输出与真实值更接近的预测分数。在英文数据集EMOBANK上的实验结果表明,该方法在均方误差和皮尔森相关系数两个指标上取得了显著提升,尤其是在极性和强度这两个维度上有较好的性能表现。
  • 曾碧卿,徐马一,杨健豪,裴枫华,甘子邦,丁美荣,程良伦
    2022, 36(12): 159-172.
    摘要 (498) PDF (10749 KB) (424)
    方面级别情感分类旨在分析一个句子中不同方面词的情感极性。先前的研究在文本表示上,难以产生依赖于特定方面词的上下文表示;在语义特征分析上,忽略了方面词的双侧文本在整体语义上与方面词情感极性之间具备不同关联度这一特征。针对上述问题,该文设计了一种双通道交互架构,同时提出了语义差这一概念,并据此构建了双通道语义差网络。双通道语义差网络利用双通道架构捕捉相同文本中不同方面词的上下文特征信息,并通过语义提取网络对双通道中的文本进行语义特征提取,最后利用语义差注意力增强模型对重点信息的关注。该文在SemEval2014的Laptop和Restaurant数据集以及ACL的Twitter数据集上进行了实验,分类准确率分别达到了81.35%、86.34%和78.18%,整体性能超过了所对比的基线模型。
  • 陈晨,周夏冰,王中卿,张民
    2022, 36(12): 173-181.
    摘要 (470) PDF (2613 KB) (811)
    对话情感分析旨在对一段对话中的每个句子进行情感分类,既要考虑到说话者个人的情感惯性,也要考虑到说话者之间的情感传递,对于构建具有移情功能的对话系统等具有重要作用。在目前已有的工作中,多数是基于循环神经网络构建记忆网络对说话者建模,该文从基于Transformer的对话建模的角度出发,为了多方注意力机制建模不同说话者之间的交互,更好地模拟对话场景。实验表明,该文提出的Dialogue Transformer相较于其他前沿模型,其实现简洁,运行速率更快,且加权F1值也有较大提高。
  • 周敏,王中卿,李寿山,周国栋
    2022, 36(10): 126-134.
    摘要 (509) PDF (5123 KB) (597)
    目前,缺少标注样本数据是属性级情感分类任务面临的一大难题,为了解决这一问题,该文提出了结合多项任务的预训练Bert模型。该模型利用大量未标注的篇章级情感分类数据,结合多种分类任务预训练模型共享参数,迁移属性级评论和篇章级评论中共享的有用的语义语法信息,从而帮助模型提高属性级情感分类准确率。在SemEval-14数据集上的实验结果表明,相较于一系列基准模型,该文提出的模型有效提高了属性级情感分类的准确率。
  • 闫金凤,邵新慧
    2022, 36(10): 135-144.
    摘要 (528) PDF (2693 KB) (651)
    方面级情感分析是细粒度情感分析的一个基本子任务,旨在预测文本中给定方面或实体的情感极性。语义信息、句法信息及其交互信息对于方面级情感分析是极其重要的。该文提出一种基于图卷积和注意力的网络模型(CA-GCN)。该模型主要分为两部分,一是将卷积神经网络结合双向LSTM获取的丰富特征表示与图卷积神经网络掩码得到的方面特征表示进行融合;二是采用两个多头交互注意力融合方面、上下文和经图卷积神经网络得到的特征信息,而后接入多头自注意力来学习信息交互后句子内部的词依赖关系。与ASGCN模型相比,该模型在三个基准数据集(Twitter、Lap14和Rest14)上准确率分别提升1.06%、1.62%和0.95%,F1值分别提升1.07%、2.60%和1.98%。
  • 王靖豪,刘箴,刘婷婷,王媛怡,柴艳杰
    2022, 36(10): 145-154.
    摘要 (661) PDF (4562 KB) (1158)
    现有分析社会媒体中用户情感的方法,大多依赖于某一种模态数据的信息,缺少多种模态数据的信息融合,并且现有方法缺少分析多种模态数据的信息层次结构之间的关联。针对上述问题,该文提出多层次特征融合注意力网络,在分别提取社会媒体中文本和图像多层次特征的基础上,通过计算“图文”特征与“文图”特征,实现多模态的情感特征互补,从而准确感知社会媒体中用户的情感。在Yelp和MultiZOL数据集上的实验结果表明,该文方法可有效提升多模态数据情感分类的准确率。
  • 承孝敏,陈钢,陈健鹏,佘祥荣,毛建
    2022, 36(10): 155-166,172.
    摘要 (449) PDF (7700 KB) (484)
    近年来,12345热线智能化成为地方政府数字化转型的典型代表。为解决手工事件分拨耗时长、效率低下等问题,该文提出了一种基于强化关联的12345热线事件分拨方法(RAVA)。首先,RAVA模型通过指针生成网络构建事件画像并得到事件编码。其次,使用基于强化联系的注意力机制(ARA)来捕获事件编码与“三定”职责拼接向量中的关联信息,得到“事件-三定”匹配结果。然后,将匹配结果与部门简介编码拼接并输入分类器。最后,经过答案重排序后输出12345热线事件所对应的分拨部门。在芜湖市12345热线数据集上的实验结果证明,相较于其他基线分拨方法,RAVA方法在多项指标上取得了更好的分拨效果。
  • 傅湘玲,闫晨巍,赵朋亚,宋美琦,仵伟强
    2022, 36(9): 120-128,138.
    摘要 (657) PDF (3579 KB) (972)
    消费金融的欺诈检测是学术界和产业界的一个重要问题,现阶段比较流行的做法是利用机器学习方法通过提取用户的固有特征来实现。随着团伙化欺诈的出现,传统的机器学习方法在欺诈用户样本数量小及特征数据不足的情况下,显得无能为力。团伙欺诈用户之间有很强的关联关系,该文利用用户间的通话数据构建用户关联网络,通过网络统计指标和DeepWalk算法提取用户节点的图特征,充分利用图的拓扑结构信息和邻居节点信息,将其与用户固有特征一起作为特征输入,使用LightGBM模型对上述多种特征进行学习。实验结果表明,采用图表示学习方法后,AUC指标与仅使用用户固有特征相比提高了7.3%。
  • 葛晓义,张明书,魏彬,刘佳
    2022, 36(9): 129-138.
    摘要 (895) PDF (3657 KB) (1247)
    社交媒体时代给我们带来便利的同时也造成了谣言泛滥,因此通过人工智能技术进行谣言检测具有重要的研究价值。尽管基于深度学习的谣言检测取得了很好的效果,但其大多数是根据潜在特征进行谣言检测的,无法学习情感与语义之间的相关性,同时忽视了从情感角度提供解释。为解决上述问题,该文提出一种基于双重情感感知的可解释谣言检测模型,旨在利用协同注意力机制分别学习谣言语义与用户评论情感,以及谣言情感与用户评论情感的相关性进行谣言检测,并通过协同注意力权重从情感角度提供合理的解释。在公开的Twitter15、 Twitter16和Weibo20数据集上的实验结果表明,该文提出的模型与对比模型相比,在准确率上分别提高了3.9%,3.9%和4.4%,且具有合理的可解释性。
  • 雷鹏斌,秦斌,王志立,吴宇凡,梁思怡,陈宇
    2022, 36(8): 101-108.
    摘要 (654) PDF (5114 KB) (853)
    文本情感分类是自然语言处理中的经典任务,在判断文本的情感极性、舆情监控、市场呼声、商品评论等领域有重要的应用价值。该文提出了一种基于预训练模型进行细粒度文本情感分类的新方法。基于文章级别的情感分类任务,需要模型同时具有较高的语义概括能力和抗噪能力。为此,该文利用BiLSTM网络对预训练模型中每层Transformer的权重进行调整,通过将各层表达的不同粒度的语义表征进行动态融合的方式,提高模型的语义空间表达能力。为了增强模型的泛化性能,该文在下游任务结合BiLSTM和BiGRU等结构对得到的语义向量进行特征过滤。利用该模型,作者在CCF 2020年举办的科技战疫·大数据公益挑战赛—疫情期间网民情绪识别赛道中位列第三,最终测试集的F1值为0.745 37,该模型的参数量比第一名模型少67%,但二者分数差距仅为0.000 1,说明该方法具备可行性与有效性。
  • 祝清麟,梁斌,徐睿峰,刘宇瀚,陈奕,毛瑞彬
    2022, 36(8): 109-117.
    摘要 (774) PDF (2987 KB) (1030)
    针对在金融领域实体级情感分析任务中缺乏足够的标注语料,以及通用的情感分析模型难以有效处理金融文本等问题,该文构建一个百万级别的金融领域实体情感分析语料库,并标注5 000余个金融领域情感词作为金融领域情感词典。同时,基于该金融领域数据集,提出一种结合金融领域情感词典和注意力机制的金融文本细粒度情感分析模型(FinLexNet)。该模型使用两个LSTM网络分别提取词级别的语义信息和基于情感词典分类后的词类级别信息,能有效获取金融领域词语的特征信息。此外,为了让文本中金融领域情感词获得更多关注,提出一种基于金融领域情感词典的注意力机制来为不同实体获取重要的情感信息。最终在构建的金融领域实体级语料库上进行实验,取得了比对比模型更好的效果。
  • 赵志影,邵新慧,林幸
    2022, 36(7): 154-163.
    摘要 (538) PDF (4579 KB) (953)
    特定方面情感分析旨在自动识别同一句子中不同方面的情感极性。在现有方法中,结合注意力机制的循环神经网络模型在特定方面情感分析任务中取得了较好的效果,但是大多都忽略了句子的句法特征。因此,该文提出一种结合图卷积神经网络的注意力网络(GCN-aware Attention Networks, GCAN)模型。首先通过长短时记忆网络获取句子的序列信息,并利用图卷积神经网络来捕获语义特征,然后提出两种特征融合方式,得到基于序列信息和语义特征的特定方面表示。在此基础上,引入双向注意力机制处理特定方面包含多个单词的情况,进而获得更精准的基于特定方面的上下文表示。与ASGCN模型相比,该方法在Twitter数据集和SemEval14/15数据集上的分类准确率分别提升了0.34%、0.94%、1.43%和1.23%,F1值分别提升了0.53%、1.55%、1.60%和2.54%,验证了GCAN的有效性。