“情感分析与社会计算” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 曾志林,张超群,吴国富,汤卫东,李灏然,李婉秋
    2025, 39(2): 89-99,110.
    摘要 (28) PDF (4676 KB) (11)
    在社交网络中,大多数节点的数据不完整,已有的方法对这些节点的预测效率较低。鉴于此,该文提出一种融合影响力最大化的知识可迁移图神络网络(Graph Neural Network,GNN)模型VRKTGNN,其是对预测社交网络未知节点的KTGNN模型的改进。VRKTGNN根据用户的关注去构建一个图结构数据,由改进的投票排名算法VoteRank++选出图数据中影响力最大的节点对未知节点进行知识迁移,通过KTGNN利用影响力最大的节点将未知节点的信息进行完善或者补全,进而预测出大多数未知节点的一个关注重点。在五个数据集上的实验结果表明,VRKTGNN总体明显优于十个对比模型。具体来说,与最优的对比模型KTGNN相比,VRKTGNN在Github-web数据集上性能非常接近,而在Twitch-DE、Tolokers、Twitter、Twitch-EN数据集上的F1值分别提升5.73%、2.9%、2.86%和1.83%。这些结果均表明,该文新提出的模型鲁棒性更强,能够利用影响力最大的节点对社交网络中的未知节点进行有效预测,且对复杂网络更具优势。
  • 陈奇,焦鹏飞,王震,鲍青
    2025, 39(2): 100-110.
    摘要 (23) PDF (16119 KB) (9)
    网络表示学习是对节点的网络结构的一种分布式表示方案,目前被广泛应用于节点分类、社团发现和边关系预测等任务中。然而网络表示学习对网络传播过程中节点状态的估计仍是一个开放性的问题。经典的网络表示学习方法在对该问题上的应用效果不佳,因此该文提出了基于动力学传播的采样方法,称为Step2Vec逐步采样方法。Step2Vec通过结合网络传播过程,对节点的网络结构信息进行提取并训练。该文分别将Step2Vec与其他的网络分析方法及网络表示学习方法在多个引文网络和真实传播网络上进行了节点状态估计和边关系预测的实验。实验结果表明,Step2Vec算法估计网络传播中的节点状态准确率达85.6%,且对边关系预测的准确率也具有一定提升,相较于随机游走算法平均提高了5.9%。
  • 陈子潇,梁斌,徐睿峰
    2025, 39(1): 112-120.
    摘要 (36) PDF (1785 KB) (15)
    零样本立场检测目的是针对未知目标数据进行立场极性预测。一般而言,文本的立场表达是与所讨论的目标主题紧密联系的。针对未知目标的立场检测,该文将立场表达划分为两种类型: 一类在说话者面向不同的主题和讨论目标时表达相同的立场态度,称为目标无关的表达;另一类在说话者面向特定主题和讨论目标时才表达相应的立场态度,该文称为目标依赖的表达。对这两种表达进行区分,有效学习到目标无关的表达方式并忽略目标依赖的表达方式,有望强化模型的可迁移能力,使其更加适应零样本立场检测任务。据此,该文提出了一种基于主题提示学习的零样本立场检测方法。具体而言,受自监督学习的启发,该文为零样本立场检测设置了一个代理任务框架。其中,代理任务通过掩盖上下文中的目标主题词生成辅助样本,并基于提示学习分别预测原样本和辅助样本的立场表达,随后判断原样本和辅助样本的立场表达是否一致,从而在无须人工标注的情况下判断样本的立场表达是否依赖于目标的代理标签。然后,将此代理标签提供给立场检测模型,对应学习可迁移的立场检测特征。在两个基准数据集上的大量实验表明,该文提出的方法在零样本立场检测任务中相比基线模型取得了更优的性能。
  • 赵凤园,刘德喜,万齐智,刘喜平,廖国琼,万常选
    2025, 39(1): 121-132.
    摘要 (32) PDF (3523 KB) (9)
    现有的情感—原因对抽取模型均没有通过加入外部知识来提升情感—原因对的抽取效果。该文提出基于知识迁移的情感—原因对抽取模型(ECPE-KT),采用知识库获取文本的显性知识编码;随后引入外部情感分类语料库迁移得到子句的隐性知识编码;最后拼接两个知识编码,加入情感(原因)子句预测概率及相对位置,搭配Transformer机制融合上下文,并采用窗口机制优化计算压力,实现情感—原因对抽取。在ECPE数据集上的实验结果表明,该文提出的方法超过当前最先进的模型ECPE-2D。
  • 张怀博,刘晓娜,刘欣,冯浩源,尹芷仪,沈华伟
    2025, 39(1): 133-143.
    摘要 (33) PDF (2258 KB) (11)
    基于图神经网络的社交机器人检测方法是近年来社交机器人检测领域的研究热点之一,该方法通过刻画社交平台账号的节点特征,并根据账号之间的多种社交网络关系构建异构图神经网络,进而使用图节点分类的方法识别社交机器人。基于异构图神经网络的方法仍然存在两个方面的问题:一是现有的网络构建方法对传统用户社交关系如粉丝、关注等社交关系数据依赖性比较强,可扩展性比较差;二是现有特征构建方法重点关注社交机器人的个体特征,缺乏对社交机器人群体特征的引入,弱化了对具有相近群体特征的社交机器人的检测能力。基于以上问题,该文提出了融合群体特征的多重异构网络模型MCF-RGCN,该模型引入话题共现网络作为社交关系网络的补充,使模型在不依赖社交关系的情况下也能获得良好的社交机器人检测效果;同时,该文在账号元信息特征、行为特征、内容特征、时序特征、社交网络特征的基础上,引入了社群属性特征增强了账号在群体特征方面的表达,使模型进一步提升了对具有相似群体特征的社交机器人的检测能力。在微博数据集上的实验结果表明,该方法相比目前主流的社交机器人检测方法在F1值上提升了近2.3%。
  • 吴任伟,李琳,何铮,袁景凌
    2024, 38(12): 127-136,147.
    摘要 (112) PDF (4954 KB) (57)
    当前,基于方面类别的情感分析研究集中于将方面类别检测和面向类别的情感分类两个任务协同进行。然而,现有研究未能有效关注情感数据集中存在的噪声标签,影响了情感分析的准确率。基于此,该文提出一种标签先验知识增强的方面类别情感分析方法(AP-LPK)。首先该文为面向类别的情感分类构建了自回归提示训练方式,可以有效利用预训练语言模型的学习能力。同时该方式通过自回归生成标签词,以期获得比非自回归更好的语义一致性。其次,每个类别的标签分布作为标签先验知识引入,并通过伯努利分布对其做进一步精炼,以减轻噪声标签的干扰。然后,AP-LPK将上述两个步骤分别得到的情感类别分布进行融合,以获得最终的情感类别预测概率。最后,该文提出的AP-LPK方法在五个数据集上进行评估,包括SemEval 2015和SemEval 2016的四个基准数据集和AI Challenger 2018的餐饮领域大规模数据集。实验结果表明,该文提出的方法在F1指标上优于现有方法。
  • 李旸,符玉杰,王素格,郑建兴
    2024, 38(12): 137-147.
    摘要 (103) PDF (3419 KB) (27)
    建立用户兴趣与产品属性项间的关联关系,有助于提升产品推荐系统中的准确度,因为在产品评论数据中,属性项可以作为构建用户与产品间关系的媒介。该文利用BERT-SAN/ChatGLM-Turbo自动获取评论数据的属性项情感信息,度量了用户对属性项的偏好度和属性项对产品口碑的贡献度,刻画了用户兴趣和产品口碑。在此基础上,以属性项为媒介构建了用户与产品关系的关联二部图,提出了融合属性项情感的多头注意力机制的异质图神经网络产品推荐模型,模型实现了图中边的更新和结点更新。最后,基于平均误差(MSE)训练了稳定的用户与产品属性项关联的二部图图神经网络产品推荐模型。在Yelp Restaurant和Digital Music 两个数据集上进行了实验,验证了融合属性项情感的多头注意力机制的异质图神经网络产品推荐模型相比传统方法能够取得更好的性能,且属性项情感信息可以为产品推荐的可解释性提供依据。
  • 杨帆,张冕,周夏冰,张民
    2024, 38(11): 114-122.
    摘要 (113) PDF (1262 KB) (44)
    针对属性级情感三元组抽取任务数据稀缺的问题,该文提出一种融合实例相关情感信息的数据增强方法。首先,以机器阅读理解的形式训练情感分类器,用于获取意见词对属性词所表达情感的稠密向量表示;其次,在情感稠密向量表示的指导下,以掩码语言模型损失为目标,微调预训练语言模型;最后,遮蔽输入文本中的意见词,并使用微调后的预训练语言模型生成新样本。该方法所融入的情感信息结合了每条样本的深层语义,可以有效保证新样本与原数据情感倾向的一致性。在14res、15res和16res三个SemEval数据集上的实验结果表明,与其他相关数据增强方法相比,该方法得到的数据质量更高,并进一步提高了属性级情感三元组抽取模型的性能。
  • 孙新,钱海,谢晓浩
    2024, 38(11): 123-134.
    摘要 (112) PDF (1527 KB) (40)
    多模态情感分析任务是社会计算和情感分析领域的重要研究方向,近几年已成为研究热点。针对现有方法图文融合过程中融合方式单一、忽略模态之间一致性和差异性,以及对于文本模态考虑不足,无法高效地进行特征提取的问题,该文提出一种基于对称翻译与层次软注意力的图文融合情感分析模型。模型采用对称翻译的方式,将文本和图片分别设置为源模态和目标模态,并将源模态翻译成目标模态,取编码器的输出作为两个模态融合后的表征,充分利用Transformer强大的特征提取能力,融合后的向量具有丰富的语义信息及较好的鲁棒性。此外,模型采用层次软注意力机制获得文档的向量表示,并使用对称翻译融合后的向量指导文档向量的生成,赋予文档中各个句子特定的权重,综合考虑了各个句子对最终文档向量情感的影响。在Yelp数据集上的对比实验验证了该文所提模型的有效性。
  • 李旸,任鹏飞,王素格,符玉杰
    2024, 38(11): 135-145.
    摘要 (118) PDF (1272 KB) (34)
    针对金融领域文本中具有实体较多、实体长度较长以及实体间存在语义关联的特性,容易导致实体和情感极性联合获取对应错误的问题,该文提出了一种基于多图卷积网络的金融实体和情感极性联合获取方法(JAES-MGCN)。该方法利用预训练模型对句子进行初始表示,构建基于多头自注意力机制的句子权重矩阵,建立基于多个图卷积网络融合的实体边界深层语义表示。在此基础上,基于多头注意力机制,建立实体与句子之间的交互信息表示,最后在解码层实现<金融实体,情感极性>二元组联合获取。在金融实体和情感极性数据集CES-data上,与已有的模型进行对比,该文所提方法在精确率和F1值上分别提升了3.66和1.42,验证了图卷积网络有利于捕获金融实体间的语义关系,进一步在公开的英文Twitter方面项情感分析数据集上验证了该方法的有效性。
  • 常晓琴,李雅梦,李子成,李寿山
    2024, 38(10): 127-134.
    摘要 (157) PDF (1269 KB) (98)
    预训练语言模型在情感分类任务中取得了卓越的性能提升。然而,预训练模型的巨额参数量和缓慢的推理速度成为这些模型应用落地的主要障碍。知识蒸馏是一种将知识从大型的预训练教师模型转移到小型学生模型的技术。不同于现有的单教师或单学生蒸馏模型,该文提出一种基于多教师和多学生蒸馏的集成蒸馏方法。该方法既可以充分利用不同教师模型的不同知识,又可以弥补单个学生学习能力不足的缺点。此外,该文使用了大量情感分类任务相关的未标注样本来提高蒸馏性能。实验结果表明,该文提出的方法在情感分类任务上能够在基本保持教师模型的分类性能的基础上,减少97.8%~99.5%参数量,并提升了176~645倍的CPU推理速度。
  • 陈仲豪,朱军楠,周玉,向露,宗成庆
    2024, 38(10): 135-143.
    摘要 (164) PDF (1707 KB) (153)
    情绪-原因对抽取(ECPE)任务旨在从给定文档中同步抽取情绪子句及其对应的原因子句,该任务在新闻领域得到了广泛研究。然而,社交媒体领域ECPE任务的研究相对较少,主要原因在于缺少适用的数据集。与新闻领域相比,该领域更具挑战性和实用性: (1)在社交媒体领域,情绪表达更加多样化、非规范化; (2)以往的研究忽略了情绪造成的主观意图,其对于决策分析有很重要的价值。针对以上问题,该文首先构建了一个面向中文微博的情绪原因抽取数据集,并对其中5 009条数据进行了人工标注。该数据集具备以下特点: (1)收录了隐喻、反讽等形式的情绪表达,标注了细粒度的情绪类别; (2)定义了三种类型的意图,并标注了意图子句; (3)当前规模最大的中文情绪-原因对抽取数据集。结合数据集特点,该文提出一种融合情绪类别和意图信息的情绪-原因对抽取方法,并将该方法与多个ECPE主流方法进行了比较分析。实验结果表明,该文方法可以更有效提升社交媒体领域情绪-原因对抽取的效果。
  • 董苏军,钱忠,李培峰,朱巧明
    2024, 38(9): 167-176.
    摘要 (200) PDF (1503 KB) (109)
    现存关于谣言检测的研究方法要么只关注谣言在社交媒体上传播的时间流特征,要么仅关注传播结构特征,并且使用了大量的辅助信息。实际上,谣言传播的时间流和传播结构特征均有助于提升谣言检测模型的性能,并且能够形成互补作用。与此同时,源用户的自我描述相比于其他辅助信息更为重要,并且源推文的语义信息在整个会话线程中起到了关键作用。为解决上述问题,该文提出了一个新颖的谣言检测模型TPSS。该模型融合了时间流和传播结构特征。同时,仅采用源用户的自我描述作为辅助信息,并且提出了一种协同注意力机制来增强源推文的作用。该机制基于源推文特征来增强时间流特征和传播结构特征。在Twitter15、Twitter16和PHEME数据集上的实验结果表明TPSS优于基准系统。
  • 杨帆,李邵梅
    2024, 38(8): 140-146.
    摘要 (302) PDF (1735 KB) (160)
    随着网络和通信技术的发展,谣言借助微博等平台可快速扩散,形成病毒式传播,给国家安全和社会稳定造成严重的安全隐患。为了提高谣言自动检测的准确率,对基于图注意力网络的全局-局部注意力编码谣言检测模型进行了改进。首先,引入用户属性信息对微博文本内容特征和传播结构特征进行补充,得到更高阶特征;其次,改进图注意力机制以得到更健壮的节点聚合特征,为判决是否为谣言提供更准确的依据。在微博谣言数据集上的实验结果表明,相对于已有算法,该文提出的检测模型具有更高的检测准确率。
  • 余军,过弋,阮启铭
    2024, 38(8): 147-157.
    摘要 (222) PDF (4099 KB) (194)
    近年来,基于方面级别的情感分析(ABSA)任务受到越来越多的关注。其中,方面级情感三元组提取(ASTE)是ABSA任务中最新的子任务,其要求同时提取出句子的方面词、观点词并输出对应的情感极性。先前的工作大多采用pipeline方式进行提取,忽略了方面词和观点词之间的联系,且容易产生误差传播的问题。对此,该文提出一种基于集合预测的方法,将方面级情感三元组提取问题转换成集合预测问题,以端到端的方式进行三元组提取。在多个基准数据集上的实验表明,该文提出的模型取得了较为先进的结果。
  • 赵中杰,郑秋生,张龙
    2024, 38(8): 158-166.
    摘要 (307) PDF (1429 KB) (269)
    虚假新闻的大量传播对个人和社会都造成巨大的危害,通过智能算法检测虚假新闻是阻止虚假新闻传播的重要途径。针对不同语境中虚假新闻检测不准确的问题,该文将新闻的背景事实特征和新闻的风格特征融入到模型中,可以提高模型解决缺少背景知识的虚假新闻检测能力,增强模型的鲁棒性,其中新闻的风格包括情感风格和文本风格。同时该文构建了多通道融合器融合新闻与背景知识的差异性特征,语义特征和风格特征,组成了基于事实和风格的虚假新闻检测框架FSFD。在CHEF中文开放数据集上的实验证明,该文提出的检测方法在F1值上比基准模型提升了2.3%,可见,该文方法适用于背景丰富的新闻,为在线社交媒体的虚假新闻检测提供有力支持。
  • 黎倩尔,黄沛杰,陈佳炜,吴嘉林,徐禹洪,林丕源
    2024, 38(7): 137-146.
    摘要 (231) PDF (1622 KB) (624)
    多模态的对话情绪识别(Emotion Recognition in Conversation,ERC)是构建情感对话系统的关键。近年来,基于图的融合方法在会话中动态聚合多模态上下文特征,提高了模型在多模态对话情绪识别方面的性能。然而,这些方法都没有充分保留和利用输入数据中的有价值的信息。具体地说,它们都没有保留从输入到融合结果的任务相关信息,并且忽略了标签本身蕴含的信息。为了解决上述问题,该文提出了一种基于互信息最大化和对比损失的多模态对话情绪识别模型(Multimodal ERC with Mutual Information Maximization and Contrastive Loss,MMIC)。模型通过在输入级和融合级上分级最大化模态之间的互信息(Mutual Information),使任务相关信息在融合过程中得以保存,从而生成更丰富的多模态表示。该文还在基于图的动态融合网络中引入了监督对比学习(Supervised Contrastive Learning),通过充分利用标签蕴含的信息,使不同情绪相互排斥,增强了模型识别相似情绪的能力。在两个英文和一个中文的公共数据集上的大量实验证明了该文所提出模型的有效性和优越性。此外,在所提出模型上进行的案例探究有效地证实了模型可以有效保留任务相关信息,更好地区分出相似的情绪。消融实验和可视化结果证明了模型中每个模块的有效性。
  • 张华辉,冯林,荆沁璐
    2024, 38(7): 147-157.
    摘要 (181) PDF (1443 KB) (114)
    方面级情感分类是一种细粒度的情感分析任务,旨在分类出文本中不同方面的情感。目前,现有方面级情感分类模型存在特征提取层次浅、泛化能力弱等问题。为此,该文提出一种基于融合对抗网络的方面级情感分类模型ASFAN(Aspect-level Sentiment classification model based on Fusion Adversarial Networks)。首先,从数据集中提取文本的方面词、位置、上下文信息表示。其次,将方面词、位置、上下文信息通过BERT编码。最后,通过多头注意力和局部注意力机制提取文本特征,将特征进行融合学习。此外,通过对抗学习算法生成对抗样本,将对抗样本作为一种文本数据增强样本,优化决策边界。实验结果表明,在SemEval 2014的Restaurant、Laptop数据集和ACL-2014的Twitter数据集上,ASFAN的准确率分别达86.54%、79.15%、76.16%,ASFAN对比大多数基线模型性能提升显著。
  • 陈世男,葛东来,沈力行,徐东钦,贡正仙
    2024, 38(7): 158-164.
    摘要 (155) PDF (1218 KB) (163)
    情感可解释性分析是近年来比较新颖的研究方向,其目标是在预测文本的情感极性的同时给出决定情感极性的证据片段。该文在仅有情感分类任务数据集的基础上,提出了基于擦除的情感可解释性片段抽取方法,通过被擦除单词对情感极性逻辑判断的波动影响来决定证据的抽取。随后,利用擦除的方法使用模型对公开情感分析数据集中的部分数据进行片段抽取并人工过滤得到有监督数据,再使用T5序列生成式模型进行有监督训练,从而进一步提升证据抽取的性能。最终在“百度2022语言与智能技术竞赛: 情感可解释评测”中获得第三名的成绩。
  • 聂小芳,谭宇轩,曾雪强,左家莉
    2024, 38(6): 139-150.
    摘要 (256) PDF (3332 KB) (416)
    细粒度情绪识别模型采用比传统方法更多的情绪类别,能更为准确地捕捉人们日常生活中经历和表达的情绪。然而,大幅增加的情绪类别以及细粒度情绪间存在的相互关联和模糊性,给细粒度情绪识别模型带来了挑战。已有情绪识别工作表明,引入情感词典等外部知识可以有效提升模型性能。但现有细粒度情绪识别模型引入情感知识的方式还较为简单,仍未考虑深层情感知识,例如,情感层级关系。针对上述问题,该文提出一种基于层级图卷积网络的情绪识别(Hierarchy Graph Convolution Networks-based Emotion Recognition,HGCN-EC)模型。HGCN-EC模型由语义信息模块、情绪层级结构知识模块和知识融合模块组成。语义信息模块提取文本的语义特征;情绪层级结构知识模块将细粒度情绪构建为树状层级结构并使用贝叶斯统计推断计算情绪之间的转移概率作为层级知识;知识融合模块采用图卷积网络将情绪层级知识与文本语义特征融合,用于实现情绪预测。在GoEmotions数据集上的对比实验结果表明,HGCN-EC模型具有相较于基线方法更优的细粒度情绪识别性能。
  • 张永成,魏小梅,王欢,徐荣康
    2024, 38(6): 151-160.
    摘要 (333) PDF (1347 KB) (323)
    当前虚假新闻的检测方法已经从传统的单一模态数据分析转向了多模态数据融合技术的应用。然而现有的多模态虚假新闻检测方法未充分考虑到现实场景中可能存在的模态缺失问题。模态的缺失可能会导致无法完整地抽取和融合新闻特征,从而降低模型的性能。该文提出一种新的虚假新闻检测框架,该框架在多模态特征学习中,加入了一个模态鉴别器,其在与特征生成器进行对抗训练的过程中学习不同模态组合之间的迁移特征,实现了在不确定模态缺失场景下的虚假新闻检测。通过在真实数据集上进行实验证明,该文所提出的框架在不确定模态缺失场景下优于最新的多模态虚假新闻检测方法。
  • 王佳,朱小飞,唐顾,黄贤英
    2024, 38(5): 136-145.
    摘要 (215) PDF (5316 KB) (213)
    会话情感分析指对一段会话中的每句话进行情感分类,目前大部分会话情感分析模型不仅忽略了对话中内部信息的相互影响,而且没有考虑到日常对话中存在的隐性背景情感。为了有效解决这些问题,该文提出了一个基于多粒度融合的图卷积神经网络,其主要包括两个模块,即特征提取模块和星图增强的图学习模块。首先,特征提取模块使用预训练语言模型RoBERTa获取会话中语句之间粗粒度的上下文信息,同时结合句法依赖树获取词之间细粒度的句法信息,从而将多粒度特征信息引入到会话情感建模。然后,在星图增强的图学习模块中建模会话的背景情感信息和会话中不同说话者之间的交互信息,从而增强会话情感分析的准确性。实验结果表明,该文提出的模型与其他基线模型相比,其准确性以及度量指标F1值在所有数据集上均有显著提升。
  • 季浩然,林鸿飞,杨亮,徐博
    2024, 38(5): 146-154.
    摘要 (233) PDF (1622 KB) (236)
    抑郁症作为世界第四大疾病,严重影响着人们的生理和心理健康。随着互联网的发展,社交媒体的发布内容已经成为研究精神疾病的重要数据源,研究者开始应用自然语言处理技术自动检测抑郁倾向。现存算法无法充分捕捉到长文本中的关键信息,忽略了对用户情绪状态的时序性建模,进而造成抑郁倾向识别性能不佳。该文提出一种融合文本摘要和情绪感知的抑郁倾向识别模型,首先利用文本摘要算法抽取用户历史文本的全局语义特征,在压缩文本长度的同时保留了与用户真实意图强相关的内容;然后利用词汇增强算法计算句子级的细粒度情绪表示,并结合深度神经网络捕获了用户的情绪变化特征。实验结果表明,该文提出的模型取得了更佳的识别效果,在抑郁倾向识别数据集上将检测结果的正类F1值提升至75.61%。
  • 刘烨,刘仕鑫,曾雪强,左家莉
    2024, 38(4): 120-133.
    摘要 (361) PDF (5396 KB) (803)
    随着基于互联网的社交媒体兴起,Emoji由于具有以图形化方式快速准确地表达情绪的特点,目前已经成为用户在日常交流中广泛使用的图像文本。已有研究工作表明,在基于文本的情绪识别模型中考虑Emoji信息,对于提升模型性能具有重要的作用。目前,考虑Emoji信息的情绪识别模型大多采用词嵌入模型学习Emoji表示,得到的Emoji向量缺乏与目标情绪的直接关联,Emoji表示蕴含的情绪识别信息较少。针对上述问题,该文通过软标签为Emoji构建与目标情绪直接关联的情感分布向量,并将Emoji情感分布信息与基于预训练模型的文本语义信息相结合,提出融合Emoji情感分布的多标签情绪识别方法(Emoji Emotion Distribution Information Fusion for Multi-label Emotion Recognition, EIFER)。EIFER方法在经典的二元交叉熵损失函数的基础上,通过引入标签相关感知损失对情绪标签间存在的相关性进行建模,以提升模型的多标签情绪识别性能。EIFER方法的模型结构由语义信息模块、Emoji信息模块和多损失函数预测模块组成,采用端到端的方式对模型进行训练。在SemEval2018英文数据集上的情绪预测对比实验结果表明,该文提出的EIFER方法比已有的情绪识别方法具有更优的性能。
  • 尤佩雯,王晶晶,高晓雅,李寿山
    2024, 38(4): 134-142.
    摘要 (356) PDF (3036 KB) (509)
    针对语音情感分类任务面临的语音数据标注困难的挑战,该文提出了一种新的跨模态语音情感分类任务,其可以使用文本模态数据(源端)帮助语音模态数据(目标端)进行情感分类。在此基础上,提出了一种基于知识蒸馏的跨模态情感分类模型,旨在通过知识蒸馏方法将文本情感分类模型(教师模型)学习到的预训练先验知识蒸馏到语音情感分类模型(学生模型)中。该模型的特色在于无须在测试端依赖昂贵的语音识别技术,可对原始语音数据直接进行情感分类,有利于该模型在实际语音情感分类应用场景中大规模落地。实验结果表明,该文所提出的方法可以有效利用文本模态分类的经验来提升语音模态的分类效果。
  • 高准,但志平,董方敏,张岩珂,张洪志
    2024, 38(2): 142-154.
    摘要 (332) PDF (4890 KB) (471)
    当前谣言检测工作主要研究谣言传播的方向特性,而忽视了谣言传播的全局结构特性,导致不能充分挖掘谣言潜在的结构特征;此外,现有研究忽略了谣言原始传播结构中存在的不真实关系,从而限制了传播节点特征的学习。为此,该文提出一种多层次的动态传播注意力网络模型(Multi-level Dynamic Propagation Attention Networks,MDPAN)用于检测谣言。该模型通过节点级注意力学习谣言传播图中所有连接边的贡献度,动态地关注对识别谣言有用的传播关系,并基于图卷积网络分别提取谣言不同层次的传播特征、扩散特征以及全局结构特征,最后引入基于注意力机制的池化方法对这些多层次的特征进行有效融合。在公开的Twitter15、Twitter16和Weibo16数据集上的实验结果表明,该文所提出的模型对比主流基于传播结构的EBGCN模型,整体准确率分别提高了2.1%、0.7%和1.7%。
  • 程艳,胡建生,赵松华,罗品,邹海锋,富雁,刘春雷
    2024, 38(2): 155-168.
    摘要 (326) PDF (2065 KB) (232)
    方面词提取是方面级情感分析中的一个核心任务,随着社交网络的不断发展,越来越多的用户倾向于根据评论文本来做决策,并且对评论文本的细节越来越关注。因此,从海量的评论文本中准确提取方面词对于用户快速决策具有重要意义。由于标注语料极其耗时耗力,成本高,所以当前公开的方面词数据集相对较少,从而影响了神经网络模型的有效训练。为了缓解这一问题,有研究者使用了领域自适应策略,该策略通过使用方面词和意见词之间的共同句法关系来弥补不同领域之间的差距,但这高度依赖于外部语言资源。针对上述问题,该文使用无监督领域自适应的方法,通过从粗粒度方面类别任务的丰富资源源域学习到的知识,来提高细粒度方面词任务的低资源目标域的学习能力。为了缓解领域间粒度不一致和特征不匹配问题,该文提出了一种双记忆交互网络,该网络通过将每个单词的局部记忆与全局方面词和方面类别记忆进行交互,不断迭代获得每个单词的相关向量,进而得到方面词与方面类别之间的相互联系,以及方面词或方面类别本身之间的内部相关性。最后为了验证方法的有效性,该文方法在Laptop、Restaurant和Device数据集上分别进行了实验。实验结果表明,与多个基线模型相比,该文提出的方法性能更优。
  • 叶施仁,丁力,AliMDRinku
    2024, 38(1): 124-134.
    摘要 (289) PDF (10102 KB) (268)
    在细粒度情感分析和情绪分析数据集中,标签之间的相关性和标签分布的不均匀性非常突出。类别标签分布不均匀,标签之间存在相关性容易影响学习模型的性能。针对这一问题,该文受计算机视觉领域中的Circle loss 方法的启发,将梯度衰减、成对优化 、添加余量引入损失函数来优化深度学习模型的性能。该方法可以很好地与预训练模型相结合,不需要修改骨干网络。与当前最新的经典方法相比,该方法在SemEval18数据集上Jaccard系数、micro-F1、macro-F1分别提升了1.9%、2%、1.9%;在GoeEmotions数据集上Jaccard系数、micro-F1、macro-F1分别提升了2.6%、1.9%、3.6%。实验表明,该文提出的损失函数对情感分析和情绪分析问题具有显著的提升作用。
  • 徐瑞,曾诚,程世杰,张海丰,何鹏
    2024, 38(1): 135-145.
    摘要 (394) PDF (4621 KB) (220)
    预训练模型的快速发展使得情感分类任务得到了突破性进展,然而互联网提供的海量数据中存在着大量语义模糊、易混淆的文本,制约了当前多数模型的分类效果。针对易混淆文本对情感分类的负面影响,该文提出了一种基于双三元组网络的易混淆文本情感分类方法。该方法有效解决了传统三元组网络中同类文本特征之间仍存在明显差异的问题,改进了三元样本组合的构建方式,分别从易分类文本和普通文本中构建出两对三元样本组合,并以不同权重进行特征相似度比对,让模型深入挖掘易混淆文本和易分类文本的特征编码差异,充分学习同类别文本间的相似性和混淆类别文本间的差异性,提高了文本特征的聚类效果;同时,在训练过程中将本批次的易混淆文本加入到下一批次进一步训练,更有效地利用了易混淆文本的语义信息,以此提升模型整体的分类效果。在nlpcc2014、waimai_10k和ChnSentiCorp数据集上进行对比实验,实验结果表明,与现有的易混淆文本情感分类方法相比,该方法在准确度和F1值上具有更好的表现,其中F1值相较于基准模型提升了3.16%、2.35%和2.5%,验证了所提方法的有效性和合理性。
  • 张童越,张绍武,林鸿飞,徐博,杨亮
    2023, 37(11): 142-150.
    摘要 (229) PDF (1165 KB) (121)
    幽默在人类交流中扮演着重要角色,并大量存在于情景喜剧中。笑点(punchline)是情景喜剧实现幽默效果的形式之一,在情景喜剧笑点识别任务中,每条句子的标签代表该句是否为笑点,但是以往的笑点识别工作通常只通过建模上下文语义关系识别笑点,对标签的利用并不充分。为了充分利用标签序列中的信息,该文提出了一种结合条件随机场的单词级-句子级多任务学习方法,该方法在两方面进行了改进,首先将标签序列中相邻两个标签之间的转移关系看作幽默理论中不一致性的一种体现,并使用条件随机场学习这种转移关系。其次,由于通过相邻标签之间的转移关系以及上下文语义关系均能够学习到铺垫和笑点之间的不一致性,我们引入了多任务学习方法,让模型同时学习每条句子的句义、 组成每条句子的所有字符的词义、 单词级别的标签转移关系, 以及句子级别的标签转移关系,使模型能够结合两种关系信息提高笑点识别的性能。该文在CCL2020“小牛杯”幽默计算——情景喜剧笑点识别评测任务的英文数据集上进行实验,结果表明,该文提出的方法比同期最好的方法F1值上提高了3.2%,在情景喜剧幽默笑点识别任务上取得了最好的效果,并通过消融实验证明了上述两方面改进的有效性。