全文下载排行
  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
  • 最近1个月下载排行
  • 最近1年下载排行

Please wait a minute...
  • 全选
    |
  • 周学文,呼 和
    2014, 28(3): 123-128.
    摘要 (980) PDF (872 KB) (2006)
    该文重点介绍了一个实用的语音声学参数自动标注/提取软件系统。使用该系统能够极大地降低语音参数标注和采集的错误率,有效提高语音声学参数库研制效率,确保实验方法和实验数据的可重复性和可验证性,从而推动语音声学参数数据库研制和语音声学实验研究工作的规范化和标准化。
  • 熊丹,陆勤
    2019, 33(7): 136-142.
    摘要 (584) PDF (1497 KB) (1422)
    在ISO/IEC 10646国际编码标准中,香港使用的汉字载于H列。该文介绍了如何在ISO/IEC 10646国际编码标准下进一步完善香港电脑汉字的扩展机制及H列字符字源资料的编码方案。由于目前H列的很多字形并未完全反映香港的实际习惯写法,因此香港制定了一套适用于香港常用写法的电脑汉字参考字形,该文介绍了此套字形的原则。
  • 罗文,王厚峰
    2024, 38(1): 1-23.
    摘要 (528) PDF (2416 KB) (602)
    大语言模型(Large Language Models,LLMs)在多种自然语言处理(Natural Language Processing,NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。
  • 岳增营,叶霞,刘睿珩
    2021, 35(9): 15-29.
    摘要 (1158) PDF (1771 KB) (5708)
    预训练技术当前在自然语言处理领域占有举足轻重的位置。尤其近两年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等预训练模型的成功,进一步将预训练技术推向了研究高潮。该文从语言模型、特征抽取器、上下文表征、词表征四个方面对现存的主要预训练技术进行了分析和分类,并分析了当前自然语言处理中的预训练技术面临的主要问题和发展趋势。
  • 刘勘,张雅荃
    2020, 34(10): 85-93,104.
    摘要 (687) PDF (9599 KB) (1877)
    为了实现文本描述中的快速并发症的准确预判,该文结合知识图谱、表示学习、深度神经网络等方法构建了一个并发症辅助诊断模型。该模型首先构建医疗领域的知识图谱,并通过知识表示模型对医疗领域知识进行编码,结合患者主诉文本获取患者症状实体的表示向量,再将患者主诉表示向量和指标表示向量通过CNN-DNN网络对并发症进行辅助诊断。实验选取了糖尿病的3种并发症: 高血压、糖尿病肾病和糖尿病视网膜病变作为测试。该文模型的准确率对比支持向量机、随机森林和单独的深度神经网络在高血压、糖尿病肾病和糖尿病视网膜病变上分别提高了5%、5%、14%和27%、6%、9%,说明该文模型能够充分融合医疗知识图谱和深度学习技术,对提高并发症的诊断起到积极作用。
  • 吴友政,李浩然,姚霆,何晓冬
    2022, 36(5): 1-20.
    摘要 (2909) PDF (4551 KB) (5316)
    随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。
  • 林旺群,汪淼,王伟,王重楠,金松昌
    2020, 34(12): 9-16.
    摘要 (2225) PDF (1920 KB) (5467)
    知识图谱以语义网络的形式将客观世界中概念、实体及其之间的关系进行结构化描述,提高了人类从数据中抽取信息、从信息中提炼知识的能力。该文形式化地描述了知识图谱的基本概念,提出了知识图谱的层次化体系架构,详细分析了信息抽取、知识融合、知识架构、知识管理等核心层次的技术发展现状,系统梳理了知识图谱在军事领域的应用,并对知识图谱未来发展的挑战和趋势进行了总结展望。
  • 魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁
    2020, 34(7): 19-29.
    摘要 (3477) PDF (981 KB) (6588)
    近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。
  • 邓依依,邬昌兴,魏永丰,万仲保,黄兆华
    2021, 35(9): 30-45.
    摘要 (1309) PDF (2271 KB) (2964)
    命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。
  • 孙毅,裘杭萍,郑雨,张超然,郝超
    2021, 35(7): 10-29.
    摘要 (1111) PDF (5578 KB) (3073)
    将知识引入到依靠数据驱动的人工智能模型中是实现人机混合智能的一种重要途径。当前以BERT为代表的预训练模型在自然语言处理领域取得了显著的成功,但是由于预训练模型大多是在大规模非结构化的语料数据上训练出来的,因此可以通过引入外部知识在一定程度上弥补其在确定性和可解释性上的缺陷。该文针对预训练词嵌入和预训练上下文编码器两个预训练模型的发展阶段,分析了它们的特点和缺陷,阐述了知识增强的相关概念,提出了预训练词嵌入知识增强的分类方法,将其分为四类:词嵌入改造、层次化编解码过程、优化注意力和引入知识记忆。将预训练上下文编码器的知识增强方法分为任务特定和任务通用两大类,并根据引入知识的显隐性对其中任务通用的知识增强方法进行了进一步的细分。该文通过分析预训练模型知识增强方法的类型和特点,为实现人机混合的人工智能提供了模式和算法上的参考依据。
  • 姚源林,王树伟,徐睿峰,刘 滨,桂 林,陆 勤,王晓龙
    2014, 28(5): 83-91.
    摘要 (1888) PDF (1028 KB) (4948)
    文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设计了一套完整的情绪标注规范。遵循这一规范,首先对微博文本进行了微博级情绪标注,对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后,对微博中的句子进行有无情绪及情绪类别进行标注,并标注了各情绪类别对应的强度。目前,已完成14000条微博,45431句子的情绪标注语料库构建。应用该语料库组织了NLP&CC2013中文微博情绪分析评测,有力地促进了微博情绪分析相关研究。
  • 吴泊心,仲国强,马龙龙
    2023, 37(12): 1-16.
    摘要 (365) PDF (9374 KB) (519)
    视觉文档赋予文本丰富的多模态特征,如视觉特征、文本特征和布局特征等。视觉文档信息抽取旨在利用视觉文档的多模态特征更好地从文档内容中提取结构化的关键信息,已逐渐成为自然语言处理和计算机视觉技术的重要交叉领域,在商业、医疗、教育等行业应用广泛。随着深度学习技术的发展与突破,近期视觉文档信息抽取发展迅速,研究方法大致可分为两类,一类是基于有监督学习的方法,包括基于图的方法、基于网格的方法、端到端方法;另一类是基于自监督预训练和有监督微调的方法,逐渐成为主流的研究方向。该文概述了基于有监督学习的三类方法,基于自监督预训练和有监督微调方法的四个方面以及一些常用的公开数据集,最后总结并展望了未来可能的研究方向。
  • 李国臣,罗云飞
    2005, 19(4): 25-31.
    摘要 (552) PDF (238 KB) (1493)
    指代是自然语言中常见的语言现象,指代消解是文本信息处理中的一个重要任务。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性。本文针对中文人称代词的指代特点,提出了一种基于语料库的,运用决策树机器学习算法并结合优先选择策略,进行指代消解的方法。该方法充分考虑了与指代相关的若干属性,及相互之间的影响。实验表明,对中文人称代词的消解特别是第三人称的消解获得了一定的效果。
  • 刘鹏,叶帅,舒雅,鹿晓龙,刘明明
    2020, 34(11): 49-59.
    摘要 (782) PDF (5409 KB) (2991)
    煤矿企业正从信息化建设向智能化迈进,以大数据、人工智能为代表的网络新技术已促进了矿山领域的智能化发展。但是由于煤矿领域数据信息的繁杂性,难以对其进行统一而高效地收集、信息挖掘,进而促进深一步的特定领域研究和应用。将知识图谱技术初步引入煤矿安全领域,对相关知识概念分类建模,并基于图数据库存储,用实体关系图的方式直观地描述各类概念及概念之间的关系,然后基于初步构建的知识图谱,提出了一种自然语言知识查询方法。实验证明,该文提出的方法具有较高的查全率和查准率,基于Spark的并行朴素贝叶斯问题分类方法可以在保证准确率的同时,显著提升训练效率。该文工作为煤矿安全知识图谱构建及智能查询做了初步有益探索。
  • 甘子发,昝红英,关同峰,李雯昕,张欢,朱田恬,穗志方,陈清财
    2022, 36(6): 101-108.
    摘要 (765) PDF (1487 KB) (1352)
    第六届中国健康信息处理会议(China conference on Health Information Processing,CHIP 2020)组织了中文医疗信息处理方面的6个评测任务,其中任务2为中文医学文本实体关系抽取任务,该任务的主要目标为自动抽取中文医学文本中的实体关系三元组。共有174支队伍参加了评测任务,最终17支队伍提交了42组结果,该任务以微平均F1值为最终评估标准,提交结果中F1最高值达0.648 6。
  • 安震威,来雨轩,冯岩松
    2022, 36(8): 1-11.
    摘要 (1193) PDF (1334 KB) (1463)
    法律人工智能因其高效、便捷的特点,近年来受到社会各界的广泛关注。法律文书是法律在社会生活中最常见的表现形式,应用自然语言理解方法智能地处理法律文书内容是一个重要的研究和应用方向。该文梳理与总结面向法律文书的自然语言理解技术,首先介绍了五类面向法律文书的自然语言理解任务形式: 法律文书信息提取、类案检索、司法问答、法律文书摘要和判决预测。然后,该文探讨了运用现有自然语言理解技术应对法律文书理解的主要挑战,指出需要解决好法律文书与日常生活语言之间的表述差异性、建模好法律文书中特有的推理与论辩结构,并且需要将法条、推理模式等法律知识融入自然语言理解模型。
  • 杨帆,饶元,丁毅,贺王卜,丁紫凡
    2021, 35(10): 1-20.
    摘要 (1122) PDF (8637 KB) (1790)
    基于人工智能技术的人机对话系统在人机交互、智能助手、智能客服、问答咨询等多个领域应用日益广泛,这极大地促进了自然语言理解及生成、对话状态追踪和端到端的深度学习模型构建等相关理论与技术的发展,并成为目前工业界与学术界共同关注的研究热点之一。该文聚焦特定场景下的任务型对话系统,在对其基本概念进行形式化定义的基础上,围绕着以最少的对话轮次来获得最佳用户需求相匹配的对话内容为目标,针对目前存在的复杂业务场景下基于自然语言的用户意图的准确理解和识别、针对训练数据的标注依赖及模型结果的可解释性不足,以及多模态条件下对话内容的个性化生成这三个重大的技术问题和挑战,对当前的技术与研究进展进行系统地对比分析和综述,为进一步的研究工作奠定基础。同时,对新一代的面向任务型的人机对话系统未来的关键研究方向与任务进行总结。
  • 杜小虎,吴宏明,易子博,李莎莎,马俊,余杰
    2021, 35(8): 1-15.
    摘要 (1493) PDF (1255 KB) (2676)
    对抗样本攻击与防御是最近几年兴起的一个研究热点,攻击者通过微小的修改生成对抗样本来使深度神经网络预测出错。生成的对抗样本可以揭示神经网络的脆弱性,并可以修复这些脆弱的神经网络以提高模型的安全性和鲁棒性。对抗样本的攻击对象可以分为图像和文本两种,大部分研究方法和成果都针对图像领域,由于文本与图像本质上的不同,在攻击和防御方法上存在很多差异。该文对目前主流的文本对抗样本攻击与防御方法做出了较为详尽的介绍,同时说明了数据集、主流攻击的目标神经网络,并比较了不同攻击方法的区别。最后总结文本对抗样本领域面临的挑战,并对未来的研究进行展望。
  • 张亚伟,吴良庆,王晶晶,李寿山
    2022, 36(5): 145-152.
    摘要 (940) PDF (2574 KB) (1771)
    情绪分析一直是自然语言处理领域的研究热点,而多模态情绪分析是当前该领域的一个挑战。已有研究在上下文信息和不同模态时间序列信息交互方面存在不足,该文提出了一个新颖的多层LSTM融合模型(Multi-LSTMs Fusion Model,MLFN),通过分层LSTM分别设置单模态模内特征提取层、双模态和三模态模间融合层进行文本、语音和图像三个模态之间的深度融合,在考虑模态内部信息特征的同时深度捕获模态之间的交互信息。实验结果表明,基于多层LSTM多模态融合网路能够较好地融合多模态信息,大幅度提升多模态情绪识别的准确率。
  • 方正云,杨政,李丽敏,李天骄
    2022, 36(7): 123-131.
    摘要 (472) PDF (2792 KB) (909)
    科研项目文本的分类往往需要耗费巨大的人力、物力,因此采用智能方法实现对项目文本分类意义重大。文本分类方法的核心在于文本语义特征的提取,高效的特征提取方法有助于准确构建文本到类别之间的映射。已有的文本分类方法往往基于整个文本或者一部分文本作为分类依据,可能出现信息的冗余或缺失。该文针对结构化的项目文本,在BERT等预训练网络的基础上,创新性地提出基于单交叉注意力机制的两视图项目文本分类学习方法(Two-View Cross Attention, TVCA)和基于双交叉注意力机制的多视图项目文本分类学习方法(Multi-View Cross Attention, MVCA)。MVCA方法基于项目文本的一个主要视图(项目摘要)和两个辅助视图(研究内容、目的和意义),通过两个交叉注意力机制提取包含更丰富语义信息的特征向量,进一步改善分类模型的性能。我们将TVCA和MVCA方法应用于英文论文数据Web of Science Meta-data和南方电网科技项目文本的分类任务中,实验结果验证了TVCA和MVCA方法无论从分类效果还是收敛速度上,都明显优于已有的比较方法。
  • 吴连伟,饶元,樊笑冰,杨浩
    2018, 32(2): 1-11,21.
    摘要 (883) PDF (3547 KB) (2615)
    网络中存在着大量的谣言、偏激和虚假信息,这对网络信息的质量、可信度以及舆情的产生与发展趋势具有严重的负面影响。为实现信息可信度的准确判断与高效度量,该文在大量已有最新研究成果与文献的基础上,将不可信信息分为极端突发事件信息、网络偏激信息、网络谣言、虚假信息、误报信息和垃圾信息等类型,并分别针对这些类型信息从分类定义、内容特征描述、可信度建模以及可信度评测等四个方面进行研究综述,从而为网络传播中信息内容的可信度分析与度量研究奠定坚实基础。最后,进一步对信息可信度研究的发展方向进行展望。
  • 陆恒杨,范晨悠,吴小俊
    2022, 36(1): 135-144,172.
    摘要 (964) PDF (2641 KB) (1333)
    在社交媒体上发布和传播有关新冠的谣言对民生、经济、社会等都产生了严重影响,因此通过机器学习和人工智能技术开展新冠谣言检测具有重要的研究价值和社会意义。现有谣言检测研究,一般假定进行建模和预测的事件已有充足的有标签数据,但对于新冠这类突发事件,由于可训练样本较少,所以此类模型存在局限性。该文聚焦少样本谣言检测问题,旨在使用极少的有标签样例训练可检测突发事件的谣言检测模型。该文以新浪微博的新冠谣言为研究对象,构建适用于少样本谣言检测的新浪微博新冠谣言数据集,提出基于元学习的深度神经网络少样本谣言检测模型。在少样本机器学习场景下,该模型在新冠谣言数据集、PHEME公共数据集上的实验结果均有显著的性能提升。
  • 徐军,丁宇新,王晓龙
    2007, 21(6): 95-100.
    摘要 (1423) PDF (340 KB) (8916)
    本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。
  • 丁泽源,杨志豪,罗凌,王磊,张音,林鸿飞,王健
    2021, 35(5): 70-76.
    摘要 (872) PDF (2245 KB) (2109)
    在生物医学文本挖掘领域, 生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺, 这给中文生物医学领域的信息抽取任务带来许多挑战。 该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料, 结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络 (Bi-directional LSTM, BiLSTM) 模型上加入了基于生物医学文本训练的中文 ELMo (Embedding from Language Model) 完成中文实体识别。最后使用结合注意力(Attention) 机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。
  • 冯洋,邵晨泽
    2020, 34(7): 1-18.
    摘要 (4153) PDF (6554 KB) (6952)
    机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。神经机器翻译仅需使用神经网络就能实现从源语言到目标语言的端到端翻译,目前已成为机器翻译研究的主流方向。该文选取了近期神经机器翻译的几个主要研究领域,包括同声传译、多模态机器翻译、非自回归模型、篇章翻译、领域自适应、多语言翻译和模型训练,并对这些领域的前沿研究进展做简要介绍。
  • 徐琳宏,林鸿飞,赵晶
    2008, 22(1): 116-122.
    摘要 (1299) PDF (1096 KB) (4043)
    本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。
  • 白璐,周子雅,李斌阳,刘宇涵,邵之宣,吴华瑞
    2021, 35(4): 66-74,82.
    摘要 (920) PDF (5967 KB) (1576)
    事理图谱是一种描述事件之间顺承、因果等关系的事理演化逻辑有向图,它蕴含了丰富的事件间关系,在各领域都具有重要的研究意义和应用价值。当前研究主要集中于公开域的事件抽取上,而在特定领域,如政治领域,因其事件类型和事件内容较为复杂,相关研究十分有限。该文旨在构建面向政治领域的事理图谱,针对政治事件抽取中存在的语料匮乏、标准缺失等问题,制定了一套面向政治领域的事件分类标准,构建了一套政治领域的事件语料库。同时,该文分别提出了一种融合注意力机制的字嵌入修正神经网络的Pipeline模型和一种基于BERT+BiLSTM的Joint模型进行事件触发词和论元抽取,并在该语料库上进行实验。实验结果表明,两种模型在事件触发词与论元抽取任务中,F1指标较基线模型均有较大提升。
  • 曹碧薇,曹玖新,桂杰,陶蕊,管鑫,高庆清
    2023, 37(5): 88-100.
    摘要 (349) PDF (10093 KB) (387)
    实体关系抽取作为信息抽取领域内的重要研究方向,其目的是把无结构或半结构的自然语言文本中所蕴含的实体之间的语义关系抽取成结构化的关系三元组。人物关系抽取是实体关系抽取的细粒度分支,以往的实体关系抽取研究多针对来自新闻或百科的英文短句语料,对于中文文学作品的人物关系抽取的研究刚刚起步。该文针对中长篇中文文学作品的特点,首先引入对抗性学习框架来训练句子级的噪声分类器以降低数据集中人物关系数据噪声,并在此基础上构建了人物关系的分类模型MF-CRC。分类模型首先基于预训练模型BERT抽取文本内容的基本语义特征,并采用BiLSTM模型进行深层语义特征的获取,然后根据中文用语习惯抽取了中文人物姓氏、性别与关系指示特征并进行嵌入表示,最后基于多维特征融合完成了人物关系分类模型的训练。该文选用名著《平凡的世界》《人生》和《白鹿原》为研究对象,首次构建了三个通用的面向中文文学作品的人物关系标签数据集,并在这些数据集上进行对比实验及消融实验。结果表明,该文MF-CFC模型效果高于其他对比模型,分别在Micro-F1和Macro-F1指标上比SOTA模型高出1.92%和2.14%,验证了该方法的有效性。
  • 王炳乾,宿绍勋,梁天新
    2021, 35(7): 81-88.
    摘要 (1274) PDF (2182 KB) (1654)
    事件抽取(event extraction, EE)是指从自然语言文本中抽取事件并识别事件类型和事件元素的技术,是智能风控、智能投研、舆情监测等人工智能应用的重要技术基础。该文提出一种端到端的多标签指针网络事件抽取方法,并将事件检测任务融入到事件元素识别任务中,达到同时抽取事件元素及事件类型的目的。该方法避免了传统管道式方法存在的错误级联和任务割裂问题,同时也解决了事件抽取中存在的角色重叠和元素重叠问题。该文提出的事件抽取方法在2020语言与智能技术竞赛——事件抽取任务测试集上中取得85.9%的F1值。
  • 洪宇,张宇,刘挺,李生
    2007, 21(6): 71-87.
    摘要 (1780) PDF (761 KB) (6049)
    话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。
  • 朱宇雷,德吉卡卓,群诺,尼玛扎西
    2023, 37(2): 71-79.
    摘要 (333) PDF (2095 KB) (331)
    针对藏文情感分析研究中,由于藏文构字规则以及数据集不统一导致深度学习模型效果欠佳的问题,该文提出了一种结合图神经网络以及预训练模型的藏文情感分析模型,应用于藏文短文本。首先,采用Albert预训练模型对藏文文本进行词向量构建;其次,为对应句中标注出的藏文情感词构建表征,并且通过构建后的词向量与情感词表征进行融合;最后,将融合后的表征进行图数据构建并输入到图神经网络模型中,得到最终的分类效果。实验结果表明,该文提出的藏文情感分类模型准确率达到98.60%,优于其他基线模型。数据集公开网址为: https://github.com/TU-NLP/TU_SA/。
  • 吴云芳,张仰森
    2021, 35(7): 1-9.
    摘要 (1056) PDF (1053 KB) (1817)
    问题生成是给定文本,自动生成内容通顺、语义相关的自然语言问题。问题生成可应用于教育领域的阅读理解、辅助问答系统和对话系统,因此近年来引起了研究者的广泛关注和兴趣。该文对问题生成的相关研究进行了综述。首先阐释了问题生成的研究意义与应用场景,继而简略概述了基于规则的问题生成方法,然后从输入文本是句子/段落、有/无答案信息等不同角度全面阐述了基于神经网络的问题生成模型。该文还介绍了问题生成的评价方法,分析讨论了现有工作的不足,并展望了未来可能的研究方向。
  • 冯鸾鸾,李军辉,李培峰,朱巧明
    2020, 34(8): 41-50.
    摘要 (865) PDF (1200 KB) (3377)
    互联网存在海量的文献和科技信息,隐含着大量高价值情报。识别国防科技领域中的技术和术语可以为构建国防科技知识图谱奠定基础。该文基于此领域的海量军事文本,以维基百科中军事领域的新技术为基点采集语料,涵盖了新闻、文献和维基百科三种体裁。在分析军事技术文本特点的基础上制定了一系列标注规范,开展了大规模语料的标注工作,构建了一个面向国防科技领域的技术和术语语料库。该语料库共标注了479篇文章,包含24 487个句子和33 756个技术和术语。同时,该文探讨了模型预标注策略的可行性,并对技术和术语类别在不同体裁上的分布以及语料标注的一致性进行了统计分析。基于该语料库的实验表明,技术和术语识别性能F1值达到70.40%,为进一步的技术和术语识别研究提供了基础。
  • 刘俊楠,刘海砚,陈晓慧,郭漩,朱新铭
    2020, 34(11): 29-36.
    摘要 (1066) PDF (2887 KB) (2841)
    随着3S技术迅猛发展,地理空间数据呈现出爆发式增长趋势,基于地理空间数据构建知识图谱,实现数据到空间知识的转换成为亟待解决的科学问题。针对通用知识图谱仅以属性和语义关系表示空间知识,以及空间关系相对缺失等问题,该文首先描述了空间关系的表示方法;其次,提出了基于空间关系的知识图谱构建技术流程,重点研究空间关系抽取和表示以及多源地理空间数据融合的问题,实现了地理知识图谱构建;最后,论述知识图谱在地理空间领域的应用方向。该研究可以促进地理空间数据和语义网技术的整合,实现网络文本空间化、空间数据语义化,进一步提高智能化服务水平。
  • 樊小超,杨亮,林鸿飞,刁宇峰,申晨,楚永贺,张桐瑄
    2021, 35(8): 38-46.
    摘要 (540) PDF (1140 KB) (1547)
    幽默是人类独有的品质,在日常交际中发挥着重要作用。随着人工智能的快速发展,如何让计算机识别幽默成了自然语言处理研究领域的热门研究内容之一。该文针对幽默的自动识别问题,基于幽默理论和领域知识,系统地分析总结了幽默的五类显著特性,包括不一致特性、模糊特性、情感特性、语音特性和句法结构特性,并针对每一类特性构建了多种幽默特征。实验结果表明,该文所提出的幽默特征能够从多个角度对幽默的潜在语义表达进行良好的表征,在两个俏皮话类型的幽默数据集上的实验性能均有显著提升。
  • 程勇,徐德宽,董军
    2020, 34(4): 101-110.
    摘要 (898) PDF (2391 KB) (2771)
    文本阅读难度自动分级是让计算机能够根据文本特征自动判断文本所属的难度级别,该文以此为目标,提出一种基于多元语言特征与深度特征相融合的方法来实现对文本难度的自动分级。其中多元语言特征考虑了汉字、词汇、句子等不同的语言层面,同时涉及到频率、长度、复杂度、丰富度、连贯度等不同维度的信息。另一方面,该文利用了基于BERT的神经网络预训练模型来提取文本中句子的深度特征,在此基础上构建了一个端到端神经网络来将语言特征与深度特征进行融合,最终在自动分级任务上取得了不错的效果,分级正确率超过了基于传统语言特征的方法和基于主流神经网络的方法,充分表明了所提出的特征融合方法在文本阅读难度自动分级任务上的有效性。
  • 魏思,巩捷甫,王士进,宋巍,宋子尧
    2022, 36(4): 111-123.
    摘要 (658) PDF (3920 KB) (1308)
    利用自然语言处理技术对作文进行自动评阅是有重要意义和挑战的研究课题,引起了人工智能领域与教育领域学者的共同关注。该文聚焦于语文作文自动评分任务,提出通过深层语言分析,包括应用高性能别字、语法纠错器分析语言运用能力,采用自动修辞分析、优秀表达识别等手段反映语言表达能力,以及通过细粒度篇章质量分析评估篇章整体质量,来构建有效特征。该文同时提出了结合语言分析特征与深度神经网络编码的自适应混合评分模型。在真实语文作文数据上的实验表明,融入深层语言分析特征可有效提高作文评分效果;年级与主题自适应的模型训练策略,可提高模型的迁移能力和预测效果。消融实验进一步分析和解释了不同类型特征对评分效果的贡献。
  • 李云汉,施运梅,李宁,田英爱
    2022, 36(9): 1-18,27.
    摘要 (925) PDF (1995 KB) (1423)
    文本校对在新闻发布、书刊出版、语音输入、汉字识别等领域有着极其重要的应用价值,是自然语言处理领域中的一个重要研究方向。该文对中文文本自动校对技术进行了系统性的梳理,将中文文本的错误类型分为拼写错误、语法错误和语义错误,并对这三类错误的校对方法进行了梳理,对中文文本自动校对的数据集和评价方法进行了总结,最后展望了中文文本自动校对技术的未来发展。
  • 安波,龙从军
    2022, 36(12): 85-93.
    摘要 (582) PDF (1390 KB) (961)
    藏文文本分类是藏文自然语言处理中的基础任务,具有基础性和重要性。大规模预训练模型加微调的方式是当前的主流文本分类方法。然而藏文缺少开源的大规模文本和预训练语言模型,未能在藏文文本分类任务上进行验证。针对上述问题,该文抓取了一个较大规模的藏文文本数据集,并在该数据集的基础上训练一个藏文预训练语言模型(BERT-base-Tibetan)。将该方法应用到多种基于神经网络的文本分类模型上的实验结果表明,预训练语言模型能够显著提升藏文文本分类的性能(F1值平均提升9.3%),验证了预训练语言模型在藏文文本分类任务中的价值。
  • 鲍琛龙,吕明阳,唐晋韬,李莎莎,王挺
    2023, 37(7): 1-12.
    摘要 (770) PDF (2117 KB) (940)
    近年来,提示学习方法由于可以充分激发预训练语言模型的潜能而得到了研究者越来越多的关注,特别是在知识抽取任务中取得了较好进展。为了提升提示学习性能,研究者也开展了基于知识的提示学习模板工程、答案工程优化等多项研究。该文对提示学习与知识相结合的相关研究进行了系统综述,包括知识抽取中的提示学习方法以及基于知识约束的提示学习相关进展。在此基础上,该文还探讨了目前方法存在的局限性,展望了提示学习与知识相结合的发展趋势。