中文信息学报

Select

张坤丽,任晓辉,庄雷,昝红英,张维聪,穗志方

2022, 36(10): 45-53.

摘要 (725) PDF (1948 KB) (1026)

分类体系完善、药品信息全面的药品知识库能够为临床决策以及临床合理用药提供依据和支持。该文以国内的多个医药资源作为参考和数据来源,建立了药品库知识描述体系和分类体系,对药品进行标准化分类并形成详细的知识描述,构建了多来源的中文药品知识库(Chinese Medicine Knowledge Base,CMKB)。所构建的CMKB的分类包括27种一级类别和119种二级类别,从药品的适应证、用法用量等多个层面对14 141种药品进行描述并采用BiLSTM-CRF和T-BiLSTM-CRF模型将非结构化描述中的疾病实体进行了信息抽取,形成了对药品属性的结构化信息抽取,建立了药品实体与自动抽取的疾病实体之间的知识关联。所构建的CMKB能够与中文医学知识图谱进行连接,扩充药品信息,并能够为智能诊断和医疗问答等提供知识基础。

Select

基于语言模型的预训练技术研究综述

岳增营,叶霞,刘睿珩

2021, 35(9): 15-29.

摘要 (1354) PDF (1771 KB) (7013)

预训练技术当前在自然语言处理领域占有举足轻重的位置。尤其近两年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等预训练模型的成功,进一步将预训练技术推向了研究高潮。该文从语言模型、特征抽取器、上下文表征、词表征四个方面对现存的主要预训练技术进行了分析和分类,并分析了当前自然语言处理中的预训练技术面临的主要问题和发展趋势。

Select

多模态信息处理前沿综述:应用、融合和预训练

吴友政,李浩然,姚霆,何晓冬

2022, 36(5): 1-20.

摘要 (3348) PDF (4551 KB) (6222)

随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。

Select

汉语中介语的依存句法标注规范及标注实践

肖丹,杨尔弘,张明慧,陆天荧,杨麟儿

2020, 34(11): 19-28,36.

摘要 (737) PDF (11765 KB) (1664)

汉语中介语是伴随着汉语国际教育产生的,随着汉语学习在全球的不断开展,汉语中介语的规模不断增长,由于这些语料在语言使用上有其独特性,使得中介语成为语言信息处理和智能语言辅助学习的独特资源。依存语法分析是语言信息处理的重要步骤,英语中介语的依存语法标注语料已经有很好的应用,目前汉语中介语语料库对句法的关注度较低,缺乏一个充分考虑汉语中介语特点的依存句法标注规范。该文着眼于汉语中介语的依存句法标注语料库的建构,探讨依存标注规范,在充分借鉴国际通用依存标注体系(Universal Dependencies)的基础上,制定了汉语中介语的依存标注规范,并进行了标注实践,形成了一个包括汉语教学语法点的中介语依存语料库。

Select

从视觉到文本: 图像描述生成的研究进展综述

魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁

2020, 34(7): 19-29.

摘要 (3910) PDF (981 KB) (7207)

近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。

Select

知识图谱研究现状及军事应用

林旺群,汪淼,王伟,王重楠,金松昌

2020, 34(12): 9-16.

摘要 (2436) PDF (1920 KB) (6113)

知识图谱以语义网络的形式将客观世界中概念、实体及其之间的关系进行结构化描述,提高了人类从数据中抽取信息、从信息中提炼知识的能力。该文形式化地描述了知识图谱的基本概念,提出了知识图谱的层次化体系架构,详细分析了信息抽取、知识融合、知识架构、知识管理等核心层次的技术发展现状,系统梳理了知识图谱在军事领域的应用,并对知识图谱未来发展的挑战和趋势进行了总结展望。

Select

神经机器翻译前沿综述

冯洋,邵晨泽

2020, 34(7): 1-18.

摘要 (4368) PDF (6554 KB) (7355)

机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。神经机器翻译仅需使用神经网络就能实现从源语言到目标语言的端到端翻译,目前已成为机器翻译研究的主流方向。该文选取了近期神经机器翻译的几个主要研究领域,包括同声传译、多模态机器翻译、非自回归模型、篇章翻译、领域自适应、多语言翻译和模型训练,并对这些领域的前沿研究进展做简要介绍。

Select

面向微博文本的情绪标注语料库构建

姚源林,王树伟,徐睿峰,刘滨,桂林,陆勤,王晓龙

2014, 28(5): 83-91.

摘要 (2009) PDF (1028 KB) (5437)

文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设计了一套完整的情绪标注规范。遵循这一规范,首先对微博文本进行了微博级情绪标注,对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后,对微博中的句子进行有无情绪及情绪类别进行标注,并标注了各情绪类别对应的强度。目前,已完成14000条微博,45431句子的情绪标注语料库构建。应用该语料库组织了NLP&CC2013中文微博情绪分析评测,有力地促进了微博情绪分析相关研究。

Select

表格问答研究综述

张洪廙,李韧,杨建喜,杨小霞,肖桥,蒋仕新,王笛

2024, 38(4): 1-16.

摘要 (304) PDF (3839 KB) (468)

表格问答通过自然语言问句直接与表格数据进行交互并得到答案,是智能问答的主要形式之一。近年来,研究人员利用以语义解析为主的技术在该领域开展了深入研究。该文从不同表格类型分类及其问答任务问题定义出发,将表格问答细分为单表单轮、多表单轮、多表多轮式问答三种任务,并系统介绍了各类表格问答任务的数据集及其代表性方法。其次,该文总结了当前主流表格预训练模型的数据构造、输入编码以及预训练目标。最后,探讨当前工作的优势与不足,并分析了未来表格问答的前景与挑战。

Select

基于深度学习的命名实体识别综述

邓依依,邬昌兴,魏永丰,万仲保,黄兆华

2021, 35(9): 30-45.

摘要 (1521) PDF (2271 KB) (3400)

命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。

Select

大语言模型评测综述

罗文,王厚峰

2024, 38(1): 1-23.

摘要 (1034) PDF (2416 KB) (1013)

大语言模型(Large Language Models,LLMs)在多种自然语言处理(Natural Language Processing,NLP)任务中展现出了卓越性能,并为实现通用语言智能提供了可能。然而随着其应用范围的扩大,如何准确、全面地评估大语言模型已经成为了一个亟待解决的问题。现有评测基准和方法仍存在许多不足,如评测任务不合理和评测结果不可解释等。同时,随着模型鲁棒性和公平性等其它能力或属性的关注度提升,对更全面、更具解释性的评估方法的需求日益凸显。该文深入分析了大语言模型评测的现状和挑战,总结了现有评测范式,分析了现有评测的不足,介绍了大语言模型相关的评测指标和评测方法,并探讨了大语言模型评测的一些新方向。

Select

关键词提取算法研究综述

崔洪振,张龙豪,彭云峰,邬雯

2024, 38(2): 1-14,24.

摘要 (383) PDF (2881 KB) (558)

关键词在医疗、教育、金融、农业及工业制造等领域得到快速发展与广泛应用,得益于其表征海量文本信息的主旨和核心内容。关键词提取成为开启领域研究的必要前置条件,是自然语言处理、知识图谱、系统对话等的关键基础研究热点问题。关键词提取技术和算法成为快速准确获取有效文本信息的关键所在,因而广大研究者对该领域进行了积极探索和应用。该文从现有关键词提取算法的主流流程出发,分析关键词提取过程;结合深度学习和传统机器学习在关键词提取中的应用特点,梳理并详细描述了现有关键词提取方法的计算特征及应用案例;针对提取流程,结合提取特征、典型文献、模型算法、方法描述等,分别分析了有监督提取、无监督提取和半监督提取方法的研究进程、算法机制、优势、局限性及应用场景;通过关键词提取的不同方法和案例给出关键词提取得分解析和评价策略;展望了关键词提取的半监督方法应用前景,以及在特征融合、领域知识及图谱构建中的研究方向和可能面临的挑战。

Select

非关系型表格理解前沿进展

罗平,杨清平,曹逸轩,曹荣禹,何清

2024, 38(5): 1-21.

摘要 (124) PDF (4587 KB) (105)

表格理解是指通过计算机对广泛存在于互联网、垂直领域的表格进行自动识别、解析和应用的过程。表格可大致分为关系型表格和非关系型表格。前者类似关系数据库表格,具有结构固定、机器易解析等特点,其研究历史由来已久。后者通常布局多变,语法灵活,具有更明显的语言特性,这也导致计算机在解析和应用非关系型表格时面临着极大挑战。非关系型表格理解是自然语言和计算机视觉多模态交叉的重要新兴领域之一。随着近年来深度学习技术的普及应用,非关系型表格在表格识别、语义分析、创新应用几个方向得到了长足发展。该文介绍了非关系型表格的结构特点,阐述了其在研究过程中面临的独特挑战,然后从表格识别、语义分析、创新应用三个研究方向简要介绍了近年来此领域的发展,归纳了相关数据集,最后总结了目前非关系型表格理解领域亟需解决的问题,展望了未来研究方向。

Select

立场分析研究综述

刘玮,彭鑫,李超,王品,王丽宏

2020, 34(12): 1-8.

摘要 (1162) PDF (1084 KB) (2481)

随着以微博、Twitter为代表的社交媒体的快速发展,越来越多的用户喜欢在网上浏览热点信息,并发表自己的观点。立场分析旨在挖掘用户对特定目标或主题(例如,事件、产品、政策、人物或者服务等)的支持、反对或者中立的态度,该研究对舆情监管、信息推荐等具有重要意义。该文对立场分析研究开展综述,从立场分析定义,基于机器学习、深度学习及迁移学习的立场分析方法,使用的数据集三方面分别进行概述,并对未来的研究方向进行展望。

Select

煤矿安全知识图谱构建及智能查询方法研究

刘鹏,叶帅,舒雅,鹿晓龙,刘明明

2020, 34(11): 49-59.

摘要 (892) PDF (5409 KB) (3287)

煤矿企业正从信息化建设向智能化迈进,以大数据、人工智能为代表的网络新技术已促进了矿山领域的智能化发展。但是由于煤矿领域数据信息的繁杂性,难以对其进行统一而高效地收集、信息挖掘,进而促进深一步的特定领域研究和应用。将知识图谱技术初步引入煤矿安全领域,对相关知识概念分类建模,并基于图数据库存储,用实体关系图的方式直观地描述各类概念及概念之间的关系,然后基于初步构建的知识图谱,提出了一种自然语言知识查询方法。实验证明,该文提出的方法具有较高的查全率和查准率,基于Spark的并行朴素贝叶斯问题分类方法可以在保证准确率的同时,显著提升训练效率。该文工作为煤矿安全知识图谱构建及智能查询做了初步有益探索。

Select

使用机器学习方法进行新闻的情感自动分类

徐军,丁宇新,王晓龙

2007, 21(6): 95-100.

摘要 (1525) PDF (340 KB) (9220)

本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。

Select

网络传播信息内容的可信度研究进展

吴连伟,饶元,樊笑冰,杨浩

2018, 32(2): 1-11,21.

摘要 (1047) PDF (3547 KB) (2915)

网络中存在着大量的谣言、偏激和虚假信息,这对网络信息的质量、可信度以及舆情的产生与发展趋势具有严重的负面影响。为实现信息可信度的准确判断与高效度量,该文在大量已有最新研究成果与文献的基础上,将不可信信息分为极端突发事件信息、网络偏激信息、网络谣言、虚假信息、误报信息和垃圾信息等类型,并分别针对这些类型信息从分类定义、内容特征描述、可信度建模以及可信度评测等四个方面进行研究综述,从而为网络传播中信息内容的可信度分析与度量研究奠定坚实基础。最后,进一步对信息可信度研究的发展方向进行展望。

Select

基于深度学习的中文生物医学实体关系抽取系统

丁泽源,杨志豪,罗凌,王磊,张音,林鸿飞,王健

2021, 35(5): 70-76.

摘要 (985) PDF (2245 KB) (2420)

在生物医学文本挖掘领域, 生物医学的命名实体和关系抽取具有重要意义。然而目前中文生物医学实体关系标注语料十分稀缺, 这给中文生物医学领域的信息抽取任务带来许多挑战。该文基于深度学习技术搭建了中文生物医学实体关系抽取系统。首先利用公开的英文生物医学标注语料, 结合翻译技术和人工标注方法构建了中文生物医学实体关系语料。然后在结合条件随机场(Conditional Random Fields, CRF)的双向长短期记忆网络 (Bi-directional LSTM, BiLSTM) 模型上加入了基于生物医学文本训练的中文 ELMo (Embedding from Language Model) 完成中文实体识别。最后使用结合注意力(Attention) 机制的双向长短期记忆网络抽取实体间的关系。实验结果表明,该系统可以准确地从中文文本中抽取生物医学实体及实体间关系。

Select

文本对抗样本攻击与防御技术综述

杜小虎,吴宏明,易子博,李莎莎,马俊,余杰

2021, 35(8): 1-15.

摘要 (1723) PDF (1255 KB) (3043)

对抗样本攻击与防御是最近几年兴起的一个研究热点,攻击者通过微小的修改生成对抗样本来使深度神经网络预测出错。生成的对抗样本可以揭示神经网络的脆弱性,并可以修复这些脆弱的神经网络以提高模型的安全性和鲁棒性。对抗样本的攻击对象可以分为图像和文本两种,大部分研究方法和成果都针对图像领域,由于文本与图像本质上的不同,在攻击和防御方法上存在很多差异。该文对目前主流的文本对抗样本攻击与防御方法做出了较为详尽的介绍,同时说明了数据集、主流攻击的目标神经网络,并比较了不同攻击方法的区别。最后总结文本对抗样本领域面临的挑战,并对未来的研究进行展望。

Select

CHIP 2020评测任务2概述:中文医学文本实体关系抽取

甘子发,昝红英,关同峰,李雯昕,张欢,朱田恬,穗志方,陈清财

2022, 36(6): 101-108.

摘要 (913) PDF (1487 KB) (1747)

第六届中国健康信息处理会议(China conference on Health Information Processing,CHIP 2020)组织了中文医疗信息处理方面的6个评测任务,其中任务2为中文医学文本实体关系抽取任务,该任务的主要目标为自动抽取中文医学文本中的实体关系三元组。共有174支队伍参加了评测任务,最终17支队伍提交了42组结果,该任务以微平均F₁值为最终评估标准,提交结果中F₁最高值达0.648 6。

Select

中文连动句语义关系识别研究

孙超,曲维光,魏庭新,顾彦慧,李斌,周俊生

2024, 38(5): 22-31.

摘要 (99) PDF (2852 KB) (79)

连动句是形如“NP+VP1+VP2”的句子,句中含有两个或两个以上的动词(或动词结构)且动词的施事为同一对象。相同结构的连动句可以表示多种不同的语义关系。该文基于前人对连动句中VP1和VP2之间的语义关系分类,标注了连动句语义关系数据集,基于神经网络完成了对连动句语义关系的识别。该方法将连动句语义识别任务进行分解,基于BERT进行编码,利用BiLSTM-CRF先识别出连动句中连动词(VP)及其主语(NP),再基于融合连动词信息的编码,利用BiLSTM-Attention对连动词进行关系判别,实验结果验证了该文所提方法的有效性。

Select

任务型对话系统中的自然语言生成研究进展综述

覃立波,黎州扬,娄杰铭,禹棋赢,车万翔

2022, 36(1): 1-11,20.

摘要 (1080) PDF (2606 KB) (2133)

任务型对话系统中的自然语言生成模块(ToDNLG)旨在将系统的对话动作转换为自然语言回复,其受到研究者的广泛关注。随着深度神经网络的发展和预训练语言模型的爆发,ToDNLG的研究已经获得了重大突破。然而,目前仍然缺乏对现有方法和最新趋势的全面调研。为了填补这个空白,该文全面调研了ToDNLG的最新进展和前沿领域,包括: (1)系统性回顾: 回顾和总结了ToDNLG近10年的发展脉络和方法,包括非神经网络时代和基于深度学习的ToDNLG工作; (2)前沿与挑战: 总结了复杂ToDNLG等一些新兴领域及其相应的挑战; (3)丰富的开源资源: 该文在一个公共网站上收集、整理了相关的论文、基线代码和排行榜,供ToDNLG的研究人员直接了解最新进展,希望该文的调研工作能够促进ToDNLG领域的研究工作。

Select

利用深层语言分析改进中文作文自动评分方法

魏思,巩捷甫,王士进,宋巍,宋子尧

2022, 36(4): 111-123.

摘要 (802) PDF (3920 KB) (1559)

利用自然语言处理技术对作文进行自动评阅是有重要意义和挑战的研究课题,引起了人工智能领域与教育领域学者的共同关注。该文聚焦于语文作文自动评分任务,提出通过深层语言分析,包括应用高性能别字、语法纠错器分析语言运用能力,采用自动修辞分析、优秀表达识别等手段反映语言表达能力,以及通过细粒度篇章质量分析评估篇章整体质量,来构建有效特征。该文同时提出了结合语言分析特征与深度神经网络编码的自适应混合评分模型。在真实语文作文数据上的实验表明,融入深层语言分析特征可有效提高作文评分效果;年级与主题自适应的模型训练策略,可提高模型的迁移能力和预测效果。消融实验进一步分析和解释了不同类型特征对评分效果的贡献。

Select

基于词汇识别ERP数据的跨语言激活路径研究: 从二语到母语方向

杨思琴,江铭虎

2024, 38(4): 28-37.

摘要 (133) PDF (1696 KB) (153)

该文运用事件相关电位技术(Event-Related Potentials,ERPs) 探索了二语学习者在识别二语(Second Language,L2)词汇时激活母语(Native Language,L1) 词汇表征的路径。研究设计了隐性启动范式来开展两个实验,通过观察被试对L1中对译词这一隐性条件的感知情况来推测激活结果。脑电结果显示,实验一的被试在执行语义判断任务时,对译词首字重复与不重复的两种情况产生了显著的N400差异,这表明被试通过概念表征激活了L1词汇表征,印证了激活路径Path-1的存在;实验二的被试在执行书写形式判断任务时,在没有语义启动的情况下,同样感知到了对译词重复这一隐性条件,这表明L2词汇表征可以直接激活L1词汇表征,从而证明了激活路径 Path-2的存在。总体而言,词汇识别过程中从L2词汇表征到L1词汇表征的激活路径与修正层次模型(the Revised Hierarchical Model, RHM)描绘的词汇产出的激活路径类似。据此,该研究推测,尽管大脑在词汇识别和产出过程中采用了不同的处理机制,但在词汇的跨语言激活过程中,它们依然存在某些共通之处。

Select

基于地理空间数据的知识图谱构建技术研究

刘俊楠,刘海砚,陈晓慧,郭漩,朱新铭

2020, 34(11): 29-36.

摘要 (1195) PDF (2887 KB) (3053)

随着3S技术迅猛发展,地理空间数据呈现出爆发式增长趋势,基于地理空间数据构建知识图谱,实现数据到空间知识的转换成为亟待解决的科学问题。针对通用知识图谱仅以属性和语义关系表示空间知识,以及空间关系相对缺失等问题,该文首先描述了空间关系的表示方法;其次,提出了基于空间关系的知识图谱构建技术流程,重点研究空间关系抽取和表示以及多源地理空间数据融合的问题,实现了地理知识图谱构建;最后,论述知识图谱在地理空间领域的应用方向。该研究可以促进地理空间数据和语义网技术的整合,实现网络文本空间化、空间数据语义化,进一步提高智能化服务水平。

Select

基于HRED模型的中文多轮对话任务方法研究

王孟宇,俞鼎耀,严睿,胡文鹏,赵东岩

2020, 34(8): 78-85.

摘要 (2583) PDF (1201 KB) (4585)

多轮对话任务是自然语言处理中最具有实用价值的技术之一,该任务要求系统在产生通顺回答语句的同时能够照顾到上下文信息。近年来,出现了一大批以HRED(hierarchical recurrent encoder-decoder)模型为基础的多轮对话模型,其运用多层级的循环神经网络来编码上下文信息,并在Movie-DiC等英文对话数据集上取得了不错的结果。在2018年京东举办的中文多轮对话大赛中,京东向参赛选手公布了一批高质量的真实客服对话语料。该文在此数据上进行实验,针对HRED模型的缺点以及在中文语料下的表现进行改进,提出基于注意力和跨步融合机制与HRED模型结合的方案,实验结果表明,该方案取得了较大的性能提升。

Select

一种基于领域本体的稿件—审阅人相关度度量方法

肖刘明镜,周志,邹小军,胡俊峰

2017, 31(2): 163-168.

摘要 (743) PDF (1154 KB) (1165)

随着稿件数量的不断增长,审阅人指派越来越成为会议组织者、期刊编辑和基金委员会的一项费时费力的工作,计算机辅助审阅人指派研究也由此得到了更多的关注。稿件—审阅人相关度度量是该研究中的一个重点问题。该文设计了一种基于领域本体的稿件—审阅人相关度度量方法。该方法由文档关键词提取、领域本体的自动构建及基于网络流模型的稿件—审阅人相关度计算等部分组成。初步实验表明,该方法在国家自然科学基金申请书申请代码分配的任务中取得较好表现,优于单纯基于关键词字串相似度的方法。

Select

大模型生成回答与人类回答文本的语言特征比较研究

朱君辉,王梦焰,杨尔弘,聂锦燃,杨麟儿,王誉杰

2024, 38(4): 17-27.

摘要 (317) PDF (4031 KB) (320)

近年,人工智能的语言生成技术突飞猛进,基于自然语言生成技术的聊天机器人ChatGPT能够自如地与人对话、回答问题。为了探究机器生成语言与人类语言的差异,该文分别收集了人类和ChatGPT在中文开放域上3 293个问题的回答作为语料,对两种语料分别提取并计算描述性特征、字词常用度、字词多样性、句法复杂性、语篇凝聚力五个维度上的161项语言特征,利用分类算法验证用这些特征区别两种语言的有效性,并考察、对比这些特征来阐释人类、机器生成两种语言的异同。研究结果发现,两种文本在描述性特征、字词常用度、字词多样性三个维度的77项语言特征上存在显著差异,相较于机器回答语言,人类回答语言表现出易读性高、论元重叠度低、口语色彩明显、用词丰富多样、互动性强等特点。

Select

面向Web的故事脉络挖掘研究综述

赵旭剑,王崇伟,金培权,张晖,杨春明,李波

2021, 35(11): 13-33.

摘要 (829) PDF (3429 KB) (1494)

互联网时代,纷繁复杂的Web信息使得人们难以快速、准确地获得新闻事件的故事脉络。因此,如何从Web信息中自动挖掘社会事件的故事脉络(简称“故事脉络挖掘”)成为近年来Web数据挖掘领域的一个研究热点。故事脉络挖掘旨在通过分析新闻事件与后续关联事件间的相互关系,抽取事件的演化阶段,并进一步挖掘事件的演化模式。故事脉络挖掘可应用于网络新闻检索、文本摘要、舆情监测等众多应用场景,具有重要的研究价值。该文首先概述了故事脉络挖掘的定义、流程及主要任务,然后从故事脉络构建和事件演化分析两个方面详细介绍了目前故事脉络挖掘方向的主要进展,接着比较了两类数据集及其评测标准,最后给出了故事脉络挖掘领域未来的若干研究挑战和技术框架。

Select

一种改进的GloVe词向量表示学习方法

石隽锋,李济洪,王瑞波

2021, 35(4): 16-22.

摘要 (579) PDF (1087 KB) (1257)

GloVe模型是一种广泛使用的词向量表示学习的模型。许多研究发现,学习得到的词向量维数越大,性能越好;但维数越大,模型学习耗时越长。事实上,GloVe模型中,耗时主要表现在两方面,一是统计词对共现矩阵,二是训练学习词向量表示。该文在利用GloVe模型统计语料中词对共现时,基于对称或非对称窗口得到两个共现矩阵,然后分别学习得到较低维度的词向量表示,再拼接得到较高维度的词向量表示。从计算的复杂度来看,该文方法并不会产生多的计算量,但显然统计共现矩阵和训练学习可通过并行方式实现,能够显著提高计算效率。在使用大规模语料的实验中,以对称和非对称窗口分别统计得到共现矩阵,分别学习得到300维词向量表示,再使用拼接方式得到600维词向量表示。与GloVe模型对称和非对称的600维的词向量相比,在中文和英文的词语推断任务上,显著地提高了预测的准确率,在词语聚类任务上,有较好的聚类效果,验证了该文方法的有效性。

Select

汉语零形回指研究综述

黄娴,张克亮

2009, 23(4): 10-16.

摘要 (990) PDF (541 KB) (1626)

回指研究一直是语言学研究的一个热点,回指解析则是文本信息处理中亟待解决的问题之一。传统语言学从句法、语用、篇章、认知角度出发对汉语零形回指进行了广泛的研究。在自然语言处理领域,针对汉语零形回指也有一些颇有影响的研究,如基于向心理论的零形回指解析算法,基于HNC理论的零形回指处理方法,以及基于DRT理论和语义分析等方法提出的汉语零形回指解析方法。该文从语言学角度对这些理论研究进行介绍,旨在指出语言信息工作者在注重工程实践的同时,应关注并借鉴语言学基础理论研究的成果,而从事中文信息处理的语言学家也应加强语言形式化的研究。

Select

基于多任务学习的生成式阅读理解

钱锦,黄荣涛,邹博伟,洪宇

摘要 (710) PDF (1662 KB) (1311)

生成式阅读理解是机器阅读理解领域一项新颖且极具挑战性的研究。与主流的抽取式阅读理解相比，生成式阅读理解模型不再局限于从段落中抽取答案，而是能结合问题和段落生成自然和完整的表述作为答案。然而，现有的生成式阅读理解模型缺乏对答案在段落中的边界信息以及对问题类型信息的理解。为解决上述问题，该文提出一种基于多任务学习的生成式阅读理解模型。该模型在训练阶段将答案生成任务作为主任务，答案抽取和问题分类任务作为辅助任务进行多任务学习，同时学习和优化模型编码层参数；在测试阶段加载模型编码层进行解码生成答案。实验结果表明，答案抽取模型和问题分类模型能够有效提升生成式阅读理解模型的性能。

Select

微博中转发行为的预测技术综述

曹世鸿,叶青,李保滨,朱廷劭

2021, 35(6): 16-29.

摘要 (791) PDF (3955 KB) (1839)

在线社交网络中,微博平台的便捷性和开放性,给信息的传播和爆发提供了很大的便利。转发是微博平台上用户的重要行为,也是信息传播的关键机制。基于转发行为,分析一条推文是否被用户转发或者一段时间后的转发量,可以使我们更好地了解信息的传播特性,探索用户的行为与兴趣,以此推进信息推荐、预防突发事件和舆情监控等应用发展。该文较为系统地梳理了预测微博是否被转发及某段时间后的转发量这两方面的相关研究工作,着重阐述了基于用户、社交和内容特征的预测模型建立的过程并评价其预测性能,分析了微博转发行为的相关预测技术面临的挑战,展望了未来的可能研究方向。

Select

面向任务型的对话系统研究进展

杨帆,饶元,丁毅,贺王卜,丁紫凡

2021, 35(10): 1-20.

摘要 (1298) PDF (8637 KB) (2080)

基于人工智能技术的人机对话系统在人机交互、智能助手、智能客服、问答咨询等多个领域应用日益广泛,这极大地促进了自然语言理解及生成、对话状态追踪和端到端的深度学习模型构建等相关理论与技术的发展,并成为目前工业界与学术界共同关注的研究热点之一。该文聚焦特定场景下的任务型对话系统,在对其基本概念进行形式化定义的基础上,围绕着以最少的对话轮次来获得最佳用户需求相匹配的对话内容为目标,针对目前存在的复杂业务场景下基于自然语言的用户意图的准确理解和识别、针对训练数据的标注依赖及模型结果的可解释性不足,以及多模态条件下对话内容的个性化生成这三个重大的技术问题和挑战,对当前的技术与研究进展进行系统地对比分析和综述,为进一步的研究工作奠定基础。同时,对新一代的面向任务型的人机对话系统未来的关键研究方向与任务进行总结。

Select

融合预训练语言模型和标签依赖知识的关系抽取方法

赵超,谢松县,曾道建,郑菲,程琛,彭立宏

2022, 36(1): 75-82.

摘要 (641) PDF (3302 KB) (1142)

关系抽取旨在从未经标注的自由文本中抽取实体间的关系。然而,现有的方法大都孤立地预测每一个关系而未考虑关系标签相互之间的丰富语义关联。该文提出了一种融合预训练语言模型和标签依赖知识的关系抽取模型。该模型通过预训练模型BERT编码得到句子和两个目标实体的语义信息,使用图卷积网络建模关系标签之间的依赖图,并结合上述信息指导最终的关系分类。实验结果显示,该文方法性能相较于基线方法得到了显著提高。

Select

跨语言词向量研究综述

彭晓娅,周栋

2020, 34(2): 1-15,26.

摘要 (1186) PDF (2826 KB) (3605)

随着人们对互联网多语言信息需求的日益增长,跨语言词向量已成为一项重要的基础工具,并成功应用到机器翻译、信息检索、文本情感分析等自然语言处理领域。跨语言词向量是单语词向量的一种自然扩展,词的跨语言表示通过将不同的语言映射到一个共享的低维向量空间,在不同语言间进行知识转移,从而在多语言环境下对词义进行准确捕捉。近几年跨语言词向量模型的研究成果比较丰富,研究者们提出了较多生成跨语言词向量的方法。该文通过对现有的跨语言词向量模型研究的文献回顾,综合论述了近年来跨语言词向量模型、方法、技术的发展。按照词向量训练方法的不同,将其分为有监督学习、无监督学习和半监督学习三类方法,并对各类训练方法的原理和代表性研究进行总结以及详细的比较;最后概述了跨语言词向量的评估及应用,并分析了所面临的挑战和未来的发展方向。

Select

文档智能: 数据集、模型和应用

崔磊,徐毅恒,吕腾超,韦福如

2022, 36(6): 1-19.

摘要 (2921) PDF (5178 KB) (2386)

文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。

Select

面向国防科技领域的技术和术语语料库构建方法

冯鸾鸾,李军辉,李培峰,朱巧明

2020, 34(8): 41-50.

摘要 (1009) PDF (1200 KB) (3585)

互联网存在海量的文献和科技信息,隐含着大量高价值情报。识别国防科技领域中的技术和术语可以为构建国防科技知识图谱奠定基础。该文基于此领域的海量军事文本,以维基百科中军事领域的新技术为基点采集语料,涵盖了新闻、文献和维基百科三种体裁。在分析军事技术文本特点的基础上制定了一系列标注规范,开展了大规模语料的标注工作,构建了一个面向国防科技领域的技术和术语语料库。该语料库共标注了479篇文章,包含24 487个句子和33 756个技术和术语。同时,该文探讨了模型预标注策略的可行性,并对技术和术语类别在不同体裁上的分布以及语料标注的一致性进行了统计分析。基于该语料库的实验表明,技术和术语识别性能F₁值达到70.40%,为进一步的技术和术语识别研究提供了基础。

Select

话题检测与跟踪的评测及研究综述

洪宇,张宇,刘挺,李生

2007, 21(6): 71-87.

摘要 (1884) PDF (761 KB) (6234)

话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。

Select

基于语料库的我国职业性别无意识偏见共时历时研究

朱述承,苏祺,刘鹏远

2021, 35(5): 130-140.

摘要 (775) PDF (4282 KB) (2256)

性别偏见是社会学研究的热点。近年来,机器学习算法从数据中学到偏见,使之得到更广泛的关注,但目前尚无基于语料库的方法对文本数据中职业性别偏见的研究。该文基于标记理论,利用BCC和DCC语料库,从共时和历时两个层面考察了63个职业的性别无意识偏见现象。首先,以调查问卷的形式调研了不同性别和不同年龄段的人群对63个职业的性别倾向,发现和BCC语料库中多领域的职业性别偏见度呈显著的正相关关系。然后从共时的角度,利用BCC语料库中不同领域的语料,以及DCC语料库中2018年全国31个省级行政单位(不含港澳台地区)的报纸语料,发现从口语至书面语语体,大部分职业表现出对女性的性别偏见逐渐升高,且不同地区对职业的性别偏见存在差异。最后,从历时的角度,利用DCC语料库2005至2018年的报纸语料进行统计分析,发现职业性别无意识偏见现象随着时间的推移,呈现总体弱化趋势。

选择文件类型/文献管理软件名称

选择包含的内容