“自然语言处理” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 程勇,徐德宽,董军
    2020, 34(4): 101-110.
    摘要 (1228) PDF (2391 KB) (3508)
    文本阅读难度自动分级是让计算机能够根据文本特征自动判断文本所属的难度级别,该文以此为目标,提出一种基于多元语言特征与深度特征相融合的方法来实现对文本难度的自动分级。其中多元语言特征考虑了汉字、词汇、句子等不同的语言层面,同时涉及到频率、长度、复杂度、丰富度、连贯度等不同维度的信息。另一方面,该文利用了基于BERT的神经网络预训练模型来提取文本中句子的深度特征,在此基础上构建了一个端到端神经网络来将语言特征与深度特征进行融合,最终在自动分级任务上取得了不错的效果,分级正确率超过了基于传统语言特征的方法和基于主流神经网络的方法,充分表明了所提出的特征融合方法在文本阅读难度自动分级任务上的有效性。
  • 张凯,李军辉,周国栋
    2019, 33(3): 110-117.
    摘要 (864) PDF (2377 KB) (1014)
    当前图像描述生成的研究主要仅限于单语言(如英文),这得益于大规模的已人工标注的图像及其英文描述语料。该文探索零标注资源情况下,以英文作为枢轴语言的图像中文描述生成研究。具体地,借助于神经机器翻译技术,该文提出并比较了两种图像中文描述生成的方法: (1)串行法,该方法首先将图像生成英文描述,然后由英文描述翻译成中文描述; (2)构建伪训练语料法,该方法首先将训练集中图像的英文描述翻译为中文描述,得到图像-中文描述的伪标注语料,然后训练一个图像中文描述生成模型。特别地,对于第二种方法,该文还比较了基于词和基于字的中文描述生成模型。实验结果表明,采用构建伪训练语料法优于串行法,同时基于字的中文描述生成模型也要优于基于词的模型,BLEU_4值达到0.341。
  • 张辰麟,王明文,谭亦鸣,陈志明,左家莉,罗远胜
    2019, 33(3): 118-125,135.
    摘要 (1096) PDF (1379 KB) (1127)
    《西游记》是我国四大名著之一。“真假美猴王”事件作为《西游记》的高潮部分,留下了不少伏笔,也引发了多种解读。该文通过运用情感分析的方法,对“真假美猴王”事件前后孙悟空与其他角色的对话进行分析。通过比较孙悟空在“真假美猴王”事件前后,对其他角色情感值的变化,得到了“孙悟空并没有被如来打死,‘真假美猴王’事件消灭的‘心魔’是孙悟空的反抗精神。事件之后,孙悟空选择屈服于神权”的结论。初步探索了情感分析技术对文学研究的可行性。
  • 梁健楠,孙茂松,矣晓沅,杨成,陈慧敏,刘正皓
    2019, 33(3): 126-135.
    摘要 (2011) PDF (1758 KB) (1538)
    集句诗是中国古典诗歌的一种特殊体裁。是从前人的诗篇中选取已有诗句,再将其巧妙组合形成一首新诗,是一种艺术的再创造形式。集句诗的生成要求集辑而成的诗不仅合辙押韵, 且有完整的内容、连贯的上下文和新颖的主旨意境,对创作者的知识储备和诗词鉴赏能力有极高的要求。该文基于计算机的海量存储和快速检索能力,以及神经网络模型对文本语义较强的表示和理解能力,提出一种新颖的集句诗自动生成模型。该模型以数十万首古诗作为基础,利用循环神经网络(RNN)自动学习古诗句的语义表示,并设计了多种方法自动计算两句诗句的上下文关联性。根据用户输入的首句,模型能够自动计算选取上下文语义最相关连贯的诗句进行集辑,从而形成一首完整的集句诗。自动评测和人工评测的实验结果都表明,该文模型能够生成质量较好的集句诗,远远超过基线模型的效果。
  • 尹何举,昝红英,陈俊怡,翟新丽
    2019, 33(3): 136-144.
    摘要 (858) PDF (1773 KB) (1037)
    该文针对法律领域民事案件中的“交通事故”类案件进行研究,期望在该“交通事故”数据集上实现自动判案。从“中国裁判文书网”采集14 000条数据文本,并对数据进行人工标注。基于对数据集的分析,分别对数据进行粗粒度和细粒度分类,粗粒度为4类,细粒度为8类。该文使用了三种模型: 基于SVM的模型、基于BI-GRU的模型和基于Attention+BI-GRU的模型。实验结果表明: 在该数据集上,对数据进行粗粒度分类时,基于Attention+BI-GRU的模型F1值为80.26%,基于SVM的模型为77.24%,基于BI-GRU的模型为72.65%。在细粒度分类时,基于BI-GRU的模型F1值为48.59%,基于SVM的模型为38.29%,基于Attention+BI-GRU的模型为40.87%。
  • 马为之,张敏,张琛昱,刘奕群,马少平
    2018, 32(4): 137-144.
    摘要 (738) PDF (1394 KB) (881)
    近年来,人工智能技术飞速发展,不少工作试图从人类的认知发展过程中探索前进方向,语言学习认知的过程成为了重点关注的研究领域。已有的语言认知研究工作主要集中在学龄前儿童母语的词汇学习认知方面,依赖于WordBank等大规模语料库。然而就我们所知,目前在第二语言学习方面研究不多,尚未有大规模的第二语言词汇学习数据,且传统的数据收集方法难以收集到大规模数据,这也一定程度上限制了对于第二语言学习的研究工作及母语与第二语言学习的比较。针对这一问题,该文面向学龄前儿童群体设计了基于游戏性原则的数据收集方法和研究框架,用于收集第二语言的语言学习情况和用户数据,以支撑相应研究工作的开展。目前,已经实现了针对学龄前儿童的第二语言为英语的词汇认知数据收集系统,正在进行在线的数据收集。