“自然语言理解与生成” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 邬宝娴, 谢燚, 郝天永, 沈映珊
    2023, 37(11): 158-170.
    摘要 (81) PDF (2826 KB) (39)
    概念图能够直观地展示概念间的相互关系,为教师提供概念相关性的建议,因而成为教师进行个性化教学的重要工具。然而,如何生成能反映学生学习能力并有效指导教师教学的概念图是目前概念图研究一大难题。该文提出了一种新的自动概念图生成模型C-IK2。C-IK2模型考虑学生的不同学习特点和不同概念理解程度,通过Birch算法对学生概念掌握程度特征进行聚类处理得到学生分簇。同时该模型考虑概念图具有层次结构,针对传统LPG算法在处理层次结构方面的不足进行了改进。通过融合改进的LPG算法,同时改进K2算法的有效输入序列,最终生成具有不同学生学习特征的层次结构概念图。该文使用两个标准数据集进行实验,与现有基于序列的最新改进K2算法进行对比,C-IK2模型在图准确度上提高了7.7%。与现有基于评分的贝叶斯网络结构学习方法相比,C-IK2模型的图结构质量提高了3.1%。结果表明,C-IK2模型能有效区分学生对概念的理解程度,生成反映理解程度的层次结构概念图,从而帮助教师进行针对性地个性化教学。
  • 胡宇,王舰,孙宇清
    2023, 37(3): 152-163.
    摘要 (294) PDF (4986 KB) (134)
    参考规范是指专业知识点的相关文本描述,参考规范指导下的文本生成任务要求自动生成的文本满足与参考规范的语义相关性和知识点匹配性,是自然语言处理领域中的困难问题。相关工作主要控制生成文本的情感、态度等通用性质,无法满足专业层面的复杂控制需求。为此,该文提出了基于对抗架构的专业文本生成模型(PT-GAN),采用多个独立的生成器分别生成不同知识点匹配程度的文本,各生成器均为自编码器结构,其中编码器用于提取参考规范文本的知识点语义特征,解码器用于生成文本;采用两个判别器同时对生成文本的语言规范和专业知识进行指导,其中连贯性判别器用于指导语言规范,专业性判别器用于控制专业层面属性。在多个国家级专业考试真实数据集上进行实验,结果显示该文模型在语言连贯性、与参考规范的语义相关性和知识点匹配性上均有明显提升,更符合该场景下的文本生成需求。
  • 赵志超,游进国,何培蕾,李晓武
    2023, 37(3): 164-172.
    摘要 (333) PDF (2306 KB) (121)
    针对当前中文NL2SQL (Natural language to SQL)监督学习中需要大量标注数据问题,该文提出基于对偶学习的方式在少量训练数据集上进行弱监督学习,将中文查询生成SQL语句。该文同时使用两个任务来训练自然语言转化到SQL,再从SQL转化到自然语言,让模型学习到任务之间的对偶约束性,获取更多相关的语义信息。同时在训练时使用不同比例带有无标签的数据进行训练,验证对偶学习在NL2SQL解析任务上的有效性。实验表明,在不同中英文数据集ATIS、GEO以及TableQA中,本文模型与基准模型Seq2Seq、Seq2Tree、Seq2SQL、以及-dual等相比,百分比准确率至少增加2.1%,其中在中文TableQA数据集上采用对偶学习执行准确率(Execution Accuracy)至少提升5.3%,只使用60%的标签数据就能取得和监督学习使用90%的标签数据相似的效果。
  • 刘权,余正涛,高盛祥,何世柱,刘康
    2022, 36(11): 140-147.
    摘要 (371) PDF (1616 KB) (524)
    相似案例匹配是智慧司法中的重要任务,其通过对比两篇案例的语义内容判别二者的相似程度,能够应用于类案检索、类案类判等。相对于普通文本,法律文书不仅篇幅更长,文本之间的区别也更微妙,传统深度匹配模型难以取得理想效果。为了解决上述问题,该文根据文书描写规律截取文书文本,并提出一种融合案件要素的方法来提高相似案件的匹配性能。具体来说,该文以民间借贷案件为应用场景,首先基于法律知识制定了6种民间借贷案件要素,利用正则表达式从法律文书中抽取案件要素,并形成词独热形式的案件要素表征;然后,对法律文本倒序截取,并通过BERT编码得到法律文本表征,解决法律文本的长距离依赖问题;接着使用线性网络融合法律文本表征与案件要素表征,并使用BiLSTM对融合的表征进行高维度化表示;最后通过孪生网络框架构建向量表征相似性矩阵,通过语义交互与向量池化进行最终的相似度判断。实验结果表明,该文模型能有效处理长文本并建模法律文本的细微差异,在CAIL2019-SCM公共数据集上优于基线模型。
  • 朱斯琪,过弋,王业相,余军,汤奇峰,邵志清
    2022, 36(11): 148-155,168.
    摘要 (325) PDF (1766 KB) (366)
    该文针对Cail2020法律多跳机器阅读理解数据集进行研究,提出了TransformerG,一个基于不同层级的实体图结构与文本信息的注意力机制融合的多跳阅读理解模型。该模型有效地结合了段落中问题节点、问题的实体节点、句子节点、句中的实体节点的特征与文本信息的特征,从而预测答案片段。此外,该文提出了一种句子级滑动窗口的方法,有效解决在预训练模型中文本过长导致的截断问题。利用TransformerG模型参加中国中文信息学会计算语言学专委会(CIPS-CL)和最高人民法院信息中心举办的“中国法研杯”司法人工智能挑战赛机器阅读理解赛道,取得了第2名的成绩。
  • 马苗,陈小秋,田卓钰
    2022, 36(11): 156-168.
    摘要 (269) PDF (20986 KB) (380)
    根据视频内容自动生成文本序列的密集描述生成融合了计算机视觉与自然语言处理技术。现有密集描述生成方法多强调视频中的视觉与运动信息而忽略了其中的音频信息,关注事件的局部信息或简单的事件级上下文信息而忽略了事件间的时序结构和语义关系。为此,该文提出一种基于多模态特征的视频密集描述生成方法。该方法首先在动作提议生成阶段使用Timeception层作为基础模块以更好适应动作片段时间跨度的多样性,其次在动作提议生成和描述生成两阶段均利用音频特征增强提议和描述生成效果,最后使用时序语义关系模块建模事件间的时序结构和语义信息以进一步增强描述生成的准确性。特别地,该文还构建了一个基于学习场景的视频密集描述数据集SDVC以探究该文所提方法在学习场景现实应用中的有效性。在ActivityNet Captions和SDVC数据集上的实验结果表明,动作提议生成AUC值分别提升0.8%和6.7%;使用真实动作提议进行描述生成时,BLEU_3值分别提升1.4%和4.7%,BLEU_4值分别提升0.9%和5.3%;使用生成的动作提议进行描述生成时,SDVC数据集BLEU_3、BLEU_4值分别提升2.3%和2.2%。
  • 李朦朦,江爱文,龙羽中,宁铭,彭虎,王明文
    2022, 36(9): 139-148.
    摘要 (523) PDF (2151 KB) (628)
    视觉故事生成是图像内容描述衍生的跨模态学习任务,在图文游记自动生成、启蒙教育等领域有较好的应用研究意义。目前主流方法存在对图像细粒度特征描述薄弱、故事文本的图文相关性低、语言不丰富等问题。为此,该文提出了基于细粒度视觉特征和知识图谱的视觉故事生成算法。该算法针对如何对图像内容进行充分挖掘和扩展表示,在视觉和高层语义方面,分别设计实现了图像细粒度视觉特征生成器和图像语义概念词集合生成器两个重要模块。在这两个模块中,细粒度视觉信息通过含有实体关系的场景图结构进行图卷积学习,高层语义信息综合外部知识图谱与相邻图像的语义关联进行扩充丰富,最终实现对图像序列内容较为全面细致的表示。该文算法在目前视觉故事生成领域规模最大的VIST数据集上与主流先进的算法进行了测试。实验结果表明,该文所提算法生成的故事文本,在图文相关性、故事逻辑性、文字多样性等方面,在Distinct-N和TTR等客观指标上均取得较大领先优势,具有良好的应用前景。
  • 张诗安,熊德意
    2022, 36(9): 149-158.
    摘要 (476) PDF (8059 KB) (409)
    指代是一种重要的语言现象,运用指代可以避免复杂的词语在句子中重复出现,使语句简洁连贯。在多轮口语对话中,使用代词指代实体可以提高沟通的效率,然而,对话中频繁出现的代词给计算机语言理解增加了难度,进而影响了机器生成回复的质量。该文提出通过消解代词提高对话生成质量,先通过端到端的共指消解模型识别出多轮对话中蕴含的表述同一实体的所有代词和名词短语,即指代簇(coreference clusters);然后使用两种不同的方法,利用指代簇信息增强对话模型: ①使用指代簇信息恢复问句的完整语义,以降低机器语言理解的难度; ②使用图卷积神经网络将指代簇信息编码融入对话生成模型,以提高机器理解对话的能力。该文所提的两个方法在RiSAWOZ公开数据集上进行了验证,实验结果表明,两个方法均可以显著提升对话生成的性能。
  • 朱帅,陈建文,朱明
    2022, 36(9): 159-168.
    摘要 (545) PDF (2776 KB) (964)
    对话系统对上文信息使用不充分是当前制约多轮对话效果的主要因素,基于上文信息对用户当前输入进行改写是该问题的一种重要解决方法。改写任务的核心在于指代消解(pronoun resolution)和省略补全(ellipsisrecovery)。该文提出了一种基于BERT的指针网络(Span Prediction for Dialogue Rewrite,SPDR),该模型会预测用户当前轮次输入语句中所有token前面需要填充的内容,在上文中对应的片段(span)起始和结束的位置,来实现多轮对话改写;该文还提出了一种新的衡量改写结果的评价指标sEMr。相较于基于指针生成网络的模型,该模型在不损失效果的前提下推理速度提升接近100%,基于RoBERTa-wwm的SPDR模型在5项指标上均有明显提升。
  • 朱展标,黄沛杰,张业兴,刘树东,张华林,黄均曜,林丕源
    2022, 36(8): 118-126.
    摘要 (420) PDF (2130 KB) (614)
    意图识别和槽信息填充的联合模型将口语语言理解(Spoken Language Understanding,SLU)技术提升到了一个新的水平,但由于存在出现频率低或未见过的槽指称项(0-shot slot mentions),模型的序列标注性能受限,而且这些联合模型往往没有利用输入序列存在的语法知识信息。已有研究表明,序列标注任务可以通过引入依赖树结构,辅助推断序列标注中槽的存在。由于中文话语由一串字序列组成,在中文口语语言理解中,输入话语的字和槽信息是一一对应的,因而槽信息填充模型往往是字特征模型。基于词的依赖树结构无法直接应用于基于字特征的槽填充模型。为了解决字词之间的矛盾,该文提出了一种基于字模型的依赖引导槽填充模型(Dependency-guided Character-based Slot Filling model,DCSF),提供一种简洁的方法用于解决将词级依赖树结构引入中文字特征模型的冲突,同时通过对话语中词汇内部关系进行建模,保留了词级上下文信息和分词信息。在公共基准语料库SMP-ECDT和CrossWOZ上的实验结果表明,该模型优于比较模型,特别是在未见过的槽指称项和低资源情况下有很大的改进。
  • 马天宇,覃俊,刘晶,帖军,后琦
    2022, 36(8): 127-134.
    摘要 (623) PDF (3521 KB) (769)
    口语理解是自然语言处理的一个重要内容,意图分类和槽填充是口语理解的两个基本子任务。最近的研究表明,共同学习这两项任务可以起到相互促进的作用。该文提出了一个基于BERT的意图分类联合模型,通过一个关联网络使得两个任务建立直接联系和共享信息,以此来提升任务效果。模型引入BERT来增强词向量的语义表示,有效解决了目前联合模型由于训练数据规模较小导致的泛化能力较差的问题。在ATIS和Snips数据集上的实验结果表明,该模型能有效提升意图分类和槽填充的性能。
  • 尹宝生,安鹏飞
    2022, 36(8): 135-143,153.
    摘要 (450) PDF (4814 KB) (704)
    基于序列到序列模型的生成式文档摘要算法已经取得了良好的效果。鉴于中文N-gram蕴含着丰富的局部上下文信息,该文提出将N-gram信息整合到现有模型的神经框架NgramSum,即利用N-gram信息增强神经模型局部上下文语义感知能力。该框架以现有的神经模型为主干,从本地语料库提取N-gram信息,提出了一个局部上下文视野感知增强模块和一个门模块,并来分别对这些信息进行编码和聚合。在NLPCC 2017中文单文档摘要评测数据集上的实验结果表明: 该框架有效增强了基于LSTM、Transformer、预训练模型三种不同层次的序列到序列的强基线模型,其中ROUGE-1/2/L相较基线模型平均分别提高了2.76, 3.25, 3.10个百分点。进一步的实验和分析也证明了该框架在不同N-gram度量方面的鲁棒性。
  • 管梦雨,王中卿,李寿山,周国栋
    2022, 36(8): 144-153.
    摘要 (465) PDF (2581 KB) (443)
    现有的对话系统中存在着生成“好的”“我不知道”等无意义的安全回复问题。日常对话中,对话者通常围绕特定的主题进行讨论且每句话都有明显的情感和意图。因此该文提出了基于对话约束的回复生成模型,即在Seq2Seq模型的基础上,结合对对话的主题、情感、意图的识别。该方法对生成回复的主题、情感和意图进行约束,从而生成具有合理的情感和意图且与对话主题相关的回复。实验证明,该文提出的方法能有效提高生成回复的质量。
  • 曾碧卿,裴枫华,徐马一,丁美荣
    2022, 36(8): 154-162,174.
    摘要 (492) PDF (2979 KB) (588)
    段落级问题生成是指从给定的段落中生成一个或多个与之相关的问题。目前的研究主要使用序列到序列的神经网络最大程度地利用段落信息,但这种方法存在冗余信息干扰、无法聚焦重点句子的问题。针对上述问题,该文提出了一种基于双注意力的段落级问题生成模型。该模型首先对段落和答案所在句子分别使用注意力机制,然后利用门控机制动态地分配权重并融合上下文信息,最后利用改进的指针生成网络结合上下文向量和注意力分布来生成问题。实验结果表明,该模型在SQuAD数据集上比现有主流模型具有更高的性能。
  • 张虎,张颖,杨陟卓,钱揖丽,李茹
    2021, 35(9): 132-140.
    摘要 (594) PDF (2557 KB) (1255)
    机器阅读理解是自然语言处理领域中的一项重要研究任务,高考阅读理解自动答题是近年来阅读理解任务中的又一挑战。目前高考语文阅读理解任务中真题和模拟题的数量相对较少,基于深度学习的方法受到实验数据规模较小的限制,所得的实验结果相比传统方法无明显优势。基于此,该文探索了面向高考语文阅读理解的数据增强方法,结合传统的EDA数据增强思路提出了适应于高考阅读理解的EDA策略,针对阅读材料普遍较长的特征提出了基于滑动窗口的材料动态裁剪方式,围绕材料中不同句子的重要性差异明显的问题,提出了基于相似度计算的材料句质量评价方法。实验结果表明,三种方法均能提升高考题阅读理解自动答题的效果,答题准确率最高可提升5个百分点以上。
  • 石航,刘瑞芳,刘欣瑜,陈泓宇
    2021, 35(8): 127-134.
    摘要 (473) PDF (2001 KB) (1005)
    自动问题生成任务旨在给文章中的一段文本生成相应的自然语言的问句,该研究在问答系统和语音助手的对话系统中有重要作用,可以帮助它们启动对话和继续对话。目前的神经网络问题生成模型主要是将包含答案的句子或者整篇文章作为模型的输入,而这些方法存在语义表示不能很好地结合句子和文章信息的问题。因此该文提出多输入层次注意力序列到序列的问题生成网络,能更好地利用文章和答案上下文的两重信息。模型通过关注对答案更有价值的句子信息和全文更丰富的语义信息来生成高质量的问题。在公开数据集SQuAD上的问题生成对比实验表明,该方法在BLEU_4值上表现优越。通过训练好的问答系统来评估问题的可回答率,明显优于基准系统。
  • 吉娜烨,廖龙飞,闫燕勤,俞定国,张帆
    2021, 35(8): 135-144.
    摘要 (612) PDF (4313 KB) (1206)
    针对文字直播自动摘要的新闻稿存在背景信息缺乏、难以引起读者兴趣等不足,该文提出一种NBA赛事新闻的自动生成方法。采用该文提出的关键事件抽取算法从文字直播数据中抽取事件点、匹配突出关键事件的模板来生成新闻初稿,再从构建的NBA赛事知识图谱中提取背景信息和描述重点,自动生成最终的新闻稿。该文构建并公开的NBA赛事领域知识图谱,包含3个概念类、4种关系和27个属性,共有5 893个实体节点。对实验生成的新闻结果随机选取了50场赛事进行了主客观评测。评测结果表明,该文提出的融合知识图谱的新闻自动写作方法有效解决了背景信息缺乏和新闻要素嵌入问题,知识图谱的使用能明显提升所生成的新闻的质量,并可支持新闻的深度阅读。
  • 刘喜凯,林鸿飞,徐博,杨亮,任玉琪
    2021, 35(7): 134-142.
    摘要 (760) PDF (1700 KB) (826)
    对话生成模型是对话系统中十分重要的组件。传统的对话生成模型仅利用用户的输入信息生成回复,这导致在生成过程中常会出现无意义的万能回复。最近有工作尝试将检索的方法融入生成模型从而提高模型的生成质量,但这些方法往往将重点放在如何编辑检索结果上,没有考虑检索结果与用户查询之间的语义空间差别。为解决这一问题,该文提出了基于检索结果融合的对话生成模型。模型首先利用双向长短时记忆网络对检索结果进行编码,并提出了具有融合机制的长短时记忆网络(fusion-LSTM)。该机制将检索结果在模型内部与对话文本相结合,以更好地将检索到的信息融入到生成模型中。实验结果表明,该方法在自动评价指标和人工评价指标中都明显优于基线方法。
  • 刘欣瑜,刘瑞芳,石航,韩斌
    2021, 35(6): 122-130.
    摘要 (567) PDF (4134 KB) (1185)
    自然语言推理任务的目的是推断两个句子之间的语义逻辑关系。该文通过模仿人类的推理过程构造模型,首先利用长短时记忆网络提取词的语境特征,模仿人类粗读句子的过程;然后依据外部语义知识,连接两个句子中有语义联系的词,构造一个以词为节点的语义图;接下来模仿人类比较两个句子的语义角色相似性的思维,用图卷积或图注意力神经网络聚合词在图中的空间特征;最后融合词的语境特征和语义图空间特征,进行推理分类。实验结果证明,基于图神经网络的模型能有效利用外部语义知识来提高自然语言推理的准确率。
  • 刘鹏远,王伟康,邱立坤,杜冰洁
    2021, 35(6): 131-140.
    摘要 (610) PDF (2113 KB) (976)
    在中文文本特别是在社交媒体及问答领域文本中,存在非常多的标点符号错误或缺失的情况,这严重影响对文本进行语义分析及机器翻译等各项自然语言处理的效果。当前对标点符号进行预测的相关研究多集中于英文对话的语音转写文本,缺少对社交媒体及问答领域文本进行标点符号预测的相关研究,也没有这些领域公开的数据集。该文首次提出跨领域中文标点符号预测任务,该任务首先利用标点符号基本规范正确的大规模新闻领域文本,建立标点符号预测模型;然后在标点符号标注不规范的社交媒体及问答领域,进行跨领域标点符号预测。随后,构建了新闻、社交媒体及问答三个领域的相应数据集。最后还实现了一个基于BERT的标点符号预测基线模型并在该数据集上进行了实验与分析。实验结果表明,直接利用新闻领域训练的模型,在社交媒体及问答领域进行标点符号预测的性能均有所下降,在问答领域下降较小,在微博领域下降较大,超过20%,说明跨领域标点符号预测任务具有一定的挑战性。
  • 贾旭,彭敏
    2023, 37(10): 76-85.
    摘要 (125) PDF (2212 KB) (134)
    多领域口语语言理解包括多意图识别和槽填充两个子任务,现有研究通过构建语句中的意图和槽之间的关联提升模型的表现。然而现有研究将多领域场景下的意图和槽看作相互独立的标签,忽视了标签之间领域内和领域间的结构关联。该文提出细粒度标签图和领域相关图的双图注意力联合模型。具体来说,细粒度标签图将意图和槽标签分成细粒度分片,建模分片之间的结构性关联和上下文表示的语义特征。领域相关图通过标签间的领域信息,建模预测意图和对应领域内槽的关联,减少图中的冗余关联。实验结果表明,在两个公开的数据集上,该文提出的模型均优于基准模型。
  • 曹杰,肖菁,曹阳
    2023, 37(10): 86-96.
    摘要 (135) PDF (1965 KB) (79)
    近年来,数学题的自动求解研究逐渐成为焦点,但是当前研究主要侧重于文字应用题求解,对于几何题的自动求解研究还比较少。针对该问题,已经有研究学者提出了基于深度学习方法的几何题求解模型,但是他们的方法不能根据几何题的特点进行设计,没有将知识点信息应用于题目的求解中。受到人类求解几何题的思维方式的启发,该文基于几何题的求解特点设计了一个几何题知识点预测任务,用于预训练文本编码器,然后从预训练后的文本编码器中获得知识点的语义向量表示。随后设计了一种融合知识点语义信息的几何题求解方法①。实验结果表明,基于知识点预训练任务和知识点信息融合方法的模型能将几何题的自动求解准确率提升至66.89%。
  • 陈建贵,张儒清,郭嘉丰,范意兴
    2023, 37(10): 97-105.
    摘要 (155) PDF (1323 KB) (165)
    事实验证是一项具有挑战性的任务,旨在使用来自可信赖语料库的多个证据句子来验证声明。为了促进研究,一些事实验证数据集被提出,极大地加速了事实验证技术的发展。然而,现有的事实验证数据集通常采用众包的方法构造,无可避免地引入偏差。已有事实验证去偏工作大致可以分为基于数据增强的方法和基于权重正则化的方法,前者不灵活,后者依赖于训练阶段的不确定输出。与已有工作不同,该文从因果关系出发,提出基于反事实推理的事实验证去偏方法。该文首先设计事实验证中的因果图,建模声明、证据以及它们之间的交互和预测结果的因果关系。接着,根据因果图提出事实验证去偏方法,通过总间接效应去除声明带来的偏差影响。我们使用多任务学习的方式来训练模型。训练时,该文采用多任务学习的方式建模各个因素的影响,同时在有偏和无偏测试集上评估模型的性能。实验结果表明,对比基准方法,该文模型在性能上获得了一致的提升。
  • 胡婕,严亮
    2023, 37(8): 140-149.
    摘要 (183) PDF (1500 KB) (87)
    由于预训练模型对于长度的限制,长文本机器阅读理解任务必须把文章分成多个块放到预训练模型中提取答案。现有循环分块模型存在分块内部信息提取不合理、分块之间语义传输不充分的问题。针对这些问题,该文提出了基于关键词的长文本机器阅读理解循环分块模型。在对文章和问题进行词嵌入时引入外部知识库,得到丰富的文章词向量表示,在此基础上结合文章中的关键词通过强化学习策略得到更加灵活的文章分块,随后通过平衡参数得到文章最佳答案。在CoQA、QuAC和TriviaQA数据集上所提模型与BERT-LARGE模型和循环分块模型相比较F1值分别提高了 5.1和 4.5个百分点, 3.9和 3.3个百分点,3.9和 2.9个百分点。实验结果表明,该文所提模型对长文本机器阅读理解的综合效果得到有效提升,F1值均优于对比模型。
  • 聂锦燃,杨麟儿,杨尔弘
    2023, 37(8): 150-158.
    摘要 (193) PDF (1888 KB) (141)
    词汇约束文本生成是自然语言处理领域的重要研究任务之一,旨在给定一组有序词汇,生成包含这些词汇的流畅文本,在语言教学、文本生成、信息检索等领域有广泛应用。现有的生成方法存在生成速度慢、无法包含所有约束词等问题,难以满足实际应用需求。该文提出一种基于片段预测的端到端词汇受限文本生成方法,将词汇约束文本生成视为对约束词之间的文本片段的预测,利用基于二维位置编码的预训练语言模型预测所有片段,再将其填充回约束词的对应位置,从而保证了生成速度和词汇约束;利用词性标注方式构造多参考数据进行数据增强,进一步提升了文本生成质量。为验证方法的有效性,该文在公开的英文数据集,以及基于国际中文教材构建的中文数据集上进行了实验,结果表明,该文提出的LCTG-SP方法可以满足所有词汇约束、具有较快生成速度,生成文本的流利度和多样性表现更好。本文中的模型代码和数据开源在GitHub上
  • 唐雪梅,苏祺,王军,陈雨航,杨浩
    2023, 37(8): 159-168.
    摘要 (189) PDF (4947 KB) (158)
    未经整理的古代典籍不含任何标点,不符合当代人的阅读习惯,古籍加断句标点之后有助于阅读、研究和出版。该文提出了一种基于预训练语言模型的繁体古文自动句读框架。该文整理了约10亿字的繁体古文语料,对预训练语言模型进行增量训练,在此基础上实现古文自动句读和标点。实验表明,经过大规模繁体古文语料增量训练后的语言模型具备更好的古文语义表示能力,能够有助提升繁体古文自动句读和自动标点的效果。融合增量训练模型之后,古文断句F1值达到95.03%,古文标点F1值达到了80.18%,分别比使用未增量训练的语言模型提升1.83%和2.21%。为解决现有篇章级句读方案效率低的问题,该文改进了前人的串行滑动窗口方案,在一定程度上提高了句读效率,并提出一种新的并行滑动窗口方案,能够高效准确地进行长文本自动句读。
  • 王天极,陈柏霖,黄瑞章,任丽娜,陈艳平,秦永彬
    2023, 37(8): 169-178.
    摘要 (174) PDF (5074 KB) (143)
    语法错误检测是自然语言处理中自动校对技术的重要环节。中文语法灵活多变,而且错别字和语法错误会严重影响其周边范围的词义语义,甚至整个句子的原本含义,另外,现有深度学习模型为提高性能经常引入较多外部信息,也导致训练难度大。因此该研究将语法错误检测视为序列标注任务,提出了一种基于Electra的神经网络模型,以门控双线性神经网络Gated-Bilinear为其下游结构,在预训练语言模型基础上利用相邻Token的特征加强字向量的局部语义相关性,减轻其受到的错误语义影响。研究使用了历年中文语法错误检测(CGED)任务的数据集,训练并评估模型的性能,实验表明,使用该方法的检错性能在单模型和多模型集成方法上均达到最优水平。