中文信息学报

Select

卢雪晖,徐会丹,李斌,陈思瑜

2023, 37(3): 36-45.

摘要 (336) PDF (1083 KB) (85)

先秦汉语在汉语史研究上具有重要地位,然而以往的研究始终没有形成结构化的先秦词汇资源,难以满足古汉语信息处理和跨语言对比的研究需要。国际上以英文词网(WordNet)的义类架构为基础,建立了数十种语言的词网,已经成为多语言自然语言处理和跨语言对比的基础资源。该文综述了国内外各种词网的构建情况,特别是古代语言的词网和汉语词网,且详细介绍了先秦词网的构建和校正过程,构建了涵盖43 591个词语、61 227个义项、17 975个义类的先秦词网。该文还通过与古梵语词网的跨语言对比,尝试分析这两种古老语言在词汇上的共性和差异,初步验证先秦词网的价值。

Select

第一届古代汉语分词和词性标注国际评测

李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波

2023, 37(3): 46-53,64.

摘要 (513) PDF (1298 KB) (247)

中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F₁值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F₁值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F₁值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F₁值分别达到93.64%和87.77%,开放测试分词和词性标注F₁值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。

Select

句式结构树库的自动构建研究

谢晨晖,胡正升,杨麟儿,廖田昕,杨尔弘

2023, 37(2): 15-25.

摘要 (795) PDF (1234 KB) (204)

句式结构树库是以句本位语法为理论基础构建的句法资源,对汉语教学以及句式结构自动句法分析等研究具有重要意义。目前已有的句式结构树库语料主要来源于教材领域,其他领域的标注数据较为缺乏,如何高效地扩充高质量的句法树库是值得研究的问题。人工标注句法树库费时费力,树库质量也难以保证,为此,该文尝试通过规则的方法,将宾州中文树库 (CTB) 转换为句式结构树库,从而扩大现有句式结构树库的规模。实验结果表明,该文提出的基于树库转换规则的方法是有效的。

Select

自然语言处理评测数据集质量评估研究

王诚文,董青秀,穗志方,詹卫东,常宝宝,王海涛

2023, 37(2): 26-40.

摘要 (1049) PDF (1804 KB) (629)

评测数据集是评测任务的载体,评测数据集的质量对评测任务的开展和评测指标的应用有着根本性的影响,因此对评测数据集的质量进行评估有着必要性和迫切性。该文在调研公开使用的自然语言处理主流数据集基础上,分析和总结了数据集中存在的8类问题,并在参考人类考试及试卷质量评估的基础上,从信度、效度和难度出发,提出了数据集评估的相关指标和将计算性与操作性相结合的评估方法,旨在为自然语言处理评测数据集构造、选择和使用提供参考依据。

Select

多约束引导的中文对抗样本生成

韩子屹,王巍,玄世昌

2023, 37(2): 41-52.

摘要 (407) PDF (1619 KB) (317)

深度神经网络(DNN)已经被广泛应用于图像识别和自然语言处理等各个领域。近年来的研究表明,向DNN模型输入包含微小扰动的样本后,很容易对其输出结果造成严重破坏,这样处理过的样本被称为对抗样本。但中文对抗样本生成领域一直面临着一个严重问题,攻击成功率和对抗样本的可读性难以兼得。该文提出了一种在对抗样本生成的不同阶段,对对抗样本进行视觉相似度和语义相似度进行约束的对抗攻击方法 MCGC。MCGC 生成的对抗样本不但具有良好的可读性,且在针对 Text-CNN、Bi-LSTM、BERT-Chinese 等多个模型的定向和非定向攻击可以达到90%左右的攻击成功率。同时,该文还研究了以 BERT-Chinese 为代表的掩码语言模型(MLM)和传统自然语言处理模型在鲁棒性上的差异表现。

Select

一种改进的汉语语义角色分类体系与标注实践

宋衡,曹存根,王亚,王石

2023, 37(1): 16-32.

摘要 (435) PDF (3259 KB) (378)

语义角色标注是自然语言处理中的一项重要任务,涉及文本挖掘、神经网络学习、统计语言学等多个研究领域。在对一个汉语语料库进行语义角色分析时,发现现有的汉语语义角色体系存在一定的局限性。通过引入新的语义角色、吸收和重新定义现有语义角色体系中的语义角色,该文提出了一种改进的汉语语义角色分类体系。该语义角色分类体系将事件中的语义角色分为两大类,即中枢语义角色和周边语义角色,其中,周边语义角色可进一步被细分为主要周边语义角色和辅助周边语义角色。为了减少语义理解的主观性从而客观地判断语义角色类型,该文基于语义和句式以“判断标准-相应例句”的形式详细解释了语义角色分类体系中的主要周边语义角色,并从中枢语义角色半自动化判断、复合动词作中枢语义角色处理、易混淆语义角色难点分析和辅助周边语义角色标注规定等多个方面给出了提高语义角色标注一致性的说明。最后,根据提出的语义角色分类体系对实验语料库进行了语义角色的标注实践,分析了标注一致性,统计了新提出和重定义的主要周边语义角色在语料库中的分布情况,并与基于鲁川语义角色分类体系得到的标注结果进行了对比。

Select

基于主动学习与众包的农业知识标注体系及语料库构建

姜京池,关昌赫,刘劼,关毅,柯善风

2023, 37(1): 33-45.

摘要 (481) PDF (4933 KB) (309)

农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点。为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结合的农业知识标注体系。在农学专家的指导和参与下,构建了包含9类实体以及15大类、37小类语义关系的多源农业知识标注语料库,其中农业书籍源共3.7万个实体、3.5万个实体关系,百度百科源含1.1万个实体以及1.5万个实体关系。在实验部分,我们利用标注一致性评价标准对比了两类数据源的标注质量,并从实体识别、关系抽取两个方面证明了主动学习能够节约标注成本、提升标注效率和模型训练效果,为后续研究打下了坚实基础。

Select

面向特定领域中文阅读理解数据集研究

孙越凡,杨亮,林原,许侃,林鸿飞

2022, 36(12): 44-51.

摘要 (476) PDF (3362 KB) (548)

机器阅读理解旨在训练模型使其拥有理解自然语言并回答问题的能力,以便于以较低的人力解决现实世界中的问题。该文提出了一种面向特定领域(餐饮行业)的中文阅读理解数据集——Restaurant(Res)。该数据集的初始数据来自大众点评应用程序,以餐饮行业的用户评论为初始文本,标注者在此基础上提出问题并给出答案。目前Res数据集有两个版本,Res_v1中所有问题的答案都可以在用户评论中找到,Res_v2在Res_v1的基础上增加评论中没有答案的问题,进一步契合现实场景。该文在此数据集上应用主流的BiDAF、QANet和Bert模型进行实验,实验结果显示该数据集上最高的准确率只有73.78%,相比于人类接近91.03%的正确率仍有较大差距。

Select

一种细粒度的汉语语义角色标注数据集的构建方法

宋衡,曹存根,王亚,王石

2022, 36(12): 52-66,73.

摘要 (423) PDF (4689 KB) (774)

语义角色对自然语言的语义理解和分析有着重要的作用,其自动标注技术依赖良好的语义角色标注训练数据集。目前已有的大部分语义角色数据集在语义角色的标注上都不够精确甚至粗糙,不利于语义解析和知识抽取等任务。为了满足细粒度的语义分析,该文通过对实际语料的考察,提出了一种改进的汉语语义角色分类体系。在此基础上,以只有一个中枢语义角色的语料作为研究对象,提出了一种基于半自动方法的细粒度的汉语语义角色数据集构建方法,并构建了一个实用的语义角色数据集。截至目前,该工程一共完成了9 550条汉语语句的语义角色标注,其中含有9 423个中枢语义角色,29 142个主要周边语义角色,3 745个辅助周边语义角色,172条语句被进行了双重语义角色标注,以及104条语句被进行了不确定语义事件的语义角色标注。我们采用Bi-LSTM+CRF的基线模型在构建好的汉语语义角色数据集和公开的Chinese Proposition Bank数据集进行了关于主要周边语义角色的基准实验。实验表明,这两个语义角色数据集在主要周边语义角色自动识别方面存在差异,并且为提高主要周边语义角色的识别准确率提供了依据。

Select

基于Self-Attention的句法感知汉语框架语义角色标注

王晓晖,李茹,王智强,柴清华,韩孝奇

2022, 36(10): 38-44.

摘要 (408) PDF (4377 KB) (463)

框架语义角色标注(Frame Semantic Role Labeling, FSRL)是基于FrameNet标注体系的语义分析任务。语义角色标注通常对句法有很强的依赖性,目前的语义角色标注模型大多基于双向长短时记忆网络Bi-LSTM,虽然可以获取句子中的长距离依赖信息,但无法很好地获取句子中的句法信息。因此,引入Self-Attention机制来捕获句子中每个词的句法信息。实验结果表明,该模型在CFN(Chinese FrameNet,汉语框架网)数据集上的F₁值得到了提升,证明了融入self-attention机制可以改进汉语框架语义角色标注模型的性能。

Select

中文药品知识库的研究与构建

张坤丽,任晓辉,庄雷,昝红英,张维聪,穗志方

2022, 36(10): 45-53.

摘要 (709) PDF (1948 KB) (622)

分类体系完善、药品信息全面的药品知识库能够为临床决策以及临床合理用药提供依据和支持。该文以国内的多个医药资源作为参考和数据来源,建立了药品库知识描述体系和分类体系,对药品进行标准化分类并形成详细的知识描述,构建了多来源的中文药品知识库(Chinese Medicine Knowledge Base,CMKB)。所构建的CMKB的分类包括27种一级类别和119种二级类别,从药品的适应证、用法用量等多个层面对14 141种药品进行描述并采用BiLSTM-CRF和T-BiLSTM-CRF模型将非结构化描述中的疾病实体进行了信息抽取,形成了对药品属性的结构化信息抽取,建立了药品实体与自动抽取的疾病实体之间的知识关联。所构建的CMKB能够与中文医学知识图谱进行连接,扩充药品信息,并能够为智能诊断和医疗问答等提供知识基础。

Select

面向问题复述识别的定向数据增强方法

朱鸿雨,金志凌,洪宇,苏玉兰,张民

2022, 36(9): 38-45.

摘要 (541) PDF (1132 KB) (573)

问题复述识别旨在召回“同质异构”的问句对子(语义相同表述迥异的问句)和摒弃语义无关的噪声问句,对输入的问句对进行“是复述”和“非复述”的二相判别。现有预训练语言模型(如BERT、RoBERTa和MacBERT)被广泛应用于自然语言的语义编码,并取得了显著的性能优势。然而,其优势并未在问句复述问题的求解中得到充分的体现,原因在于: ①预训练语言模型对特定任务中精细的语义表示需求并不敏感; ②复述样本的“是与非”往往取决于极为微妙的语义差异。微调预训练语言模型成为提高其任务适应性的关键步骤,但其极大地依赖训练数据的数量(多样性)与质量(可靠性)。为此,该文提出一种基于生成模型的定向数据增强方法(DDA)。该方法能够利用诱导标签对神经生成网络进行引导,借以自动生成多样的复述和非复述的增强样本(即高迷惑性的异构样本),促进训练数据的自动扩展。此外,该文设计了一种多模型集成的标签投票机制,并用其修正增强样本的潜在标签错误,以此提高扩展数据的可靠性。在中文问题复述数据集LCQMC上的实验结果证明,与传统数据增强方法相比,该文方法生成的样本质量更高,且语义表达更加多元化。

Select

一种面向长文本小数据集自动摘要任务的数据增强策略

皮洲,奚雪峰,崔志明,周国栋

2022, 36(9): 46-56.

摘要 (547) PDF (5023 KB) (996)

当前长文本自动摘要任务缺乏充足的数据集,限制了该领域相关算法、模型的研究。数据增强是在不直接补充训练数据的情况下增加训练数据的方法。针对上述长文本自动摘要数据缺乏问题,基于CogLTX框架,该文提出了一种面向长文本自动摘要任务的数据增强方法EMDAM(Extract-Merge Data Augmentation Method)。EMDAM主要分为抽取和归并两个核心环节。首先,从原有长文本数据集中“抽取”得到若干短句;其次,将抽取出的短句按照定义顺序“归并”为长文本;最终形成满足限定条件的新增长文本数据集。与基线模型相比较,该文在PubMED_Min、CNN/DM_Min、news2016zh_Min数据集上采用增强策略能明显提高基线模型的性能;而在SLCTDSets上使用该文的数据集增强策略,最终的Rouge得分相比未使用增强策略的模型提高了近两个百分点。上述实验结果表明,EMDAM可以在小数据集上进行扩展,为文本摘要研究提供数据支持。

Select

《动词句法语义信息词典》知识体系及其检索界面

袁毓林,曹宏

2022, 36(8): 29-36,45.

摘要 (540) PDF (1820 KB) (510)

该文首先介绍《动词句法语义信息词典》的体系结构与理论背景;然后,介绍该词典所区分的8种动词小类及其定义;重点介绍该词典为动词所设置的22种语义角色及其定义,由这些语义角色的不同配置而造成的20来种句法格式及其例句,及其所考察的动词的9种主要的语法功能及其对于该词类的隶属度;最后,给出该词典的检索系统的界面截图,交代其相应的纸质版本的情况。

Select

脑卒中疾病电子病历实体及实体关系标注语料库构建

常洪阳,昝红英,马玉团,张坤丽

2022, 36(8): 37-45.

摘要 (598) PDF (2508 KB) (757)

该文探讨了在脑卒中疾病中文电子病历文本中实体及实体间关系的标注问题,提出了适用于脑卒中疾病电子病历文本的实体及实体关系标注体系和规范。在标注体系和规范的指导下,进行了多轮的人工标注及校正工作,完成了158万余字的脑卒中电子病历文本实体及实体关系的标注工作。构建了脑卒中电子病历实体及实体关系标注语料库(Stroke Electronic Medical Record entity and entity related Corpus, SEMRC)。该文所构建的语料库共包含命名实体10 594个,实体关系14 457个。实体名标注一致率达到85.16％,实体关系标注一致率达到94.16％。

Select

汉语块依存语法与树库构建

钱青青,王诚文,荀恩东,王贵荣,饶高琦

2022, 36(7): 50-58.

摘要 (504) PDF (6838 KB) (371)

该文提出了以谓词为核心的块依存语法,以谓词为核心,以组块为研究对象,在句内和句间寻找谓词所支配的组块,利用汉语中组块和组块间的依存关系补全缺省部分,明确谓词支配关系。根据块依存文法体系,目前共标注2 199篇文本,涵盖百科、新闻两个领域,共约180万字语料。该文简述了块依存文法的原则,并对组块及其依存关系进行了定义。该文详细介绍了标注流程、标注一致率、数据分布等情况。基于现有的树库,该文发现汉语中有约25%的小句是非自足的,约有88%的核心谓词可支配1～3个从属成分。

Select

面向机器道德判断任务的细粒度中文道德语义知识库构建

王弘睿,于东

2022, 36(7): 59-68.

摘要 (524) PDF (9667 KB) (327)

道德智慧——一种做出道德判断的能力,是人类智力的一个独特元素。让机器学习人类的道德判断能力,做出符合社会道德观念的判断,是机器伦理领域的重要研究问题。目前,道德判断相关研究多为基于英文背景的简单粗粒度判断,缺少适用于中国社会的、细粒度分类的道德知识数据资源。基于此,该文提出面向机器道德判断的细粒度中文道德语义知识库构建任务,设计适用于中国社会的道德行为归类体系、道德框架表示体系和道德强度衡量体系三个维度的理论体系,构建了包含15 371词的中文道德语义知识库。

Select

中文问句的形式分类和资源建设

黎江涛,饶高琦

2022, 36(7): 69-76.

摘要 (536) PDF (1880 KB) (607)

该文归纳了问句形式在问句语料筛选中的作用,探索了问句分类必需的形式特征,同时通过人工标注建设了中文问句分类语料库,并在此基础上进行了基于规则和统计的分类实验,通过多轮实验迭代优化特征组合形成特征规则集,为当前问答提供形式上的分类基础。实验中,基于优化特征规则集的有限状态自动机可实现宏平均F₁值为0.94;统计机器学习中随机森林模型的分类效果较好,F₁值宏平均达到0.98。

Select

汉英篇章衔接对齐语料库构建研究

李艳翠,冯继克,来纯晓,冯洪玉,冯文贺

2022, 36(4): 39-47,56.

摘要 (357) PDF (1723 KB) (780)

篇章衔接性分析是理解篇章的基础,汉语和英语在指代、连接和省略等主要衔接方式上存在差异。该文分别给出子句、连接词、指代和省略的汉英篇章衔接对齐标注策略,创建了规模为200个对齐文档的语料库资源,对标注语料进行质量评估并讨论了标注中的难点问题及解决方法。语料库中的子句、连接词和指代标注一致率分别为0.909、0.876和0.920。在该文构建的语料库上分别进行子句切分和连接词识别实验,结果表明,该文语料标注策略切实可行,标注质量满足实际需要。

Select

城市大脑知识图谱构建及应用研究

马亚中,张聪聪,徐大鹏,梅一多,孙兴雷,赵志宾,王静宇

2022, 36(4): 48-56.

摘要 (794) PDF (4882 KB) (1373)

随着城市大脑建设进程的推进,城市中积累了大量的物联网(IoT)设备和数据,利用海量设备数据对问题进行分析和溯源,对于城市大脑建设具有重要意义。该文基于资源描述框架和智能物联网协议概念,提出一种以城市物联网本体为基础的城市大脑知识图谱建设方法,城市大脑知识图谱模型融合多源异构数据,覆盖城市基本要素,实现对城市要素的全面感知和深度认知。该文重点探究了城市事件本体中的事件抽取,设计了一种新颖的语言模型框架对事件类型和论元联合抽取,与单模型分析对比,该联合模型较单模型的事件类型和论元F₁值分别提高0.4%和2.7%,在时间和模型复杂度上,较单模型级联也有更好效果。最后,该研究对知识图谱技术与人工智能、多传感器融合、GIS等新一代信息技术交叉融合方面进行了探究分析,为城市治理和服务应用场景提供理论依据。

Select

糖尿病电子病历实体及关系标注语料库构建

叶娅娟,胡斌,张坤丽,昝红英

2023, 37(12): 17-25.

摘要 (269) PDF (1860 KB) (315)

电子病历是医疗信息的重要来源,包含大量与医疗相关的领域知识。该文从糖尿病电子病历文本入手,在调研了国内外已有的电子病历语料库的基础上,参考I2B2实体及关系分类,建立了糖尿病电子病历实体及实体关系分类体系,并制定了标注规范。利用实体及关系标注平台,进行了实体及关系预标注及多轮人工校对工作,形成了糖尿病电子病历实体及关系标注语料库(Diabetes Electronic Medical Record entity and relation Corpus,DEMRC)。DEMRC共包含8 899个实体、456个实体修饰及16 564个关系,对其进行一致性评价和分析,发现实体及关系标注一致性达到了0.854 2和0.941 6。针对实体识别和实体关系抽取任务,分别采用基于迁移学习的BiLSTM-CRF模型和RoBERTa模型进行初步实验,并对语料库中的各类实体及关系进行评估,为后续糖尿病电子病历实体识别、关系抽取研究及糖尿病知识图谱构建打下基础。

Select

第二届中文抽象语义表示解析评测

李斌,许智星,肖力铭,周俊生,曲维光,薛念文

2023, 37(6): 33-43.

摘要 (372) PDF (1960 KB) (176)

抽象语义表示是近年来国内外句子语义解析领域的研究热点,国际上已举办了CoNLL2019和CoNLL2020两届跨语言的评测。中文抽象语义表示评测是CoNLL2020的五大任务之一,取得了接近英语的解析效果,但是评测数据和评测指标仍有较大改进空间。为了推动中文抽象语义解析研究,该文在第二十一届中国计算语言学大会技术评测任务研讨会上组织了第二届评测,以新设计的Align-smatch指标为排名标准,采用改进的语义标注方案和标注语料库来进行评测。在基础测试集上,封闭模式的最高F₁值为80.00%;盲测集上的表现则相比基础测试集下降了7个百分点左右。本次评测的最佳结果在MRP指标下比上届提高了2.66个百分点。统计发现,整体性能提升主要来源于概念之间的语义关系预测准确率的提高,而语义关系的对齐还有待提升。

Select

基于结构树库的状位动词语义分类及搭配库构建

邵田,翟世权,饶高琦,荀恩东

2023, 37(6): 44-51,66.

摘要 (269) PDF (1427 KB) (205)

一般情况下,一个小句中只有一个动词,但是也有两个动词接连在一个小句中出现的情况,此时连用的两个动词在句法上有可能构成状中、述补、动宾、连谓及并列等结构,语义上可能表示修饰、支配、并列等关系。连续使用的两个动词构成了相对复杂的结构与语义关系,尤其是在没有形式标记的情况下,如何自动识别连用动词所构成的结构及其所表达的语义关系是句法语义分析在落地过程中面对的较为困难的问题。对此,该文将研究对象定位于直接作状语的动词,从大规模结构树库中抽取两个动词连用的情况,并对语料进行消歧,提取出作状语的动词后,进一步对其进行语义的细分类,最后构建相应的语义搭配库,不仅为语言学本体研究提供了分类参考,同时也为深层次的汉语句法语义分析提供了更多的知识。

Select

中文医学细粒度知识表示体系与标注语料库构建

杨洋,关毅,李雪,姜京池,史怀璋,柳曦光

2023, 37(6): 52-66.

摘要 (396) PDF (9409 KB) (503)

面向医学知识的细粒度、可共享性与高精准性的需求,该文提出了中文医学文本知识表示体系,融合了电子病历、医学书籍与专业医学网站文本三个数据来源的医疗知识。该体系包括9类医学实体、60类实体关系。基于此,开发了可操作性高的标注工具,并为每种来源提供了规范标注的医学文本数据,构建了涵盖范围广、一致性高的细粒度标注语料库。4名临床医生对《诊断学》书籍标注了6 526个医学实体,4 229条关系,标注一致性可达0.974。三个数据源融合后实体数量344 475个,关系数量3 196 787条。该文综述了数据源融合的映射过程、标注细则,分析了各数据源的文本特点并总结标注模式,通过应用场景与文本特点表明医学书籍标注必要性。该文为中文医学语料库构建提供标注规范,并为中文医学实体识别与关系抽取提供语料支持。

“语言资源建设与应用” 栏目所有文章列表

选择文件类型/文献管理软件名称

选择包含的内容