中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2020年 34卷 12期
刊出日期:2021-01-20

综述
信息抽取与文本挖掘
自然语言处理应用
语言分析与计算
民族、跨境及周边语言信息处理
问答与对话
 
   
综述
1 立场分析研究综述
刘玮,彭鑫,李超,王品,王丽宏
随着以微博、Twitter为代表的社交媒体的快速发展,越来越多的用户喜欢在网上浏览热点信息,并发表自己的观点。立场分析旨在挖掘用户对特定目标或主题(例如,事件、产品、政策、人物或者服务等)的支持、反对或者中立的态度,该研究对舆情监管、信息推荐等具有重要意义。该文对立场分析研究开展综述,从立场分析定义,基于机器学习、深度学习及迁移学习的立场分析方法,使用的数据集三方面分别进行概述,并对未来的研究方向进行展望。
2020 Vol. 34 (12): 1-8 [摘要] ( 324 ) [HTML 1KB] [PDF 1084KB] ( 1158 )
9 知识图谱研究现状及军事应用
林旺群,汪淼,王伟,王重楠,金松昌
知识图谱以语义网络的形式将客观世界中概念、实体及其之间的关系进行结构化描述,提高了人类从数据中抽取信息、从信息中提炼知识的能力。该文形式化地描述了知识图谱的基本概念,提出了知识图谱的层次化体系架构,详细分析了信息抽取、知识融合、知识架构、知识管理等核心层次的技术发展现状,系统梳理了知识图谱在军事领域的应用,并对知识图谱未来发展的挑战和趋势进行了总结展望。
2020 Vol. 34 (12): 9-16 [摘要] ( 791 ) [HTML 1KB] [PDF 1920KB] ( 2223 )
语言分析与计算
17 基于层次分析法的汉语词汇综合复杂度量化分析
张引兵,宋继华,彭炜明,郭冬冬,宋天宝
在国际汉语教学中,词汇综合复杂度的量化研究有利于汉语二语学习者词汇习得顺序的确定,有利于教材编写过程中词汇的选择,有利于教师更加有效地组织课堂教学,最终提高教学效果。该文在对词汇的构词汉字属性、词汇一般属性、词汇统计属性等特征进行分析的基础上,构造了基于层次分析法(analytic hierarchy process, AHP)的汉语词汇综合复杂度量化模型,并将其应用于所研究词汇综合复杂度的量化分析。通过将实验结果与已有大纲词汇分级一致性的对比分析,验证了该研究词汇综合复杂度量化模型的合理性,为词汇综合复杂度的量化分析提供了定性与定量相结合的分析方案,同时也为词汇分级、文本难度分析、文本简化等提供了借鉴。
2020 Vol. 34 (12): 17-29 [摘要] ( 170 ) [HTML 1KB] [PDF 1605KB] ( 540 )
30 基于篇章主题的中文宏观篇章主次关系识别方法
孙振华,周懿,朱巧明,蒋峰,李培峰
篇章分析是自然语言处理领域研究的热点和重点。作为篇章分析的任务之一,篇章主次关系研究篇章的主要和次要内容,从而更好地理解和把握篇章的核心内容。该文重点研究宏观领域的中文篇章主次关系,提出了一种基于篇章主题的中文宏观篇章主次关系识别方法。该方法利用篇章单元间、篇章单元与篇章主题间的语义交互来识别主次关系,并有选择地应用篇章主题信息,有效提高了主次关系核心的识别。在中文宏观汉语篇章树库(MCDTB)上的实验结果显示,该方法优于目前性能最好的基准系统。
2020 Vol. 34 (12): 30-38 [摘要] ( 177 ) [HTML 1KB] [PDF 1301KB] ( 572 )
民族、跨境及周边语言信息处理
39 面向中朝跨语言文本分类的双语主题词嵌入模型的研究
王琪,田明杰,崔荣一,赵亚慧
针对日渐丰富的少数民族语言资源进行管理、研究和使用有着重要的应用价值。为了解决语言差异引起的语言鸿沟,针对中朝两种语言环境下的跨语言文本分类任务,提出了双语主题词嵌入模型。该文将词嵌入模型与主题模型扩展到双语环境,并将两种模型相结合,解决了歧义性对跨语言文本分类精度带来的影响。首先,在大规模单词级别对齐平行句对中训练中朝单词的词嵌入向量;其次,利用主题模型对中朝分类语料进行表示,并获得中朝单词的含有主题信息的词嵌入向量;最后,将中朝单词的主题词嵌入向量输入至文本分类器,进行模型的训练与分类预测。实验结果表明,中朝跨语言文本分类任务的准确率达到了91.76%,已达到实际应用的水平,同时该文提出的模型可以对一词多义单词的多个词义有很好的表示。
2020 Vol. 34 (12): 39-47 [摘要] ( 172 ) [HTML 1KB] [PDF 1594KB] ( 535 )
48 基于神经网络的藏文正字检错法
色差甲,慈祯嘉措,才让加,华果才让
在缺乏标注数据的条件下,该文将藏文正字检错任务视为一个分类问题: 首先从语言学知识中构建音节混淆子集并给每个原句加噪,然后建立深层双向表征的BERT作为分类模型,最后为了证明该方法的有效性,构建两个基线模型和三种不同领域的测试集,实验结果表明,该方法的结果优于两个基线模型。该文方法在相同领域测试集上句子分类的正确率达到93.74%,不同领域测试集上也能达到83.6%。对错误音节的识别率为74.53%,同时对无错误音节的误判率只有2.30%。
2020 Vol. 34 (12): 48-53,64 [摘要] ( 279 ) [HTML 1KB] [PDF 3660KB] ( 479 )
信息抽取与文本挖掘
54 部首感知的中文医疗命名实体识别
李丹,徐童,郑毅,王喆锋,陈恩红
人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移到医疗领域的实体类型中,分析效果较为有限。针对这一问题,该文设计了长短期记忆网络与条件随机场的联合模型并引入BERT模型;在此基础之上,考虑到医疗领域命名实体鲜明的部首特征,通过将部首信息编码到字向量中,并且结合部首信息修改条件随机场层得分函数的计算方式,有效地提升了医疗领域命名实体的抽取能力。通过两项电子病历数据集的实验结果表明,该文提出的模型整体效果略高于通用的实体识别模型,并对疾病诊断等特定类型的实体词的识别效果具有较为明显的提升。
2020 Vol. 34 (12): 54-64 [摘要] ( 311 ) [HTML 1KB] [PDF 2596KB] ( 589 )
65 基于原型网络的细粒度实体分类方法
任权
细粒度实体分类任务作为命名实体识别任务的扩展,其目的是根据指称及其上下文,发掘实体更细粒度的类别含义。由于细粒度实体语料的标注代价较大,标注错误率较高,因此该文研究了在少量样本情况下的细粒度实体分类方法。该文首先提出了一种特征提取模型,能够分别从单词层面以及字符层面提取实体信息,随后结合原型网络将多标签分类任务转化为单标签分类任务,通过缩小空间中同类样本与原型的距离实现分类。该文使用少样本学习以及零样本学习两种设置在公开数据集FIGER(GOLD)上进行了实验,在少样本学习的设置下,较基线模型在三个指标中均有提升,其中macro-F1的提升最大,为2.4%。
2020 Vol. 34 (12): 65-72 [摘要] ( 155 ) [HTML 1KB] [PDF 1640KB] ( 612 )
问答与对话
73 基于CFN和篇章主题的概括型问答题的解答
杨陟卓,李春转,张虎,钱揖丽,李茹
相对于普通阅读理解,高考语文阅读理解难度更大,问句更加抽象,答案候选句的抽取除了注重与问句的相似性分析,还注重对材料内容以及作者的观点的概括归纳。因此该文提出了利用汉语框架网(Chinese FrameNet)抽取与问句语义相似的候选句的方法,通过识别篇章主题(段落主题句和作者观点句),生成与问句相关的内容要点以及作者的观点态度,最终选取top 6作为答案句。在近12年北京市高考真题上进行测试,召回率达到了68.69%,验证了该方法的有效性。
2020 Vol. 34 (12): 73-81 [摘要] ( 163 ) [HTML 1KB] [PDF 2292KB] ( 584 )
自然语言处理应用
82 基于深度神经网络的诗词检索
梁健楠,孙茂松,矣晓沅
中国古典诗词是中国古典文学的代表之一,是中华传统文化的宝藏,源远流长。中国古典诗词研究是自然语言处理方向的一项重要且富有意义的工作。随着人工智能的发展,人工神经网络在图像、文本等领域得到广泛的应用,取得了显著的突破,给人工智能与中国古典诗词相结合提供了新的思路和方法。让机器去理解中国古典诗词的韵律和意境是一项极具挑战的工作,其中,通过研究诗词的相似性来提升机器对诗词的理解这一研究课题被赋予了更为重要的意义。诗词检索是对诗词内容做对比,查找出在语义和意境上相接近的诗词,这要求对整首诗词的内容和意境有深入的理解。该文模型以数十万首古诗作为基础,利用循环神经网络(RNN)自动学习古诗句的语义表示,并设计了多种方法自动计算两首诗之间的关联性,以此计算两首诗词之间的语义距离,实现诗词的推荐。自动评测和人工评测的实验结果都表明,该文模型能够生成质量较好的诗词检索结果。
2020 Vol. 34 (12): 82-91 [摘要] ( 212 ) [HTML 1KB] [PDF 1939KB] ( 654 )
92 小说人物的分布表示及其应用研究
贾玉祥,王璐,刘鹏程,王钤,张岳,昝红英
小说是以刻画人物为中心,通过完整的故事情节和具体的环境描写反映社会生活的一种文学体裁。对小说人物进行建模,是小说文本理解和小说文本挖掘的基础性工作。该文构建了大规模的小说语料库,抽取人物及其依存特征,提出基于skip-gram的人物向量训练方法,以人物为目标,以依存特征为上下文,基于训练出的人物向量,探索了小说人物相似度计算、小说人物聚类分析及小说人物画像等应用。实验结果表明,小说人物的分布表示有较好的应用效果。
2020 Vol. 34 (12): 92-99 [摘要] ( 165 ) [HTML 1KB] [PDF 1374KB] ( 626 )
100 临床检验指标术语库的构建与病历挖掘应用
张知行,张佳影,高大启,阮彤,王俊,何萍,姚华彦
由于上海市区域医疗健康平台整合了38家三级医院的电子病历,各医院表述同一临床检验指标的多样性和歧义性已严重影响病历挖掘研究。然而现有术语库理论性强,难以覆盖实际临床用语,需要构建融合38家医院的临床检验指标术语库。针对该问题,在模式图定义、知识抽取、知识融合和知识校验4个步骤基础上,提出半自动的术语库构建方案,以上海卫健委制定的医保术语为标准,先构建标准指标术语子库,再利用基于BERT的临床检验指标对齐模型,将38家医院的指标作为同义词归入标准术语。最终形成的指标术语库包含23 495个实体和47 746条事实三元组,可用于病历清洗、病历查询等应用。实验表明,所用指标对齐模型的F1-score可达95.78%,在大肠癌挖掘课题中使用术语库可增加查询记录高达94%。此外,大肠癌相关指标的专病术语库已在dcakb.ecustnlplab.com公开。
2020 Vol. 34 (12): 100-110 [摘要] ( 154 ) [HTML 1KB] [PDF 5482KB] ( 558 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发