中文信息学报

Select

徐军,丁宇新,王晓龙

2007, 21(6): 95-100.

摘要 (1430) PDF (340 KB) (8929)

本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。

Select

中文事件抽取技术研究

赵妍妍,秦兵,车万翔,刘挺

2008, 22(1): 3-8.

摘要 (1897) PDF (305 KB) (7352)

事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。

Select

注意力机制在深度学习中的研究进展

朱张莉,饶元,吴渊,祁江楠,张钰

2019, 33(6): 1-11.

摘要 (2418) PDF (2547 KB) (7316)

注意力机制逐渐成为目前深度学习领域的主流方法和研究热点之一,它通过改进源语言表达方式,在解码中动态选择源语言相关信息,从而极大改善了经典Encoder-Decoder框架的不足。该文在提出传统基于Encoder-Decoder框架中存在的长程记忆能力有限、序列转化过程中的相互关系、模型动态结构输出质量等问题的基础上,描述了注意力机制的定义和原理,介绍了多种不同的分类方式,分析了目前的研究现状,并叙述了目前注意力机制在图像识别、语音识别和自然语言处理等重要领域的应用情况。同时,进一步从多模态注意力机制、注意力的评价机制、模型的可解释性及注意力与新模型的融合等方面进行了探讨,从而为注意力机制在深度学习中的应用提供新的研究线索与方向。

Select

神经机器翻译前沿综述

冯洋,邵晨泽

2020, 34(7): 1-18.

摘要 (4158) PDF (6554 KB) (6971)

机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。神经机器翻译仅需使用神经网络就能实现从源语言到目标语言的端到端翻译,目前已成为机器翻译研究的主流方向。该文选取了近期神经机器翻译的几个主要研究领域,包括同声传译、多模态机器翻译、非自回归模型、篇章翻译、领域自适应、多语言翻译和模型训练,并对这些领域的前沿研究进展做简要介绍。

Select

从视觉到文本: 图像描述生成的研究进展综述

魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁

2020, 34(7): 19-29.

摘要 (3502) PDF (981 KB) (6615)

近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。

Select

基于深度学习的微博情感分析

梁军,柴玉梅,原慧斌,昝红英,刘铭

2014, 28(5): 155-161.

摘要 (2491) PDF (2605 KB) (6105)

中文微博情感分析旨在发现用户对热点事件的观点态度。已有的研究大多使用SVM、CRF等传统算法根据手工标注情感特征对微博情感进行分析。该文主要探讨利用深度学习来做中文微博情感分析的可行性,采用递归神经网络来发现与任务相关的特征,避免依赖于具体任务的人工特征设计,并根据句子词语间前后的关联性引入情感极性转移模型加强对文本关联性的捕获。该文提出的方法在性能上与当前采用手工标注情感特征的方法相当,但节省了大量人工标注的工作量。

Select

话题检测与跟踪的评测及研究综述

洪宇,张宇,刘挺,李生

2007, 21(6): 71-87.

摘要 (1786) PDF (761 KB) (6069)

话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。

Select

面向医疗文本的实体及关系标注平台的构建及应用

张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英

2020, 34(6): 36-44.

摘要 (828) PDF (2358 KB) (6021)

医疗文本数据是推行智慧医疗的重要数据基础,而医疗文本为半结构或非结构化数据,难以对其直接进行应用。对医疗文本中所包含的实体及实体关系进行标注是文本结构化的重要手段,也是命名实体识别、关系自动抽取研究的基础。传统的人工标注方法费力费时,已难以适应大数据发展的需求。该文以构建中文医学知识图谱的任务为驱动,构建了半自动化实体及关系标注平台。该平台融合多种算法,能够实现文本预标注、进度控制、质量把控和数据分析等多种功能。利用该平台,进行了医学知识图谱中实体和关系标注,结果表明该平台能够在文本资源建设中控制标注过程,保证标注质量,提高标注效率。同时该平台也被应用于其他文本标注任务,表明该平台具有较好的任务移植性。

Select

基于语言模型的预训练技术研究综述

岳增营,叶霞,刘睿珩

2021, 35(9): 15-29.

摘要 (1165) PDF (1771 KB) (5747)

预训练技术当前在自然语言处理领域占有举足轻重的位置。尤其近两年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等预训练模型的成功,进一步将预训练技术推向了研究高潮。该文从语言模型、特征抽取器、上下文表征、词表征四个方面对现存的主要预训练技术进行了分析和分类,并分析了当前自然语言处理中的预训练技术面临的主要问题和发展趋势。

Select

基于深度神经网络的中文命名实体识别

张海楠,伍大勇,刘悦,程学旗

2017, 31(4): 28-35.

摘要 (2276) PDF (3348 KB) (5622)

Baidu(16)

由于中文词语缺乏明确的边界和大小写特征,单字在不同词语下的意思也不尽相同,较于英文,中文命名实体识别显得更加困难。该文利用词向量的特点,提出了一种用于深度学习框架的字词联合方法,将字特征和词特征统一地结合起来,它弥补了词特征分词错误蔓延和字典稀疏的不足,也改善了字特征因固定窗口大小导致的上下文缺失。在词特征中加入词性信息后,进一步提高了系统的性能。在1998年《人民日报》语料上的实验结果表明,该方法达到了良好的效果,在地名、人名、机构名识别任务上分别提高1.6%、8%、3%,加入词性特征的字词联合方法的F1值可以达到96.8%、94.6%、88.6%。

Select

基于迭代回归树模型的跨平台长尾商品购买行为预测

白婷,文继荣,赵鑫,杨伯华

2017, 31(5): 185-193.

摘要 (835) PDF (2497 KB) (5512)

长尾商品是指单种商品销量较低,但是由于种类繁多,形成的累计销售总量较大,能够增加企业盈利空间的商品。在电子商务网站中,用户信息量较少且购买长尾商品数量较少、数据稀疏,因此对用户购买长尾商品的行为预测具有一定的挑战性。该文提出预测用户购买长尾商品的比例,研究单一用户购买长尾商品的整体偏好程度。利用社交媒体网站上海量的文本信息和丰富的用户个人信息,提取用户的个人属性、文本语义、关注关系、活跃时间等多个种类的特征;采用改进的迭代回归树模型MART(Multiple Additive Regression Tree),对用户购买长尾商品的行为进行预测分析;分别选取京东商城和新浪微博作为电子商务网站和社交媒体网站,使用真实数据构建回归预测实验,得到了一些有意义的发现。该文从社交媒体网站抽取用户特征,对于预测用户购买长尾商品的行为给出一个新颖的思路,可以更好地理解用户个性化需求,挖掘长尾市场潜在的经济价值,改进电子商务网站的服务。

Select

知识图谱研究现状及军事应用

林旺群,汪淼,王伟,王重楠,金松昌

2020, 34(12): 9-16.

摘要 (2234) PDF (1920 KB) (5512)

知识图谱以语义网络的形式将客观世界中概念、实体及其之间的关系进行结构化描述,提高了人类从数据中抽取信息、从信息中提炼知识的能力。该文形式化地描述了知识图谱的基本概念,提出了知识图谱的层次化体系架构,详细分析了信息抽取、知识融合、知识架构、知识管理等核心层次的技术发展现状,系统梳理了知识图谱在军事领域的应用,并对知识图谱未来发展的挑战和趋势进行了总结展望。

Select

指代消解的基本方法和实现技术

王厚峰

2002, 16(6): 10-18.

摘要 (1482) PDF (458 KB) (5437)

指代是自然语言中常见的语言现象,大量出现在篇章或对话中。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理上热门的研究问题。针对指代和指代消解的有关问题,本文对基本概念作了说明,分析了语言中典型的指代现象和指代消解所需的基本语言知识;同时,介绍了指代消解中有代表性的几种计算模型和近10年来采用的若干实现技术。

Select

多模态信息处理前沿综述:应用、融合和预训练

吴友政,李浩然,姚霆,何晓冬

2022, 36(5): 1-20.

摘要 (2930) PDF (4551 KB) (5372)

随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。

Select

面向微博文本的情绪标注语料库构建

姚源林,王树伟,徐睿峰,刘滨,桂林,陆勤,王晓龙

2014, 28(5): 83-91.

摘要 (1895) PDF (1028 KB) (4979)

文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设计了一套完整的情绪标注规范。遵循这一规范,首先对微博文本进行了微博级情绪标注,对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后,对微博中的句子进行有无情绪及情绪类别进行标注,并标注了各情绪类别对应的强度。目前,已完成14000条微博,45431句子的情绪标注语料库构建。应用该语料库组织了NLP&CC2013中文微博情绪分析评测,有力地促进了微博情绪分析相关研究。

Select

中文文本分类中特征抽取方法的比较研究

代六玲,黄河燕,陈肇雄

2004, 18(1): 27-33.

摘要 (1080) PDF (340 KB) (4929)

本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机(SVM)和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明,在英文文本分类中表现良好的特征抽取方法(IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。

Select

汉语复句的结构分析

张仕仁

1994, 8(4): 43-54.

摘要 (664) PDF (648 KB) (4887)

本文详细分析了复句结构, 论述了用盒式图表示复句的形式结构, 用复杂特征集表示复句的意义结构前者直观易懂, 便于非专业人员理解, 后者从深层表示复句的意义, 便于计算机加工处理最后探讨了汉语复句的自动分析方法

Select

基于螺旋注意力网络的方面级别情感分析模型

杜成玉,刘鹏远

2020, 34(9): 70-77.

摘要 (730) PDF (1840 KB) (4740)

方面级别情感分析是一项细粒度的情感分类任务,旨在确定特定方面的情感极性。以往的方法大都是基于方面或上下文向量的平均值来学习上下文或方面词的注意力权重,但当方面词和上下文较长时,这种方法可能会导致信息丢失。该文提出了一种建立在BERT表示上的螺旋注意力网络(BHAN)来解决这一问题,模型中的螺旋注意力机制与之前注意力机制不同的是,基于方面词得到加权后的上下文表示后,用这个新的表示计算方面词的权重,然后用这个新的方面词的表示重新计算上下文的权重,如此循环往复,上下文和方面词的表示会得到螺旋式的提高。该文在2014年SemEval任务4和Twitter数据集上进行了模型评估,实验结果表明,其性能超过了之前最佳模型的结果。

Select

基于改进生成对抗网络的谣言检测方法

李奥,但志平,董方敏,刘龙文,冯阳

2020, 34(9): 78-88.

摘要 (853) PDF (4645 KB) (4727)

传统谣言检测算法存在提取文本语义、关键特征等效果不理想的问题,而一般序列模型在文本检测中无法解决特定语义下的特征提取,导致模型泛化能力差。为解决上述问题,该文提出一种改进的生成对抗网络模型(TGBiA)用于谣言检测,该模型采用对抗训练方式,符合谣言在传播过程中人为增删、夸大和歪曲信息的特点,通过对抗网络生成器和判别器的相互促进作用,强化谣言指示性特征的学习,不断提高模型的学习能力。训练过程中的生成器通过Transformer结构代替单一的RNN网络,实现语义的提取和特征的学习,同时,在训练过程中的判别器采用基于双向长短期记忆单元的深度网络分类模型,并引入注意力机制来提升对较长时间序列谣言的判断能力。在公开的微博和Twitter数据集上的实验结果表明,该文提出的方法比其他现有方法检测效果更好,鲁棒性更强。

Select

基于粗糙数据推理的TextRank关键词提取算法

周宁,石雯茜,朱昭昭

2020, 34(9): 44-52.

摘要 (639) PDF (1795 KB) (4658)

基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩大关联范围,增加关联数据,得到的结果更加全面。结合粗糙数据推理理论中的关联规则,该文提出的算法做了以下改进: 依据词义对候选关键词进行划分;再通过粗糙数据推理对不同分类中候选词间的关联关系进行推理。实验结果表明,与传统的TextRank算法相比,改进后算法的提取精度有了明显的提高,证明了利用粗糙数据推理的思想能有效地改善算法提取关键词的性能。

Select

基于Transformer增强架构的中文语法纠错方法

王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘

2020, 34(6): 106-114.

摘要 (1401) PDF (5647 KB) (4652)

语法纠错任务是自然语言处理领域的一项重要任务,近年来受到了学术界广泛关注。该任务旨在自动识别并纠正文本中所包含的语法、拼写以及语序错误等。该文将语法纠错任务看作是翻译任务,即将带有错误表达的文本翻译成正确的文本,采用基于多头注意力机制的Transformer模型作为纠错模型,并提出了一种动态残差结构,动态结合不同神经模块的输出来增强模型捕获语义信息的能力。受限于目前训练语料不足的情况,该文提出了一种数据增强方法,通过对单语语料的腐化从而生成更多的纠错数据,进一步提高模型的性能。实验结果表明,该文所提出的基于动态残差的模型增强以及腐化语料的数据增强方法对纠错性能有着较大的提升,在NLPCC 2018中文语法纠错共享评测数据上达到了最优性能。

Select

基于高斯混合模型的现代汉语构式成分自动标注方法

黄海斌,常宝宝,詹卫东

2020, 34(9): 1-8.

摘要 (696) PDF (3205 KB) (4591)

现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列,并对构式内部成分进行自动标注。相较于仅基于正则表达式匹配和词性匹配的自动标注结果,该方法的F₁分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、14.9%(复句型构式)。

Select

细颗粒度汽车评论语料库的构建和分析

曹紫琰,冯敏萱,毛雪芬,程宁,宋阳,李斌

2020, 34(9): 28-35.

摘要 (861) PDF (1384 KB) (4527)

产品评论文本是情感分析的重要研究对象,目前已有的产品评论语料库大都较为粗疏,没有完整地标注出对象、属性、极性“三要素”,影响自动分析的应用场景。对此,该文构建了细颗粒度评论语料库,共包含9 343句汽车评论短文本,不仅人工标注了“三要素”的具体词语,而且将其对应到产品和属性的知识本体树上。此外,对无情感词的隐含表达、特殊文本(如建议文本、比较句等)也标注出对应的三元组并予以特殊标签。语料统计表明,对象和属性要素的共现率高达77.54%,验证了构建“三要素”齐全标注体系的必要性;基于该语料库的“三要素”自动标注实验F1值可达70.82%,验证了细颗粒度标注体系的可计算性以及语料库构建的规范性和应用价值。该语料库可以为细颗粒度情感分析研究提供基础数据。

Select

三元搭配视角下的汉语动词语义角色知识库构建

王诚文,钱青青,荀恩东,邢丹,李梦,饶高琦

2020, 34(9): 19-27.

摘要 (637) PDF (1185 KB) (4505)

动词语义角色一直是国内外语言学界研究的重点和难点。在自然语言处理领域,相关的语言资源也在逐步构建。对于汉语而言,国内大部分工作集中在语义角色标注上。该文创造性地提出了一种三元搭配的动词语义角色知识表征形式,并在前人研究的基础上,提出了一套语义角色分类体系。在该体系指导下,对汉语动词进行了穷尽式的语义角色认定及相关知识加工,以构建汉语动词语义角色知识库。截至目前,该工程考察了5 260个动词,加工了语义角色及引导词的动词数量为2 685个,加工认定语义角色4 307个。

Select

基于生成对抗网络的控辩焦点识别

杨亮,周逢清,张琍,毛国庆,易斌,林鸿飞

2020, 34(9): 89-96.

摘要 (529) PDF (1107 KB) (4460)

近年来,随着深度学习技术的不断发展,自然语言处理作为人工智能的一个重要分支,在许多垂直领域有了广泛的应用,如司法、教育、医疗等。在司法领域的庭审过程中,控辩双方往往围绕案件的争议焦点持有不同观点,而该焦点也是影响案件最终判决和量刑的关键所在,该文旨在识别并生成电子卷宗中的控辩焦点。由于控辩焦点的构成大多依赖对案情文本的分析概括,受此启发该文尝试将文本摘要的思想迁移到该任务中,结合生成对抗网络构建控辩焦点的生成模型,进而获得案件的控辩焦点。在裁判文书网的真实司法数据的基础上,开展了相关的实验。实验结果显示,所提出的模型对控辩焦点的识别精度有了一定幅度的提升。因此,该文对检察机关办案人员的庭前预案及案件审理有着一定的辅助作用与应用价值。

Select

基于特征扩展卷积神经网络的案件微博观点句识别

王晓涵,余正涛,相艳,郭贤伟,黄于欣

2020, 34(9): 62-69.

摘要 (628) PDF (2359 KB) (4441)

通常的微博观点句识别主要根据微博评论本身是否带有观点来进行判断,而案件微博的观点句识别需要进一步考虑该评论是否讨论与特定案件相关的主题。针对这一任务,该文提出一种结合微博原文进行特征扩展的观点句识别模型。以卷积神经网络分类模型为基本框架,在嵌入层加入案件微博原文中的关键词向量,与对应评论词向量进行拼接;利用扩展的特征进行观点句识别。实验表明,该模型在根据案件微博爬取的两个数据集下准确率分别达到84.74%和82.09%,与现有的基准模型相比有较明显提升。

Select

基于改进TextRank的藏文抽取式摘要生成

李维,闫晓东,解晓庆

2020, 34(9): 36-43.

摘要 (713) PDF (3775 KB) (4411)

目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。

Select

精细化的中文词性标注评测集的研制

唐乾桐,常宝宝,詹卫东

2020, 34(9): 9-18.

摘要 (716) PDF (3552 KB) (4406)

该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5 873句、涵盖了2 326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测。最后,该文指出了精细化评测体系将评测项目和评测语料联系起来的好处——在传统体系中,两者是分开的。该文从评测项目的价值和评测语料的组织性两个方面阐述了该文的评测体系相对于传统评测体系的优势,并指出了利用该文提出的评测体系改进被测程序的方法。

Select

基于HRED模型的中文多轮对话任务方法研究

王孟宇,俞鼎耀,严睿,胡文鹏,赵东岩

2020, 34(8): 78-85.

摘要 (2390) PDF (1201 KB) (4341)

多轮对话任务是自然语言处理中最具有实用价值的技术之一,该任务要求系统在产生通顺回答语句的同时能够照顾到上下文信息。近年来,出现了一大批以HRED(hierarchical recurrent encoder-decoder)模型为基础的多轮对话模型,其运用多层级的循环神经网络来编码上下文信息,并在Movie-DiC等英文对话数据集上取得了不错的结果。在2018年京东举办的中文多轮对话大赛中,京东向参赛选手公布了一批高质量的真实客服对话语料。该文在此数据上进行实验,针对HRED模型的缺点以及在中文语料下的表现进行改进,提出基于注意力和跨步融合机制与HRED模型结合的方案,实验结果表明,该方案取得了较大的性能提升。

Select

自动问答综述

郑实福,刘挺,秦兵,李生

2002, 16(6): 47-53.

摘要 (1977) PDF (318 KB) (4304)

自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。本文介绍了自动问答技术的发展现状和自动问答系统中常用的技术。自动问答系统一般包括三个主要组成部分:问题分析、信息检索和答案抽取。本文分别介绍了这三个主要组成部分的主要功能和常用的方法。最后还介绍了自动问答系统的评价问题。

Select

中文文本分类中的特征选择研究

周茜,赵明生,扈旻

2004, 18(3): 18-24.

摘要 (1122) PDF (389 KB) (4239)

本文介绍和比较了八种用于文本分类的特征选择方法,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式,并提出了一种新的类别区分词的特征选择方法,结合两种不同的分类方法:文本相似度方法和Na?ve Bayes方法,在两个不同的数据集上分别作了训练和测试,结果表明,在这八种文本特征选择方法中,多类优势率和类别区分词方法取得了最好的选择效果。其中,当用Na?ve Bayes分类方法对各类分布严重不均的13890样本集作训练和测试时,当特征维数大于8000以后,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出3%～5%左右。

Select

中文实体关系抽取中的特征选择研究

董静,孙乐,冯元勇,黄瑞红

摘要 (805) PDF (539 KB) (4189)

命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测

Select

开放式文本信息抽取

赵军,刘康,周光有,蔡黎

2011, 25(6): 98-111.

摘要 (1192) PDF (3005 KB) (4117)

信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。该文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。

Select

基于双向注意力机制的图像描述生成

张家硕,洪宇,李志峰,姚建民,朱巧明

2020, 34(9): 53-61.

摘要 (711) PDF (10345 KB) (4102)

结合注意力机制的编码器—解码器框架被广泛应用于图像描述生成任务中。以往方法中,注意力机制根据当前时刻的语义信息挑选出重要的局部图像特征,进而依靠解码器的“翻译”能力将图像特征解码成文字。然而,在此过程中,单向的注意力机制并未检验语义信息与图像内容的一致性。因此,所生成的描述在准确性方面有所欠缺。为解决上述问题,该文提出一种基于双向注意力机制的图像描述生成方法,在单向注意力机制的基础上,加入图像特征到语义信息方向上的注意力计算,实现图像和语义信息两者在两个方向上的交互,并设计了一种门控网络对上述两个方向上的信息进行融合。最终,提高解码器所蕴含的语义信息与图像内容的一致性,使得所生成描述更加准确。此外,与前人研究不同的是,该文在注意力模块中利用了历史时刻的语义信息辅助当前时刻的单词生成,并对历史语义信息的作用进行了验证。该文基于MSCOCO和Flickr30k两种图像描述生成数据集,并使用两种图像特征进行了实验。实验结果显示,在MSCOCO数据集上,BLEU_4分值平均提升1.3,CIDEr值平均提升6.3。在Flickr30k数据集上,BLEU_4分值平均提升0.9,CIDEr值平均提升2.4。

Select

字形技术及OpenType字体文件格式研究

肖明,胡金柱,赵慧

1999, 13(6): 54-61.

摘要 (1121) PDF (348 KB) (4093)

Baidu(49)

随着Windows操作系统及TrueType字体(TTF)的流行,字形技术的重要性已越来越受到人们的关注。本文介绍了从TrueType、OpenType到Clear Type的最新发展,比较详细地分析了OpenType字体(OTF)文件的结构,解释了其中的重要描述表。用户若能正确掌握OTF字体文件格式,就可以建立自己的特殊字体,并可以在字体应用领域取得良好的应用效果。

Select

情感语料库的构建和分析

徐琳宏,林鸿飞,赵晶

2008, 22(1): 116-122.

摘要 (1303) PDF (1096 KB) (4072)

本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。

Select

统计机器翻译综述

刘群

2003, 17(4): 2-13.

摘要 (1092) PDF (232 KB) (4042)

本文综述了基于信源信道思想和基于最大熵思想的统计机器翻译方法并介绍了统计机器翻译的评测方法。基于信源信道的方法将翻译概率表示为一个语言模型和一个翻译模型。而基于最大熵的方法则是利用一系列实数值特征函数的线性组合来求解最优的译文。基于最大熵的统计机器翻译方法比基于信源信道的方法更具有一般性,后者可以看做前者的一个特例。

Select

中文医学知识图谱CMeKG构建初探

奥德玛,杨云飞,穗志方,代达劢,常宝宝,李素建,昝红英

2019, 33(10): 1-7.

摘要 (3897) PDF (6474 KB) (3905)

医学知识图谱是智慧医疗应用的基石,可以为机器阅读理解医学文本、智能咨询、智能诊断提供知识基础。现有的医学知识图谱从规模化、规范化、体系性、形式化等方面还不足以满足智慧医疗应用的需求。此外,对复杂医学知识的精准描述更是构建医学知识图谱面临的重要挑战。针对上述问题,该文利用自然语言处理与文本挖掘技术,以人机结合的方式研发了中文医学知识图谱第一版CMeKG 1.0(Chinese Medical Knowledge Graph)。CMeKG 1.0的构建参考了ICD-10、ATC、MeSH等权威的国际医学标准术语集以及规模庞大、多源异构的临床路径指南、临床实践、医学百科等资源,覆盖了疾病、药物和诊疗技术,包括100余万个医学概念关系的实例。该文综述了CMeKG 1.0构建过程中的描述体系、关键技术、构建流程以及医学知识描述等相关问题,希望为医学领域知识图谱的构建与应用提供一些参考。

Select

基于最优文档嵌入的《红楼梦》作者辨析

薛扬,梁循,谢华伦,杜玮

2020, 34(9): 97-110.

摘要 (666) PDF (7923 KB) (3899)

该文以包括《红楼梦》在内的51部当代及明清文学作品为语料集,利用文档嵌入算法,根据文档嵌入向量的酉不变性定义了不同作者作品文档嵌入矩阵及文档嵌入损失函数,构建了文档嵌入模型中最优维度及最优窗口的选择模型,并根据文本用词和文档主题语义特征构建了高维空间中的文档嵌入向量。通过无监督的流形学习降维映射以及有监督的分类算法多组实验,验证了通过文档嵌入得到的向量空间模型可以有效区分不同作者的写作风格,对于已知确定作者的作品分类准确率达99.6%,对于风格较为接近的作者也可以有效识别,例如,文风相似的路遥和陈忠实。并在此分类模型的基础上,构建了变尺度滑动窗口分类模型对《红楼梦》进行深入分析,印证了“红楼梦”前80回与后40回可能来自不同作者,还发现了前100回与后20回也存在着较大的风格差异,不排除有再次更换作者的可能。该文在计算机技术层面上为《红楼梦》的作者辨析问题提供了一种支持意见和新的见解。

Select

《统计自然语言处理基础》

2005, 19(3): 54-54.

摘要 (800) PDF (52 KB) (3844)

　这本书是美国的Christopher D. Manning 教授和德国的Hinrich Schutze 教授合著、清华大学苑春法教授组织翻译、并负责对全书进行了统一修改、审阅及定稿。该书是电子工业出版社的国外计算机科学教材系列中的一本系统介绍统计自然语言处理(或统计语言学) 专著,在国外已经被许多大学用来作为教材。在我国统计语言学也已成为自然语言处理研究中的主流,希望这本书对大家的研究及教学工作有所帮助。

选择文件类型/文献管理软件名称

选择包含的内容