1986年创刊(月刊)
主管:中国科学技术协会
主办:中国中文信息学会
     中国科学院软件研究所
ISSN 1003-0077
CN 11-2325/N
CODEN ZXXHAU
访问统计

访问总数:60231

当日访问总数:72

当前在线人数:0

热点文章推荐
  • 王孟宇,俞鼎耀,严睿,胡文鹏,赵东岩
    多轮对话任务是自然语言处理中最具有实用价值的技术之一,该任务要求系统在产生通顺回答语句的同时能够照顾到上下文信息。近年来,出现了一大批以HRED(hierarchical recurrent encoder-decoder)模型为基础的多轮对话模型,其运用多层级的循环神经网络来编码上下文信息,并在Movie-DiC等英文对话数据集上取得了不错的结果。在2018年京东举办的中文多轮对话大赛中,京东向参赛选手公布了一批高质量的真实客服对话语料。该文在此数据上进行实验,针对HRED模型的缺点以及在中文语料下的表现进行改进,提出基于注意力和跨步融合机制与HRED模型结合的方案,实验结果表明,该方案取得了较大的性能提升。
  • 冯洋1,2,邵晨泽1,2
    机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。神经机器翻译仅需使用神经网络就能实现从源语言到目标语言的端到端翻译,目前已成为机器翻译研究的主流方向。该文选取了近期神经机器翻译的几个主要研究领域,包括同声传译、多模态机器翻译、非自回归模型、篇章翻译、领域自适应、多语言翻译和模型训练,并对这些领域的前沿研究进展做简要介绍。
  • 魏忠钰1,范智昊1,王瑞泽2,承怡菁1,赵王榕1,黄萱菁3
    近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。
2024年,第38卷 第11期  刊出日期:2024-12-20
中文信息学报

请选择需要列表的栏目分类:

  • 2024 Vol. 38 No. 10
  • 2024 Vol. 38 No. 9
  • 2024 Vol. 38 No. 8
  • 2024 Vol. 38 No. 7

  • 2024 Vol. 38 No. 10 No. 9 No. 8 No. 7 No. 6 No. 5
    No. 4 No. 3 No. 2 No. 1
    2023 Vol. 37 No. 12 No. 11 No. 10 No. 9 No. 8 No. 7
    No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2022 Vol. 36 No. 12 No. 11 No. 10 No. 9 No. 8 No. 7
    No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2021 Vol. 35 No. 12 No. 11 No. 10 No. 9 No. 8 No. 7
    No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2020 Vol. 34 No. 12 No. 11 No. 10 No. 9 No. 8 No. 7
    No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2019 Vol. 33 No. 12 No. 11 No. 10 No. 9 No. 8 No. 7
    No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2018 Vol. 32 No. 12 No. 11 No. 10 No. 9 No. 8 No. 7
    No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2017 Vol. 31 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2016 Vol. 30 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2015 Vol. 29 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2014 Vol. 28 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2013 Vol. 27 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2012 Vol. 26 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2011 Vol. 25 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2010 Vol. 24 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2009 Vol. 23 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2008 Vol. 22 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2007 Vol. 21 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2006 Vol. 20 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2005 Vol. 19 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2004 Vol. 18 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2003 Vol. 17 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2002 Vol. 16 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2001 Vol. 15 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    2000 Vol. 14 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    1999 Vol. 13 No. 6 No. 5 No. 4 No. 3 No. 2 No. 1
    1998 Vol. 12 No. 4 No. 3 No. 2 No. 1
    1997 Vol. 11 No. 4 No. 3 No. 2 No. 1
    1996 Vol. 10 No. 4 No. 3 No. 2 No. 1
    1995 Vol. 9 No. 4 No. 3 No. 2 No. 1
    1994 Vol. 8 No. 4 No. 3 No. 2 No. 1
    1993 Vol. 7 No. 4 No. 3 No. 2 No. 1
    1992 Vol. 6 No. 4 No. 3 No. 2 No. 1
    1991 Vol. 5 No. 4 No. 3 No. 2 No. 1
    1990 Vol. 4 No. 4 No. 3 No. 2 No. 1
    1989 Vol. 3 No. 4 No. 3 No. 2 No. 1
    1988 Vol. 2 No. 4 No. 3 No. 2 No. 1
    1987 Vol. 1 No. 4 No. 3 No. 2
    1986 Vol. 0 No. 1
    Please wait a minute...
    • 徐军,丁宇新,王晓龙
      2007, 21(6): 95-100.
      摘要 (1690) PDF (340 KB) (9972)
      本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。
    • 岳增营,叶霞,刘睿珩
      2021, 35(9): 15-29.
      摘要 (1599) PDF (1771 KB) (9109)
      预训练技术当前在自然语言处理领域占有举足轻重的位置。尤其近两年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等预训练模型的成功,进一步将预训练技术推向了研究高潮。该文从语言模型、特征抽取器、上下文表征、词表征四个方面对现存的主要预训练技术进行了分析和分类,并分析了当前自然语言处理中的预训练技术面临的主要问题和发展趋势。
    • 吴友政,李浩然,姚霆,何晓冬
      2022, 36(5): 1-20.
      摘要 (3887) PDF (4551 KB) (8592)
      随着视觉、听觉、语言等单模态人工智能技术的突破,让计算机拥有更接近人类理解多模态信息的能力受到研究者们的广泛关注。另一方面,随着图文社交、短视频、视频会议、直播和虚拟数字人等应用的涌现,对多模态信息处理技术提出了更高要求,同时也给多模态研究提供了海量的数据和丰富的应用场景。该文首先介绍了近期自然语言处理领域关注度较高的多模态应用,并从单模态的特征表示、多模态的特征融合阶段、融合模型的网络结构、未对齐模态和模态缺失下的多模态融合等角度综述了主流的多模态融合方法,同时也综合分析了视觉-语言跨模态预训练模型的最新进展。
    • 冯洋,邵晨泽
      2020, 34(7): 1-18.
      摘要 (4666) PDF (6554 KB) (8298)
      机器翻译是指通过计算机将源语言句子翻译到与之语义等价的目标语言句子的过程,是自然语言处理领域的一个重要研究方向。神经机器翻译仅需使用神经网络就能实现从源语言到目标语言的端到端翻译,目前已成为机器翻译研究的主流方向。该文选取了近期神经机器翻译的几个主要研究领域,包括同声传译、多模态机器翻译、非自回归模型、篇章翻译、领域自适应、多语言翻译和模型训练,并对这些领域的前沿研究进展做简要介绍。
    • 魏忠钰,范智昊,王瑞泽,承怡菁,赵王榕,黄萱菁
      2020, 34(7): 19-29.
      摘要 (4273) PDF (981 KB) (8165)
      近年来,跨模态研究吸引了越来越多学者的关注,尤其是连接视觉和语言的相关课题。该文针对跨视觉和语言模态研究中的核心任务——图像描述生成,进行文献综述。该文从基于视觉的文本生成框架、基于视觉的文本生成研究中的关键问题、图像描述生成模型的性能评价和图像描述生成模型的主要发展过程四个方面对相关文献进行介绍和总结。最后,该文给出了几个未来的重点研究方向,包括跨视觉和语言模态的特征对齐、自动化评价指标的设计以及多样化图像描述生成。
    • 赵妍妍,秦兵,车万翔,刘挺
      2008, 22(1): 3-8.
      摘要 (2171) PDF (305 KB) (7951)
      事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。
    • 林旺群,汪淼,王伟,王重楠,金松昌
      2020, 34(12): 9-16.
      摘要 (2795) PDF (1920 KB) (7828)
      知识图谱以语义网络的形式将客观世界中概念、实体及其之间的关系进行结构化描述,提高了人类从数据中抽取信息、从信息中提炼知识的能力。该文形式化地描述了知识图谱的基本概念,提出了知识图谱的层次化体系架构,详细分析了信息抽取、知识融合、知识架构、知识管理等核心层次的技术发展现状,系统梳理了知识图谱在军事领域的应用,并对知识图谱未来发展的挑战和趋势进行了总结展望。
    • 朱张莉,饶元,吴渊,祁江楠,张钰
      2019, 33(6): 1-11.
      摘要 (2845) PDF (2547 KB) (7441)
      注意力机制逐渐成为目前深度学习领域的主流方法和研究热点之一,它通过改进源语言表达方式,在解码中动态选择源语言相关信息,从而极大改善了经典Encoder-Decoder框架的不足。该文在提出传统基于Encoder-Decoder框架中存在的长程记忆能力有限、序列转化过程中的相互关系、模型动态结构输出质量等问题的基础上,描述了注意力机制的定义和原理,介绍了多种不同的分类方式,分析了目前的研究现状,并叙述了目前注意力机制在图像识别、语音识别和自然语言处理等重要领域的应用情况。同时,进一步从多模态注意力机制、注意力的评价机制、模型的可解释性及注意力与新模型的融合等方面进行了探讨,从而为注意力机制在深度学习中的应用提供新的研究线索与方向。
    • 洪宇,张宇,刘挺,李生
      2007, 21(6): 71-87.
      摘要 (2050) PDF (761 KB) (6908)
      话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。
    • 张坤丽,赵旭,关同峰,尚柏羽,李羽蒙,昝红英
      2020, 34(6): 36-44.
      摘要 (1098) PDF (2358 KB) (6727)
      医疗文本数据是推行智慧医疗的重要数据基础,而医疗文本为半结构或非结构化数据,难以对其直接进行应用。对医疗文本中所包含的实体及实体关系进行标注是文本结构化的重要手段,也是命名实体识别、关系自动抽取研究的基础。传统的人工标注方法费力费时,已难以适应大数据发展的需求。该文以构建中文医学知识图谱的任务为驱动,构建了半自动化实体及关系标注平台。该平台融合多种算法,能够实现文本预标注、进度控制、质量把控和数据分析等多种功能。利用该平台,进行了医学知识图谱中实体和关系标注,结果表明该平台能够在文本资源建设中控制标注过程,保证标注质量,提高标注效率。同时该平台也被应用于其他文本标注任务,表明该平台具有较好的任务移植性。
    • 梁 军,柴玉梅,原慧斌,昝红英,刘 铭
      2014, 28(5): 155-161.
      摘要 (2754) PDF (2605 KB) (6245)
      中文微博情感分析旨在发现用户对热点事件的观点态度。已有的研究大多使用SVM、CRF等传统算法根据手工标注情感特征对微博情感进行分析。该文主要探讨利用深度学习来做中文微博情感分析的可行性,采用递归神经网络来发现与任务相关的特征,避免依赖于具体任务的人工特征设计,并根据句子词语间前后的关联性引入情感极性转移模型加强对文本关联性的捕获。该文提出的方法在性能上与当前采用手工标注情感特征的方法相当,但节省了大量人工标注的工作量。
    • 姚源林,王树伟,徐睿峰,刘 滨,桂 林,陆 勤,王晓龙
      2014, 28(5): 83-91.
      摘要 (2155) PDF (1028 KB) (6037)
      文本情绪分析研究近年来发展迅速,但相关的中文情绪语料库,特别是面向微博文本的语料库构建尚不完善。为了对微博文本情绪表达特点进行分析以及对情绪分析算法性能进行评估,该文在对微博文本情绪表达特点进行深入观察和分析的基础上,设计了一套完整的情绪标注规范。遵循这一规范,首先对微博文本进行了微博级情绪标注,对微博是否包含情绪及有情绪微博所包含的情绪类别进行多标签标注。而后,对微博中的句子进行有无情绪及情绪类别进行标注,并标注了各情绪类别对应的强度。目前,已完成14000条微博,45431句子的情绪标注语料库构建。应用该语料库组织了NLP&CC2013中文微博情绪分析评测,有力地促进了微博情绪分析相关研究。
    • 王厚峰
      2002, 16(6): 10-18.
      摘要 (1753) PDF (458 KB) (6015)
      指代是自然语言中常见的语言现象,大量出现在篇章或对话中。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理上热门的研究问题。针对指代和指代消解的有关问题,本文对基本概念作了说明,分析了语言中典型的指代现象和指代消解所需的基本语言知识;同时,介绍了指代消解中有代表性的几种计算模型和近10年来采用的若干实现技术。
    • 张海楠,伍大勇,刘 悦,程学旗
      2017, 31(4): 28-35.
      摘要 (2494) PDF (3348 KB) (5982)
      Baidu(16)
      由于中文词语缺乏明确的边界和大小写特征,单字在不同词语下的意思也不尽相同,较于英文,中文命名实体识别显得更加困难。该文利用词向量的特点,提出了一种用于深度学习框架的字词联合方法,将字特征和词特征统一地结合起来,它弥补了词特征分词错误蔓延和字典稀疏的不足,也改善了字特征因固定窗口大小导致的上下文缺失。在词特征中加入词性信息后,进一步提高了系统的性能。在1998年《人民日报》语料上的实验结果表明,该方法达到了良好的效果,在地名、人名、机构名识别任务上分别提高1.6%、8%、3%,加入词性特征的字词联合方法的F1值可以达到96.8%、94.6%、88.6%。
    • 白婷,文继荣,赵鑫,杨伯华
      2017, 31(5): 185-193.
      摘要 (1005) PDF (2497 KB) (5573)
      长尾商品是指单种商品销量较低,但是由于种类繁多,形成的累计销售总量较大,能够增加企业盈利空间的商品。在电子商务网站中,用户信息量较少且购买长尾商品数量较少、数据稀疏,因此对用户购买长尾商品的行为预测具有一定的挑战性。该文提出预测用户购买长尾商品的比例,研究单一用户购买长尾商品的整体偏好程度。利用社交媒体网站上海量的文本信息和丰富的用户个人信息,提取用户的个人属性、文本语义、关注关系、活跃时间等多个种类的特征;采用改进的迭代回归树模型MART(Multiple Additive Regression Tree),对用户购买长尾商品的行为进行预测分析;分别选取京东商城和新浪微博作为电子商务网站和社交媒体网站,使用真实数据构建回归预测实验,得到了一些有意义的发现。该文从社交媒体网站抽取用户特征,对于预测用户购买长尾商品的行为给出一个新颖的思路,可以更好地理解用户个性化需求,挖掘长尾市场潜在的经济价值,改进电子商务网站的服务。
    • 张仕仁
      1994, 8(4): 43-54.
      摘要 (862) PDF (648 KB) (5255)
      本文详细分析了复句结构, 论述了用盒式图表示复句的形式结构, 用复杂特征集表示复句的意义结构前者直观易懂, 便于非专业人员理解, 后者从深层表示复句的意义, 便于计算机加工处理最后探讨了汉语复句的自动分析方法
    • 王诚文,钱青青,荀恩东,邢丹,李梦,饶高琦
      2020, 34(9): 19-27.
      摘要 (866) PDF (1185 KB) (5205)
      动词语义角色一直是国内外语言学界研究的重点和难点。在自然语言处理领域,相关的语言资源也在逐步构建。对于汉语而言,国内大部分工作集中在语义角色标注上。该文创造性地提出了一种三元搭配的动词语义角色知识表征形式,并在前人研究的基础上,提出了一套语义角色分类体系。在该体系指导下,对汉语动词进行了穷尽式的语义角色认定及相关知识加工,以构建汉语动词语义角色知识库。截至目前,该工程考察了5 260个动词,加工了语义角色及引导词的动词数量为2 685个,加工认定语义角色4 307个。
    • 王孟宇,俞鼎耀,严睿,胡文鹏,赵东岩
      2020, 34(8): 78-85.
      摘要 (2897) PDF (1201 KB) (5174)
      多轮对话任务是自然语言处理中最具有实用价值的技术之一,该任务要求系统在产生通顺回答语句的同时能够照顾到上下文信息。近年来,出现了一大批以HRED(hierarchical recurrent encoder-decoder)模型为基础的多轮对话模型,其运用多层级的循环神经网络来编码上下文信息,并在Movie-DiC等英文对话数据集上取得了不错的结果。在2018年京东举办的中文多轮对话大赛中,京东向参赛选手公布了一批高质量的真实客服对话语料。该文在此数据上进行实验,针对HRED模型的缺点以及在中文语料下的表现进行改进,提出基于注意力和跨步融合机制与HRED模型结合的方案,实验结果表明,该方案取得了较大的性能提升。
    • 李奥,但志平,董方敏,刘龙文,冯阳
      2020, 34(9): 78-88.
      摘要 (1119) PDF (4645 KB) (5138)
      传统谣言检测算法存在提取文本语义、关键特征等效果不理想的问题,而一般序列模型在文本检测中无法解决特定语义下的特征提取,导致模型泛化能力差。为解决上述问题,该文提出一种改进的生成对抗网络模型(TGBiA)用于谣言检测,该模型采用对抗训练方式,符合谣言在传播过程中人为增删、夸大和歪曲信息的特点,通过对抗网络生成器和判别器的相互促进作用,强化谣言指示性特征的学习,不断提高模型的学习能力。训练过程中的生成器通过Transformer结构代替单一的RNN网络,实现语义的提取和特征的学习,同时,在训练过程中的判别器采用基于双向长短期记忆单元的深度网络分类模型,并引入注意力机制来提升对较长时间序列谣言的判断能力。在公开的微博和Twitter数据集上的实验结果表明,该文提出的方法比其他现有方法检测效果更好,鲁棒性更强。
    • 代六玲,黄河燕,陈肇雄
      2004, 18(1): 27-33.
      摘要 (1320) PDF (340 KB) (5074)
      本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机(SVM)和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明,在英文文本分类中表现良好的特征抽取方法(IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。
    • 杜成玉,刘鹏远
      2020, 34(9): 70-77.
      摘要 (917) PDF (1840 KB) (4994)
      方面级别情感分析是一项细粒度的情感分类任务,旨在确定特定方面的情感极性。以往的方法大都是基于方面或上下文向量的平均值来学习上下文或方面词的注意力权重,但当方面词和上下文较长时,这种方法可能会导致信息丢失。该文提出了一种建立在BERT表示上的螺旋注意力网络(BHAN)来解决这一问题,模型中的螺旋注意力机制与之前注意力机制不同的是,基于方面词得到加权后的上下文表示后,用这个新的表示计算方面词的权重,然后用这个新的方面词的表示重新计算上下文的权重,如此循环往复,上下文和方面词的表示会得到螺旋式的提高。该文在2014年SemEval任务4和Twitter数据集上进行了模型评估,实验结果表明,其性能超过了之前最佳模型的结果。
    • 王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘
      2020, 34(6): 106-114.
      摘要 (1679) PDF (5647 KB) (4988)
      语法纠错任务是自然语言处理领域的一项重要任务,近年来受到了学术界广泛关注。该任务旨在自动识别并纠正文本中所包含的语法、拼写以及语序错误等。该文将语法纠错任务看作是翻译任务,即将带有错误表达的文本翻译成正确的文本,采用基于多头注意力机制的Transformer模型作为纠错模型,并提出了一种动态残差结构,动态结合不同神经模块的输出来增强模型捕获语义信息的能力。受限于目前训练语料不足的情况,该文提出了一种数据增强方法,通过对单语语料的腐化从而生成更多的纠错数据,进一步提高模型的性能。实验结果表明,该文所提出的基于动态残差的模型增强以及腐化语料的数据增强方法对纠错性能有着较大的提升,在NLPCC 2018中文语法纠错共享评测数据上达到了最优性能。
    • 周宁,石雯茜,朱昭昭
      2020, 34(9): 44-52.
      摘要 (811) PDF (1795 KB) (4909)
      基于图模型的TextRank算法是一种有效的关键词提取算法,在提取关键词时可取得较高准确度。但该算法在构造图的关联边时,所采用的共现窗口规则仅考虑了局部词汇间的关联,并具有较大随意性与不确定性。针对这一问题,该文提出了一种基于粗糙数据推理理论的改进TextRank关键词提取算法,粗糙数据推理可扩大关联范围,增加关联数据,得到的结果更加全面。结合粗糙数据推理理论中的关联规则,该文提出的算法做了以下改进: 依据词义对候选关键词进行划分;再通过粗糙数据推理对不同分类中候选词间的关联关系进行推理。实验结果表明,与传统的TextRank算法相比,改进后算法的提取精度有了明显的提高,证明了利用粗糙数据推理的思想能有效地改善算法提取关键词的性能。
    • 曹紫琰,冯敏萱,毛雪芬,程宁,宋阳,李斌
      2020, 34(9): 28-35.
      摘要 (1107) PDF (1384 KB) (4894)
      产品评论文本是情感分析的重要研究对象,目前已有的产品评论语料库大都较为粗疏,没有完整地标注出对象、属性、极性“三要素”,影响自动分析的应用场景。对此,该文构建了细颗粒度评论语料库,共包含9 343句汽车评论短文本,不仅人工标注了“三要素”的具体词语,而且将其对应到产品和属性的知识本体树上。此外,对无情感词的隐含表达、特殊文本(如建议文本、比较句等)也标注出对应的三元组并予以特殊标签。语料统计表明,对象和属性要素的共现率高达77.54%,验证了构建“三要素”齐全标注体系的必要性;基于该语料库的“三要素”自动标注实验F1值可达70.82%,验证了细颗粒度标注体系的可计算性以及语料库构建的规范性和应用价值。该语料库可以为细颗粒度情感分析研究提供基础数据。
    • 徐琳宏,林鸿飞,赵晶
      2008, 22(1): 116-122.
      摘要 (1529) PDF (1096 KB) (4894)
      本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。
    • 黄海斌,常宝宝,詹卫东
      2020, 34(9): 1-8.
      摘要 (856) PDF (3205 KB) (4880)
      现代汉语构式成分自动标注作为文本自动标注任务之一,其最大的困难在于,当不存在标注语料作为训练数据时,如何从生语料中挖掘不同类型的构式成分相关的知识并进行标注,特别是面对构式序列在句中的边界难以判断的情况。该文试图借助高斯混合模型聚类方法,结合句中每一个字的位置特征与构式形式本身的语言学特征,融合正则表达式匹配结果信息,挖掘句子中的构式实例序列,并对构式内部成分进行自动标注。相较于仅基于正则表达式匹配和词性匹配的自动标注结果,该方法的F1分别至少提高了17.9%(半凝固型构式)、19.3%(短语型构式)、14.9%(复句型构式)。
    • 杨亮,周逢清,张琍,毛国庆,易斌,林鸿飞
      2020, 34(9): 89-96.
      摘要 (715) PDF (1107 KB) (4787)
      近年来,随着深度学习技术的不断发展,自然语言处理作为人工智能的一个重要分支,在许多垂直领域有了广泛的应用,如司法、教育、医疗等。在司法领域的庭审过程中,控辩双方往往围绕案件的争议焦点持有不同观点,而该焦点也是影响案件最终判决和量刑的关键所在,该文旨在识别并生成电子卷宗中的控辩焦点。由于控辩焦点的构成大多依赖对案情文本的分析概括,受此启发该文尝试将文本摘要的思想迁移到该任务中,结合生成对抗网络构建控辩焦点的生成模型,进而获得案件的控辩焦点。在裁判文书网的真实司法数据的基础上,开展了相关的实验。实验结果显示,所提出的模型对控辩焦点的识别精度有了一定幅度的提升。因此,该文对检察机关办案人员的庭前预案及案件审理有着一定的辅助作用与应用价值。
    • 李维,闫晓东,解晓庆
      2020, 34(9): 36-43.
      摘要 (904) PDF (3775 KB) (4730)
      目前,藏文抽取式文本摘要方法主要是提取文本自身的特征,对句子进行打分,不能挖掘句子中深层的语义信息。该文提出了一种改进的藏文抽取式摘要生成方法。该方法将外部语料库的信息以词向量的形式融入到TextRank算法,通过TextRank与词向量的结合,把句子中每个词语映射到高维词库形成句向量,进行迭代为句子打分,并选取分值最高的句子重新排序作为文本的摘要。实验结果表明,该方法能有效提升摘要质量。该文还在传统ROUGE评测方法的基础上,提出了一种采用句子语义相似度计算的方式进行摘要评测的方法。
    • 唐乾桐,常宝宝,詹卫东
      2020, 34(9): 9-18.
      摘要 (892) PDF (3552 KB) (4676)
      该文提出了一套精细化的中文词性标注评测体系。该文的工作重点在于确立其中的评测项目以及每个项目所对应的词例,提出了比对、归类、合取的方法;依此,该文初步建立了规模为5 873句、涵盖了2 326项词例和70个评测项目的评测试题集,并用这套试题集对几个常见的开源词性标注程序进行了评测。最后,该文指出了精细化评测体系将评测项目和评测语料联系起来的好处——在传统体系中,两者是分开的。该文从评测项目的价值和评测语料的组织性两个方面阐述了该文的评测体系相对于传统评测体系的优势,并指出了利用该文提出的评测体系改进被测程序的方法。
    • 王晓涵,余正涛,相艳,郭贤伟,黄于欣
      2020, 34(9): 62-69.
      摘要 (808) PDF (2359 KB) (4614)
      通常的微博观点句识别主要根据微博评论本身是否带有观点来进行判断,而案件微博的观点句识别需要进一步考虑该评论是否讨论与特定案件相关的主题。针对这一任务,该文提出一种结合微博原文进行特征扩展的观点句识别模型。以卷积神经网络分类模型为基本框架,在嵌入层加入案件微博原文中的关键词向量,与对应评论词向量进行拼接;利用扩展的特征进行观点句识别。实验表明,该模型在根据案件微博爬取的两个数据集下准确率分别达到84.74%和82.09%,与现有的基准模型相比有较明显提升。
    • 王浩畅,赵铁军
      2008, 22(3): 89-98.
      摘要 (1013) PDF (441 KB) (4527)
      生物医学研究是二十一世纪最受关注的研究领域之一,该领域发表了巨量的研究论文,已经达到年平均60万篇以上。如何在规模巨大的研究文献中有效地获取相关知识,是该领域研究者所面临的挑战。作为生物信息学分支之一的生物医学文本挖掘技术就是一项高效自动地获取相关知识的新探索,近年来取得了较大进展。这篇综述介绍了生物医学文本挖掘的主要研究方法和成果,即基于机器学习方法的生物医学命名实体识别、缩写词和同义词的识别、命名实体关系抽取,以及相关资源建设、相关评测会议和学术会议等。此外还简要介绍了国内研究现状,最后对该领域近期发展作了展望。
    • 冯鸾鸾,李军辉,李培峰,朱巧明
      2020, 34(8): 41-50.
      摘要 (1182) PDF (1200 KB) (4502)
      互联网存在海量的文献和科技信息,隐含着大量高价值情报。识别国防科技领域中的技术和术语可以为构建国防科技知识图谱奠定基础。该文基于此领域的海量军事文本,以维基百科中军事领域的新技术为基点采集语料,涵盖了新闻、文献和维基百科三种体裁。在分析军事技术文本特点的基础上制定了一系列标注规范,开展了大规模语料的标注工作,构建了一个面向国防科技领域的技术和术语语料库。该语料库共标注了479篇文章,包含24 487个句子和33 756个技术和术语。同时,该文探讨了模型预标注策略的可行性,并对技术和术语类别在不同体裁上的分布以及语料标注的一致性进行了统计分析。基于该语料库的实验表明,技术和术语识别性能F1值达到70.40%,为进一步的技术和术语识别研究提供了基础。
    • 邓依依,邬昌兴,魏永丰,万仲保,黄兆华
      2021, 35(9): 30-45.
      摘要 (1777) PDF (2271 KB) (4484)
      命名实体识别是自然语言处理的基础任务之一,目的是从非结构化的文本中识别出所需的实体及类型,其识别的结果可用于实体关系抽取、知识图谱构建等众多实际应用。近些年,随着深度学习在自然语言处理领域的广泛应用,各种基于深度学习的命名实体识别方法均取得了较好的效果,其性能全面超越传统的基于人工特征的方法。该文从三个方面介绍近期基于深度学习的命名实体识别方法: 第一,从输入层、编码层和解码层出发,介绍命名实体识别的一般框架;第二,分析汉语命名实体识别的特点,着重介绍各种融合字词信息的模型;第三,介绍低资源的命名实体识别,主要包括跨语言迁移方法、跨领域迁移方法、跨任务迁移方法和集成自动标注语料的方法等。最后,总结相关工作,并提出未来可能的研究方向。
    • 郑实福,刘挺,秦兵,李生
      2002, 16(6): 47-53.
      摘要 (2213) PDF (318 KB) (4462)
      自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。本文介绍了自动问答技术的发展现状和自动问答系统中常用的技术。自动问答系统一般包括三个主要组成部分:问题分析、信息检索和答案抽取。本文分别介绍了这三个主要组成部分的主要功能和常用的方法。最后还介绍了自动问答系统的评价问题。
    • 肖明,胡金柱,赵慧
      1999, 13(6): 54-61.
      摘要 (1265) PDF (348 KB) (4443)
      Baidu(49)
      随着Windows操作系统及TrueType字体(TTF)的流行,字形技术的重要性已越来越受到人们的关注。本文介绍了从TrueType、OpenType到Clear Type的最新发展,比较详细地分析了OpenType字体(OTF)文件的结构,解释了其中的重要描述表。用户若能正确掌握OTF字体文件格式,就可以建立自己的特殊字体,并可以在字体应用领域取得良好的应用效果。
    • 董静,孙乐,冯元勇,黄瑞红
      摘要 (974) PDF (539 KB) (4440)
      命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测
    • 赵 军,刘 康,周光有,蔡 黎
      2011, 25(6): 98-111.
      摘要 (1385) PDF (3005 KB) (4437)
      信息抽取研究已经从传统的限定类别、限定领域信息抽取任务发展到开放类别、开放领域信息抽取。技术手段也从基于人工标注语料库的统计方法发展为有效地挖掘和集成多源异构网络知识并与统计方法结合进行开放式信息抽取。该文在回顾文本信息抽取研究历史的基础上,重点介绍开放式实体抽取、实体消歧和关系抽取的任务、难点、方法、评测、技术水平和存在问题,并结合课题组的研究积累,对文本信息抽取的发展方向以及在网络知识工程、问答系统中的应用进行分析讨论。
    • 周茜,赵明生,扈旻
      2004, 18(3): 18-24.
      摘要 (1361) PDF (389 KB) (4420)
      本文介绍和比较了八种用于文本分类的特征选择方法,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式,并提出了一种新的类别区分词的特征选择方法,结合两种不同的分类方法:文本相似度方法和Na?ve Bayes方法,在两个不同的数据集上分别作了训练和测试,结果表明,在这八种文本特征选择方法中,多类优势率和类别区分词方法取得了最好的选择效果。其中,当用Na?ve Bayes分类方法对各类分布严重不均的13890样本集作训练和测试时,当特征维数大于8000以后,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出3%~5%左右。
    • 奥德玛,杨云飞,穗志方,代达劢,常宝宝,李素建,昝红英
      2019, 33(10): 1-7.
      摘要 (5118) PDF (6474 KB) (4345)
      医学知识图谱是智慧医疗应用的基石,可以为机器阅读理解医学文本、智能咨询、智能诊断提供知识基础。现有的医学知识图谱从规模化、规范化、体系性、形式化等方面还不足以满足智慧医疗应用的需求。此外,对复杂医学知识的精准描述更是构建医学知识图谱面临的重要挑战。针对上述问题,该文利用自然语言处理与文本挖掘技术,以人机结合的方式研发了中文医学知识图谱第一版CMeKG 1.0(Chinese Medical Knowledge Graph)。CMeKG 1.0的构建参考了ICD-10、ATC、MeSH等权威的国际医学标准术语集以及规模庞大、多源异构的临床路径指南、临床实践、医学百科等资源,覆盖了疾病、药物和诊疗技术,包括100余万个医学概念关系的实例。该文综述了CMeKG 1.0构建过程中的描述体系、关键技术、构建流程以及医学知识描述等相关问题,希望为医学领域知识图谱的构建与应用提供一些参考。
    • 曹婍,沈华伟,高金华,程学旗
      2021, 35(2): 1-18,32.
      摘要 (2218) PDF (4607 KB) (4340)
      在线社交网络中的消息流行度预测研究,对推荐、广告、检索等应用场景都具有非常重要的作用。近年来,深度学习的蓬勃发展和消息传播数据的积累,为基于深度学习的流行度预测研究提供了坚实的发展基础。现有的流行度预测研究综述,主要是围绕传统的流行度预测方法展开的,而基于深度学习的流行度预测方法目前仍未得到系统性地归纳和梳理,不利于流行度预测领域的持续发展。鉴于此,该文重点论述和分析现有的基于深度学习的流行度预测相关研究,对近年来基于深度学习的流行度预测研究进行了归纳梳理,将其分为基于深度表示和基于深度融合的流行度预测方法,并对该研究方向的发展现状和未来趋势进行了分析展望。
    Please wait a minute...
    • 揭春雨 ,刘源 ,梁南元
      1989, 3(1): 3-11.
      摘要 (816) PDF (605 KB) (1903)
      Baidu(488)
      文章简单考查了目前中文信息处理领域中已有的几种主要的汉语自动分词方法, 提出自动分词方法的结构模型ASM(d,a,m),对各种分词方法的时间复杂度进行计算, 对于时间复杂度对分词速度的影响, 以及分词方法对分词精度的影响也进行了分析;同时指出并论证在自动分词中设立“ 切分标志”是没有意义的。
    • 俞士汶,段慧明,朱学锋,孙斌
      2002, 16(5): 51-66.
      摘要 (1386) PDF (670 KB) (2523)
      Baidu(410)
      北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外, 还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库墓本加工规范》是为了抛砖引玉, 更广泛地向专家、同行征询意见, 以便进一步修订。
    • 李庆虎,陈玉健,孙家广
      2003, 17(4): 14-19.
      摘要 (789) PDF (255 KB) (1843)
      Baidu(360)
      汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制——双字哈希机制,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下,提高了中文分词的速度和效率。
    • 余慧佳,刘奕群,张敏,茹立云,马少平
      2007, 21(1): 109-114.
      摘要 (942) PDF (292 KB) (2469)
      Baidu(306)
      用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。
    • 孙茂松1,黄昌宁1,高海燕2,方捷1
      1995, 9(2): 16-27.
      摘要 (897) PDF (687 KB) (2872)
      Baidu(278)
      中文姓名的辨识对汉语自动分词研究具有重要意义。本文提出了一种在中文文本中自动辨识中文姓名的算法。我们从新华通讯社新闻语料库中随机抽取了300个包含中文姓名的句子作为测试样本。实验结果表明, 召回率达到了99.77%。
    • 何克抗,徐辉,孙波
      1991, 5(2): 3-16,30.
      摘要 (686) PDF (1175 KB) (2077)
      Baidu(273)
      本文深入地分析了歧义切分字段产生的根源和性质, 把歧义字段从性质上划分为四类, 并给出了消除每一类歧义切分字段的有效方法。在对歧义字段进行统计分析的基础上提出了切分精度的“四级指标体系”, 并论证了专家系统方法是实现自动分词系统的最佳方素。
    • 张奇,黄萱菁,吴立德
      2005, 19(2): 94-100.
      摘要 (797) PDF (341 KB) (2129)
      Baidu(244)
      本文提出了一种新的句子相似度度量的方法并应用于文本自动摘要中。其创新处在于相似度计算不仅考虑句子中的unigram ,还考虑了bi-gram 和tri-gram ,通过回归方法将这几种相似度结果综合起来。实验证明这种相似度计算方法是有效的。同时本文还提出了一种新的,利用句子间相似度以及句子的权重的抽句 式文摘算法,在抽取出句子的同时也去掉了冗余。DUC2003、DUC2004 (Document Understanding Conference 2003 ,2004) 的评测结果征明了方法的有效性。我们的系统在DUC2004 的评测中列第二位。
    • 贺宏朝,何丕廉,高剑峰,黄昌宁
      2002, 16(6): 33-38+46.
      摘要 (947) PDF (319 KB) (1698)
      Baidu(203)
      在中文信息检索的研究和实践中,由于查询中所使用的词可能与文件集中使用的词不匹配而导致一些相关的文件不能被成功地检索出来,这是影响检索效果的一个很关键的问题。查询扩展可以在一定程度上解决这种词的不匹配现象,然而,实验表明,通常简单的查询扩展并不能稳定地提高中文信息检索的检索效果。本论文中提出并实现了一种基于上下文的查询扩展方法,可以根据查询的上下文对扩展词进行选择,是一种相对“智能”的查询扩展方法。在TREC - 9 中文信息检索测试集上进行的实验表明,相对于通常简单的查询扩展,基于上下文的查询扩展方法取得了具有统计意义提高的检索效果。
    • 冯志伟
      1995, 9(4): 14-24.
      摘要 (680) PDF (838 KB) (1460)
      Baidu(202)
      本文把作者在科技术语结构研究中提出的“潜在歧义论”(PA论)进一步推广到日常语言, 说明在汉语日常语言中也广泛地存在着潜在歧义结构, 而在具体的语言文本中, 许多潜在歧义都消解了。自然语言有歧义性的一面, 又有非歧义性的一面, 潜在歧义论正好揭示了自然语言的歧义性和非歧义性对立统一的规律。潜在歧义论指出了潜在歧义结构本身就包含了消解歧义的因素, 因而这种理论可为自然语言处理提供消解歧义的方法和手段。
    • 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇
      2004, 18(6): 2-10.
      摘要 (772) PDF (137 KB) (1134)
      Baidu(184)
      随着社会的飞速发展,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法,通过大规模地分析从Internet上采集而来的网页,建立巨大的词和字串的集合,从中自动检测新词语,而后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出采集语料中存在的新词语。根据该方法实现的系统,可以寻找不限长度和不限领域的新词语,目前正应用于《现代汉语新词语信息(电子)词典》的编纂,在实用中大大的减轻了人工查找新词语的负担。
    • 郑家恒1 , 李鑫2 , 谭红叶1
      2000, 14(1): 7-12.
      摘要 (821) PDF (283 KB) (2704)
      Baidu(168)
      本文在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率,研究了中文姓名识别的评价函数,动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。经开放测试,召回率为95.23%;精确率为87.31% 。
    • 黄曾阳
      1997, 11(4): 12-21.
      摘要 (682) PDF (458 KB) (1661)
      Baidu(155)
      主编按语:《HNC理论概要》的作者黄曾阳先生创立的面向整个自然语言理解的理论框架, 在语义表达上有自己的特色, 在语义处理上走了一条新路。鉴于汉语语法研究尚有诸多困惑, HNC理论所走的以语义表达为基础的新路子对突破汉语理解问题尤其有实际意义。
    • 陈玉忠,李保利,俞士汶
      2003, 17(3): 16-21,66.
      摘要 (762) PDF (329 KB) (1274)
      Baidu(140)
      藏文自动分词系统的研制目前在国内仍是空白。本文从四个方面详细报告了书面藏文自动分词系统的具体实现过程,内容包括系统结构、分词知识库的组织与实现以及分词策略、算法设计及其详细的自动分词过程实例。文章最后给出了实验结果,结果表明系统具有较高的切分精度和较好的通用性。
    • 周强
      1995, 9(3): 1-10.
      摘要 (508) PDF (616 KB) (1307)
      Baidu(127)
      本文分析了汉语的多类词现象与汉语词类标注的困难, 介绍了汉语词类标注中的规则排歧和统计排歧的处理策略以及规则和统计相结合的处理思路。按此思路设计的软件系统, 对封闭语料和开放语料的标注正确率分别达到了96.06%和95.82%。
    • 金翔宇,孙正兴,张福炎
      2001, 15(6): 34-40.
      摘要 (671) PDF (268 KB) (1525)
      Baidu(123)
      本文提出了一种非受限无词典抽词模型,该模型通过自增长算法获取中文文档中的汉字结合模式,并引入支持度、置信度等概念来筛选词条。实验表明:在无需词典支持和利用语料库学习的前提下,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感,而又对计算速度要求很高的中文信息处理应用,例如实时文档自动分类系统。
    • 张宇,刘挺,陈毅恒,赵世奇,李生
      2005, 19(1): 57-63,71.
      摘要 (1273) PDF (368 KB) (1828)
      Baidu(113)
      本文主要介绍了基于自然语言处理的文本水印技术,也即自然语言文本水印技术。该技术是在不改变文本原意的前提下,将需要隐藏的文本信息(水印信息) 插入到原始文本中的一种信息隐藏技术。这种技术对于确认信息来源和信息的秘密传送,以及版权维护等方面都有着很大的应用价值。本文首先给出了基于自然语言处理技术的文本水印的概念、特点及攻击模型,并对文本水印的研究现状进行了分析。通过分析可以看出,自然语言文本水印技术有着更好的灵活性,并且在适度的攻击下,不会破坏水印信息。本文详细介绍了文本水印系统的设计过程,包括该技术的基础数学理论- 二次余数理论。最后详细介绍了两种自然语言文本水印嵌入方法,分别是基于句法分析和基于语义的水印嵌入方法。
    • 梁南元
      1990, 4(2): 31-35.
      摘要 (822) PDF (225 KB) (1076)
      Baidu(108)
      汉语分词是汉语言计算机处理的一项不可缺少的工作。使用自动分词知识可以进一步提高自动切分精度, 满足高标准的需求。本文在[1][2][3]的研究基础上, 介绍了一些行之有效的自动分词知识。根据对48092 个汉字的语言材料统计结果表明统计材料分社会科学和自然科学两部分, 这些自动分词知识可以处理左右的歧义切分字段。
    • 俞士汶,朱学锋,王惠,张芸芸
      1996, 10(2): 1-22.
      摘要 (921) PDF (1167 KB) (1719)
      Baidu(86)
      《现代汉语语法信息词典》是为计算机实现汉语分析和汉语生成而研制的一部电子词典。这部电子词典可以在语言信息处理的广泛领域中得到应用。本词典的详细规格说明书的初稿制订于1990年。在八五攻关期间1991年至1995年,一方面严格按照规格说明书进行词典内容的开发, 一方面在开发过程中又对规格说明书进行了局部的调整与修订, 于1995年11月形成的现在的版本。这份规格说明书也是汉语信息处理研究的一项重要成果。#br#现在发表的这份规格说明书共分以下五章第一章介绍词典的设计目标与结构第二章介绍总库的属性字段。第三章介绍各类词库的共同属性字段,第四章介绍各类词库专有的属性字段。第五章介绍《现代汉语语法信息词典》于年月通过专家鉴定时所达到的规模附录给出了面向信息处理的现代汉语词语分类体系的词类代码表。
    • 林鸿飞,姚天顺
      2000, 14(5): 49-56.
      摘要 (765) PDF (193 KB) (1089)
      Baidu(84)
      文本浏览是伴随着因特网上日益增多的在线文本而出现的辅助阅读机制,本文给出了基于潜在语义索引的文本浏览机制。它吸取了潜在语义索引和概念标注的优点,利用潜在语义索引,减少词汇间的“斜交”现象,在语义空间上进行项与项、文本与文本、项与文本之间的相似度计算。利用概念词典将文本特征项按语义分类,给予层次分类以确定的含义。最后,实现以分层概念为基础的信息导航。
    • 王永成,苏海菊,莫燕
      1990, 4(4): 3-13.
      摘要 (629) PDF (524 KB) (1320)
      Baidu(81)
      本文综述了中文词处理方面的进展, 并系统地科学地提出了最新的分词算法思想利用切割标志, 将中文切割成一些词段再用词典对分割出的词段进行匹配抽词恰当地处理切分与抽词后留下的字串:应用“ 解答树” 及若干介词原则及切分规则或具体的分词知识以解决不同形式切分及其人工选择问题。
    • 刘伟,朱宁波,何浩智,李德鑫,孙发军
      2007, 21(3): 117-121.
      摘要 (1022) PDF (446 KB) (1142)
      Baidu(79)
      网格方向特征在手写体汉字识别系统中得到广泛应用,被认为是目前较成熟的手写体汉字特征之一。网格技术是网格方向特征的关键技术之一。根据汉字笔画分布特点及拓扑结构的相关性,提出了一种新的基于弹性网格及其相关模糊特征的提取方法。该方法使特征向量的信息量增加,特征更加稳定。对银行支票图像大写金额的识别率达到97.64%,实验结果证明本文方法比其他网格方向特征更有效。
    • 闻扬,苑春法,黄昌宁
      2000, 14(6): 45-50.
      摘要 (733) PDF (348 KB) (1418)
      Baidu(78)
      本文提出了一个双向分级聚类的算法同时对不同词性的词进行聚类。在聚类过程中,不同词性的词的聚类交替进行,相互影响。我们以最小描述长度的原理为基础构造了目标函数。为了减小数据稀疏的影响,又提出了修饰度的与修正距离的概念。将此算法应用于汉语形容词- 名词的搭配对,对形容词与名词进行聚类,实验结果显示该算法是有效的。
    • 赵晟,陶建华,蔡莲红
      2002, 16(5): 32-39.
      摘要 (743) PDF (1009 KB) (1871)
      Baidu(78)
      韵律结构的分析和预测作为提高语音合成系统自然度的一个重要核心组成, 日益受到重视。本文提出了一种基于规则学习的汉语韵律结构预测方法, 该方法从人工韵律标注的语料库中抽取语言学特征和两级韵律结构标记, 构建了实例数据库(example database), 再利用规则学习(rule learning)算法从实例中自动归纳韵律短语预测规则。本文通过大量的实验挑选出对于汉语韵律结构预测最有效的特征, 采用和比较了两种典型的规则学习算法。同时, 对于实验结果给出了较为系统的评价参数。实践表明, 规则学习算法用于韵律结构预侧达到了90%以上的正确率, 优于目前其他方法的结果, 是一种行之有效的办法。
    • 王会珍,朱靖波,季铎,叶娜,张斌
      2006, 20(3): 94-100.
      摘要 (712) PDF (576 KB) (1238)
      Baidu(75)
      在话题追踪研究领域,由于话题是动态发展的,在追踪过程中会产生话题漂移的问题。针对该问题以及现有自适应方法的不足,本文提出基于反馈学习的自适应方法。该方法采用增量学习的思想,对话题追踪任务中的自适应学习机制提出了新的算法。该算法能够解决话题漂移现象,并能够弥补现有自适应方法的不足。该算法中还考虑了话题追踪任务的时序性,将时间信息引入到了算法中。本文实验采用TDT4语料中的中文部分作为测试语料,使用TDT2004的评测方法对基于反馈学习的自适应的中文话题追踪系统进行评价,实验数据表明基于反馈学习的自适应方法能够提高话题追踪的性能。
    • 李国臣,刘开瑛,张永奎
      1988, 2(3): 29-35.
      摘要 (650) PDF (465 KB) (1048)
      Baidu(75)
      现代汉语计算机自动分词是中文信息处理领域所特有的一个重要研究课题, 机器翻译(MT)、自然语言理解(NLU)、情报检索(IR)等许多工作都需以自动分词作为基础。#br#本文对现有的几种计算机自动分词界法进行了简要的分析和评价, 提出了一种新的分词算法—“联想—回溯法”(Association — Backhacking Method), 简称AB法, 并对这种基于知识的分词算法进行了详细的讨论。在此基础之上, 我们着重论述了歧义组合结构的切分策略,提出了许多处理歧义结构的实用切分规则
    • 刘龙飞,杨 亮,张绍武,林鸿飞
      2015, 29(6): 159-165.
      摘要 (2057) PDF (2370 KB) (2466)
      Baidu(73)
      微博情感倾向性分析旨在发现用户对热点事件的观点态度。由于微博噪声大、新词多、缩写频繁、有自己的固定搭配、上下文信息有限等原因,微博情感倾向性分析是一项有挑战性的工作。该文主要探讨利用卷积神经网络进行微博情感倾向性分析的可行性,分别将字级别词向量和词级别词向量作为原始特征,采用卷积神经网络来发现任务中的特征,在COAE2014任务4的语料上进行了实验。实验结果表明,利用字级别词向量及词级别词向量的卷积神经网络分别取得了95.42%的准确率和94.65%的准确率。由此可见对于中文微博语料而言,利用卷积神经网络进行微博情感倾向性分析是有效的,且使用字级别的词向量作为原始特征会好于使用词级别的词向量作为原始特征。
    • 靳延安1,2,李瑞轩1,文坤梅1,辜希武1,卢正鼎1,段东圣1
      2010, 24(4): 52-63.
      摘要 (885) PDF (2149 KB) (1360)
      Baidu(68)
      社会标注作为一种新型的网络资源管理和组织形式,在互联网和企业网中已经成为一种普遍的网络服务。社会标注具有标引、分类、资源发现和语义特性,这些特性可以帮助用户找到预期的信息。因此,可以利用社会标注来进行信息检索。该文首先对社会标注及标注对象和标注方法进行了概述。然后,从社会标注的分类特性、社区发现以及社会标注与语义搜索等方面进行综述评论。最后,讨论社会标注研究领域存在的挑战,并指出未来可能的研究方向。
    • 高光来,王玉峰
      2003, 17(6): 54-60.
      摘要 (804) PDF (337 KB) (1062)
      Baidu(65)
      网上答疑系统是现代远程教育系统中不可缺少的一部分,然而当前的答疑系统只是根据用户的输入对题库中的问题进行简单的关键词匹配,查询精度和用户界面满足不了用户的需求。针对以上缺点,本文给出一个应用语义网络原理构筑起来的智能答疑系统。文章分析了建立智能答疑系统的必要性,由此提出了一个基于限定领域的智能答疑系统模型及其技术路线,并以两门大学计算机课程作为知识库来源,实现了系统的功能。试验结果表明,本文所提出的方法有效地提高了查询精度,用户界面友好方便。
    • 刘伟权,王明会,钟义信
      1996, 10(2): 32-46.
      摘要 (669) PDF (629 KB) (1241)
      Baidu(65)
      依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构本文针对从短语到句群的各级单位内部的各种依存关系展开讨论。提出依存关系普遥存在于各级单位之中, 初步建立了汉语依存关系的层次体系。这一体系覆盖了大部分常见的语言现象, 经检验可应用于句法分析过程中, 作为表示句子结构的一种手段。为了增进体系的完备性和正确性, 显然还有许多工作要做。
    • 罗振声,郑碧霞
      1994, 8(2): 1-19.
      摘要 (654) PDF (947 KB) (1526)
      Baidu(65)
      汉语句型的自动分析与分布统计是继我国汉字字频统计和词频统计之后的又一重要的基础性研究课题本文就以结构特征为标准的句型系统, 提出以谓语为中心的句型成分分析与句型匹配相结合的分析算法与策略, 讨论了句型成分及其短语边界的识别与判定方法, 给出了有关竣义结构的处理策略, 以及实验模型的测试结果与分析。
    • 王昀,苑春法
      2004, 18(4): 24-31.
      摘要 (760) PDF (464 KB) (1183)
      Baidu(64)
      近些年来,中文时间信息抽取和处理已经变得越来越重要。然而,很少有研究者关注中文文本中事件信息所对应的时间信息的识别和分析。本文的目的就是确定文本中时间信息和事件信息之间的映射关系。区别于传统的基于规则的方法,本文采用了一种机器学习的方法—基于转换的错误驱动学习—来确定事件相应的时间表达,这种学习算法可以自动的获取和改进规则。使用训练得到的转换规则集后,系统的时间-事件映射错误率减少了9.74%,实验结果表明本系统对基于规则的方法有很好的改进效果。
    • 李 锐1,2,王 斌1
      2012, 26(4): 9-21.
      摘要 (760) PDF (1762 KB) (1107)
      Baidu(63)
      用于文本处理的很多数据集已经达到TB、PB甚至更大规模,传统的单机方法难以对这些数据进行有效处理。近年来出现的MapReduce计算框架能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,得到了学术界和工业界的广泛认可和使用。目前,MapReduce已经被用于自然语言处理、机器学习及大规模图处理等领域。该文首先对MapReduce做了简单的介绍,并分析了其特点、优势还有不足;然后对MapReduce近年来在文本处理各个方面的应用进行分类总结和整理;最后对MapReduce的系统和性能方面的研究也做了一些介绍与展望。
    • 杨文清,黄宜华,张福炎
      1999, 13(4): 50-57.
      摘要 (786) PDF (347 KB) (1205)
      Baidu(63)
      全文检索是一种非常有效的信息检索技术,本文结合国家863项目《WWW文档协同写作系统》的设计与开发,研究对中文Web文档库实现全文检索的主要技术,着重讨论了字表法全文检索技术细节,最后介绍了一个实用的全文检索系统的实现。
    • 周强
      1997, 11(1): 1-10.
      摘要 (700) PDF (604 KB) (936)
      Baidu(63)
      考虑到传统的基于规则的汉语分析器对大规模真实文本的分析所遇到的困难, 本文在使用统计方法进行汉语自动句法分析方面作了一些探索, 提出了一套基于统计的汉语短语自动划分和标注算法, 它分为预测划分点、括号匹配和分析树生成等三个处理阶段, 其间利用了从人工标注的树库中统计得到的各种数据进行自动句法排歧, 最终得到一棵最佳句法分析树, 从而可以自顶向下地完成对一句句子的短语自动划分和标注, 对一千多句句子的封闭测试结果表明, 短语划分的正确率约为86%, 短语标注的正确率约为92%, 处理效果还是比较令人满意的。
    • 任禾,曾隽芳
      2006, 20(5): 42-45,92.
      摘要 (1047) PDF (126 KB) (1773)
      Baidu(61)
      为扩展分词词典,提高分词的准确率,本文提出了一种基于信息熵的中文高频词抽取算法,其结果可以用来识别未登录词并扩充现有词典。我们首先对文本进行预处理,将文本中的噪音字和非中文字符转化为分隔符,这样文本就可以被视为用分隔符分开的中文字符串的集合,然后统计这些中文字符串的所有子串的相关频次信息,最后根据这些频次信息计算每一个子串的信息熵来判断其是否为词。实验证明,该算法不仅简单易行,而且可以比较有效地从文本中抽取高频词,可接受率可达到91.68%。
    • 俞士汶
      1988, 2(3): 22-28.
      摘要 (548) PDF (446 KB) (1506)
      Baidu(60)
      北京大学计算机研究所研制了一种以词和基础的中文语句输入方法。为了减少选择同特征词的麻烦, 输入方法使用了语法分析技术, 取得了一定的效果。本文叙述了方法的梗概、应用语法公式的原理以及加速语法分析的剪枝算法。
    • 张子荣,初敏
      2002, 16(3): 40-46.
      摘要 (922) PDF (211 KB) (3215)
      Baidu(59)
      字-音转换是语音合成系统中的一个重要模块,其中多音词和以单字词形式存在的多音字读音的确定一直是个没有很好解决的问题。本文通过对大量标注有正确拼音的语料的统计,指出着重解决41个重点多音字和22个重点多音词就可基本解决字-音转换的问题。本文采用基于扩展的随机复杂度的随机决策列表方法自动提取多音字(词)的读音规则,将字-音转换的错误率由8.8‰降低到4.4‰。规则的训练和测试的材料的标注是一个耗费人力和时间的工作,而训练材料的数量和质量又直接影响最终的结果。本文提出一种半自动的语料标注流程,可以节省将近一半的人工和时间。
    • 张梅山,邓知龙,车万翔,刘 挺
      2012, 26(2): 8-13.
      摘要 (1269) PDF (950 KB) (1357)
      Baidu(58)
      基于统计的中文分词方法由于训练语料领域的限制,导致其领域自适应性能力较差。相比分词训练语料,领域词典的获取要容易许多,而且能为分词提供丰富的领域信息。该文通过将词典信息以特征的方式融入到统计分词模型(该文使用CRF统计模型)中来实现领域自适应性。实验表明,这种方法显著提高了统计中文分词的领域自适应能力。当测试领域和训练领域相同时,分词的F-measure值提升了2%;当测试领域和训练领域不同时,分词的F-measure值提升了6%。
    • 才让加
      2009, 23(4): 107-113.
      摘要 (806) PDF (285 KB) (885)
      Baidu(57)
      青海师范大学藏文信息处理与机器翻译省级重点实验室已完成1 000万字的藏语语料库的加工实验,加工的主要目的是使计算机能够对藏语语料库中的藏语词语进行自动切分和自动标注。该文在对大规模藏语语料库进行自动切分和人工分析的基础上提出了一个藏语词语分类体系和标记集。根据藏语语料库和计算机自动切分和标注的实际需要,在藏语词语分类体系的构建上,采用先分虚实,再确定大类,在大类的基础上分出小类,再分出不同深度的子类。在藏语语料库加工实验中的应用表明,该分类方法和标记集是一个比较合理和实用的。
    • 冯志伟
      1989, 3(2): 3-18.
      摘要 (695) PDF (682 KB) (1277)
      Baidu(56)
      本文是作者最近在中文术语数据库研究中提出的“ 潜在歧义论”(简称PA论)的第一部分, 说明了中文科技术语中存在着PT-结构、SF-结构和LS-结构三个层次不同的结构, 而当术语的PT-结构与SF-结构不一一对应时, 就会产生潜在歧义, 这种潜在歧义普遍地存在于中文科技术语的PT-结构之中, 是中文词组型术语结构自动分析中的关键问题。“ 潜在歧义论” 为中文科技术语的自动分析提供了一个行之有效的“ 受限语法” 模型。