“词法、句法、语义分析” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 张婧,黄锴宇,梁晨,黄德根
    2018, 32(3): 17-25,33.
    摘要 (715) PDF (3339 KB) (1193)
    该文结合词向量技术和传统统计量,提出了一种新的无监督新词识别方法。该方法利用传统统计量获得候选新词,然后采用多种策略训练得到词向量,利用词向量构建弱成词词串集合,并使用该集合从候选新词的内部构成和外部环境两个方面对其进行过滤。此外,该文人工标注了一万条微博的分词语料作为发展语料,用于分析传统统计量以及调整变量阈值。实验使用NLPCC2015面向微博的中文分词评测任务的训练语料作为最终的测试语料。实验表明,该文方法对二元新词进行识别的F值比基线系统提高了6.75%,比目前新词识别领域最佳方法之一Overlap Variety方法提高了4.9%。最终,在测试语料上对二元新词和三元新词识别的F值达到了56.2%。
  • 金宸,李维华,姬晨,金绪泽,郭延哺
    2018, 32(2): 29-37.
    摘要 (1335) PDF (3923 KB) (2853)
    中文分词是中文自然语言处理的基础。分词质量的好坏直接影响之后的自然语言处理任务。目前主流的分词是基于传统的机器学习模型。近年来,随着人工智能大潮的又一次兴起,长短期记忆(LSTM)神经网络模型改进了普通循环神经网络模型无法长期依赖信息的缺点,被广泛应用于自然语言处理的各种任务中,并取得了不错的效果。对中文分词,该文在经典单向LSTM模型上进行改进,增加了自后向前的LSTM层,设计了双向LSTM模型,改进了单向LSTM对后文依赖性不足的缺点;并引入了贡献率α,对前传LSTM层和后传LSTM层的权重矩阵进行调节,并设计了四个实验,验证了所建模型的正确性和优越性。
  • 王东升,王石,王卫民,符建辉,诸峰
    2018, 32(2): 38-49.
    摘要 (755) PDF (5343 KB) (1391)
    开放域问答系统通常可以借助一些数据冗余方法来提高问答准确性,而对于缺乏大规模领域语料的领域相关问答系统来说,准确理解用户的意图成为这类系统的关键。该文首先定义了一种带约束语义文法,与本体等语义资源相结合,可以在词汇级、句法级、语义级对自然语言句子的解析过程进行约束,解决自然语言理解歧义问题;然后给出了一个高效的文法匹配算法,其首先依据定义的各种约束条件预先过滤一些规则,然后依据提出的匹配度计算模型对候选的规则进行排序,找到最佳匹配。为了验证方法的有效性,将方法应用到两个实际的应用领域的信息查询系统。实验结果表明,本系统提出的方法切实有效,系统理解准确率分别达到了82.4%和86.2%,MRR值分别达到了91.6%和93.5%。
  • 王明轩,刘群
    2018, 32(2): 50-57.
    摘要 (655) PDF (2604 KB) (1343)
    该文提出了一个基于多层长短期记忆神经网络的语义角色标注方法,并装置了新颖的“直梯单元”(elevator unit, EU)。EU包含了对单元内部输入和输出的线性连接,使信息可以通畅地在不同层之间传播。通过EU,一个20层的LSTM网络可以得到比较充分的优化。重要的是,这个线性连接包含的“门”函数可以正则和控制信息在时间方向和空间方向上的传播。不同层次的抽象信息也可以被EU直接带到输出层进行语义角色标注。尽管这个模型非常简单,不需要任何额外的特征输入,但是它取得了理想的实验结果,在CoNLL-2005公开数据集上取得了F=81.56%的结果,在CoNLL-2012公开数据集上取得了F=82.53%的结果,比之前最好的结果分别提高了0.5%和1.26%。另外,在领域外的数据集上我们也取得了F值2.2%的显著提升,这是当前世界上最好的性能。该模型比较简洁,非常容易实现和并行,在单一的K40 GPU上取得了每秒11.8K单词的解析速度,远远高于之前的方法。