中文信息学报

Select

胡月,周光有

2022, 36(2): 111-120.

摘要 (590) PDF (1491 KB) (976)

知识库问答依靠知识库推断答案,需要大量带标注信息的问答对,但构建大规模且精准的数据集不仅代价昂贵,还受领域等因素限制。为缓解数据标注问题,面向知识库的问题生成任务引起了研究者关注,该任务的特点是利用知识库三元组自动生成问题,但现有方法仅由一个三元组生成的问题过于简短,且缺乏多样性。为生成信息量丰富且多样化的问题,该文采用Graph Transformer和BERT两个编码层来加强三元组多粒度语义表征以获取背景信息,在SimpleQuestions数据集上的实验结果证明了该方法的有效性。

Select

动态层次Transformer序列推荐算法

袁涛,牛树梓,李会元

2022, 36(1): 117-126.

摘要 (574) PDF (2794 KB) (876)

序列化推荐任务根据用户历史行为序列,预测下一时刻即将交互的物品。大量研究表明: 预测物品对用户历史行为序列的依赖是多层次的。已有的多尺度方法是针对隐式表示空间的启发式设计,不能显式地推断层次结构。为此,该文提出动态层次Transformer,来同时学习多尺度隐式表示与显式层次树。动态层次Transformer采用多层结构,自底向上根据当前层近邻注意力机制判断需要融合的块,动态生成块掩码。多尺度层次结构中,每层的组合结构由该层的块掩码矩阵推断出,每层的隐式表示由动态块掩码与自注意力机制融合得到。该文提出的算法的预测准确度在MovieLens-100k和Amazon Movies and TV两个公共数据集上分别比当前最先进的基准方法提升了2.09%和5.43%。定性分析的结果表明,该文模型学习到的多尺度结构是符合直觉的。

Select

儿科疾病及保健知识问答系统的构建

李俊卓,昝红英,闫英杰,张坤丽

2022, 36(1): 127-134.

摘要 (547) PDF (1779 KB) (903)

儿童健康及疾病诊疗是家庭及社会聚焦的热点,提供准确、有效的信息咨询也是家长和社会的迫切需求。该文以中文医学知识图谱和医学文本为数据来源,以儿科疾病和保健知识为切入点,对多知识来源的自动问答系统进行了研究。系统采用AC自动机(Aho-Corasick automaton)和正则表达式,融合句法结构及关键词特征,对用户输入问题与模板进行匹配,根据模板生成对应的Cypher语句对儿科医学知识图谱及医学文本进行查询和检索,并生成备选答案。采用融合数据来源权威性及匹配度的评分机制对产生的备选答案进行评分,根据评分向用户返回最终答案。系统在某三甲医院投入试用一个月后,根据用户评分反馈,满意度为85.43%。

Select

PCC:一个对单用户建模的个性化对话系统

郭宇,窦志成,文继荣

摘要 (680) PDF (2055 KB) (1051)

对话系统是自然语言处理（NLP）领域中一个重要的下游任务，在近几年得到了越来越多的关注，并取得了很大的发展。然而尽管对话领域已经取得了许多优秀的成果，现有的对话模型在拓展个性化方面依然有很大的局限性。为了使对话模型更符合人类的对话方式，拥有更好的个性化建模能力，该文提出一种新的对单个用户建模的个性化模型PCC（a Personalized Chatbot with Convolution mechanism）。在编码端，PCC通过文本卷积神经网络（TextCNN）处理用户历史回复帖子以得到用户兴趣信息；在解码端，使用相似度搜寻用户历史回答中与当前问题最为匹配的回复和用户ID一起指导生成。实验结果证明，该文模型在生成回复的准确性和多样性上均有较大提升，证明了历史回复信息在个性化建模方面的有效性。

Select

语义图驱动的面向复杂逻辑关系的自然语言问答

金季豪,阮彤,高大启,叶琪,刘旭利,薛魁

摘要 (536) PDF (5526 KB) (883)

传统的基于知识库的问答难以处理具有复杂逻辑关系的自然语言问题，而此类问题在实际应用中广泛存在。为此，该文提出了语义图驱动的自然语言问答框架。框架核心是用主链、支链、环结构等图形化结构及其拼接，表达领域中的事件及事件之间的语义关系。进一步的，构造语义图的线性编码形式，利用路径生成模型将复杂自然语言问题翻译成语义图的线性序列。为验证框架有效性，该文面向公开的医疗领域数据，半自动地构建了3000个具有复杂逻辑关系的问题与答案。将问句进行实体识别、实体对齐，得到语义图线性序列，最后通过槽填充后在知识库中查询得到答案。其中，基于注意力机制的序列到序列模型达到了97.67%的准确率，启发式规则的槽填充达到94.88%的准确率，系统整体性能达到91.5%。

Select

基于查询路径排序的知识库问答系统

宋鹏程,单丽莉,孙承杰,林磊

2021, 35(11): 109-117,126.

摘要 (563) PDF (4431 KB) (1003)

该文提出了一种基于查询路径排序的知识库问答系统。为了将简单问题与复杂的多约束问题统一处理,同时提高系统的准确性,该系统采用基于LambdaRank算法构建的排序模型,对查询路径按照与问题的相关度大小进行排序,选择与问题相关度最高的路径用于抽取答案。同时,该系统还应用了一种融合方法以提高实体识别的准确性。该文所构建的系统在CCKS2019 KBQA任务与CCKS2020 KBQA任务上均取得了较好的效果。

Select

基于多头注意力和BiLSTM改进DAM模型的中文问答匹配方法

秦汉忠,于重重,姜伟杰,赵霞

2021, 35(11): 118-126.

摘要 (600) PDF (6978 KB) (721)

针对目前检索式多轮对话深度注意力机制模型(Deep Attention Matching Network,DAM)候选回复细节不匹配和语义混淆的问题,该文提出基于多头注意力和双向长短时记忆网络(BiLSTM)改进DAM模型的中文问答匹配方法,采用多头注意力机制,使模型有能力建模较长的多轮对话,更好地处理目标回复与上下文的匹配关系。此外,该文在特征融合过程中采用BiLSTM模型,通过捕获多轮对话中的序列依赖关系,进一步提升选择目标候选回复的准确率。该文在豆瓣和电商两个开放数据集上进行实验,实验性能均优于DAM基线模型,R₁₀@1指标在含有词向量增强的情况下提升了1.5%。

Select

面向垂直领域的阅读理解数据增强方法

吕政伟,杨雷,石智中,梁霄,雷涛,刘多星

2021, 35(11): 127-134.

摘要 (546) PDF (2965 KB) (799)

阅读理解问答系统是利用语义理解等自然语言处理技术,根据输入问题,对非结构化文档数据进行分析,生成一个答案,具有很高的研究和应用价值。在垂直领域应用过程中,阅读理解问答数据标注成本高且用户问题表达复杂多样,使得阅读理解问答系统准确率低、鲁棒性差。针对这一问题,该文提出一种面向垂直领域的阅读理解问答数据的增强方法,基于真实用户问题,构造阅读理解训练数据,一方面降低标注成本,另一方面增加训练数据多样性,提升模型的准确率和鲁棒性。该文用汽车领域数据对本方法进行实验验证,其结果表明,该方法对垂直领域中阅读理解模型的准确率和鲁棒性均得到有效提升。

Select

基于小样本学习的个性化Hashtag推荐

曾兰君,彭敏龙,刘雅琦,许辽萨,魏忠钰,黄萱菁

2021, 35(9): 102-112.

摘要 (675) PDF (3578 KB) (1146)

近年来,Hashtag推荐任务吸引了很多研究者的关注。目前,大部分深度学习方法把这个任务看作是一个多标签分类问题,将Hashtag看作为微博的类别。但是这些方法的输出空间固定,在没有进行重新训练的情况下,不能处理训练不可见的Hashtag。然而,实际上Hashtag会随着时事热点不断快速更新。为了解决这一问题,该文提出将Hashtag推荐任务建模成小样本学习任务。同时,结合用户使用Hashtag的偏好降低推荐的复杂度。在真实的推特数据集上的实验表明,与目前最优方法相比,该模型不仅可以取得更好的推荐结果,而且表现得更为鲁棒。

Select

中文知识库问答中的路径选择

吴锟,周夏冰,李正华,梁兴伟,陈文亮

2021, 35(9): 113-122.

摘要 (870) PDF (3129 KB) (1633)

路径选择是知识库问答任务的关键步骤,语义相似度常被用来计算路径对于问句的相似度得分。针对测试集中存在大量未见的关系,该文提出使用一种负例动态采样的语义相似度模型的训练方法,去丰富训练集中关系的多样性,模型性能得到显著提升。针对复杂问题候选路径数量组合爆炸问题,该文比较了两种路径剪枝方法,即基于分类的方法和基于集束搜索的方法。在包含简单问题和复杂问题的CCKS 2019-CKBQA评测数据集上,该方法能达到较优异的性能,测试集上单模型系统平均F₁值达到0.694,系统融合后达到0.731。

Select

SCT-CVAE: 基于分离Context机制与CVAE的Transformer对话模型

苑浩,王泳

2021, 35(9): 123-131.

摘要 (641) PDF (1380 KB) (1014)

现有多轮对话生成的Encoder-Decoder模型容易产生单一的响应,虽然使用条件自动编码器(CVAE)可以有效改善响应的多样性问题,但是基于CVAE的模型大多不能够捕捉上下文中较长的依赖。同时,现有的模型也无法显式处理上下文话语和源语句之间的差异。该文将Transformer与CVAE结合,通过Transformer捕捉对话中的长依赖,使潜在变量可以学习到更丰富的对话分布。通过分离上下文语句的编码实现上下文的信息流向源语句,并使用门控机制来控制上下文话语和源语句的信息融合,捕捉对话中对响应影响更大的信息。实验表明,该模型产生的响应多样性更高,质量更好。

Select

基于改进Apriori算法的问题模板无监督抽取方法

柯文俊,高金华,沈华伟,刘悦,程学旗

2020, 34(10): 76-84.

摘要 (613) PDF (2181 KB) (1789)

在面向限定领域的事实型问答系统中,基于模板匹配的问答是一种有效且稳定的方法。然而,现有的问题模板构建方法通常是在有监督场景下进行的,导致其严重依赖于人工标注数据,同时领域间可扩展性较差。因此,该文提出了一种改进Apriori算法的无监督模板抽取方法。对于限定领域问题样本,加入短语有序特征来挖掘频繁项集,将频繁项作为问题模板的框架词;同时,使用TF-IDF来度量模板的信息量,去除信息量小的模板;特别地,为了获取项数较长的模板,为Apriori算法引入了支持度自适应更新机制;最终,借助命名实体识别进行槽位识别,并组合框架词和槽,得到问题模板。实验表明,该方法可以在限定领域的问答数据集上有效挖掘问题模板,并取得了比基线模型更好的抽取效果。

Select

卷积重提取特征的文档列表排序学习方法

曹军梅,马乐荣

2020, 34(8): 86-93.

摘要 (559) PDF (1786 KB) (2675)

在许多信息检索任务中,为了进一步提高检索性能,通常需要对检索到的文档进行重新排序,目前的排序学习方法主要集中在损失函数的构造上,而没有考虑特征之间的关系。该文将多通道深度卷积神经网络作用于文档列表排序学习方法,即ListCNN,实现了信息检索的精确重排序。由于从文档中提取的多个特征中有一些特征具有局部相关性和冗余性,因此,文中使用卷积神经网络来重新提取特征,以提高列表方法的性能。ListCNN架构考虑了原始文档特征的局部相关性,能够有效地重新提取代表性特征。在公共数据集LETOR 4.0上对ListCNN进行实验验证,结果表明其性能优于已有文档列表方法。

Select

Q2SM: 基于BERT的多领域任务型对话系统状态跟踪算法

张家培,李舟军

2020, 34(7): 89-95.

摘要 (1171) PDF (1170 KB) (2767)

基于管道的方法是目前任务型对话系统的主要构建方式,在工业界具有广泛应用,而对话状态跟踪(dialogue state tracking,DST)是任务型对话系统中的核心任务。面对传统的方法在多领域场景下表现较差的问题,该文结合语言模型预训练的最新研究成果,该文提出了一种基于BERT的对话状态跟踪算法Q2SM(query to state model)。该模型的上游使用了基于BERT的句子表征与相似度交互的槽判定模块,下游使用了一种面向对话状态跟踪任务的自定义RNN: DST-RNN。在WOZ 2.0和MultiWOZ 2.0两个数据集上的实验表明,Q2SM相比于之前的最好模型,分别在联合准确率和状态F₁值两个评价指标上提升了1.09%和2.38%。此外,模型消融实验验证了,DST-RNN相比于传统的RNN或LSTM,不仅可以提升评价指标值,还可以加快模型的收敛速度。

Select

一种基于CW-RNN的多时间尺度序列建模推荐算法

袁涛,牛树梓,李会元

2020, 34(6): 97-105.

摘要 (817) PDF (2399 KB) (3635)

序列化推荐试图利用用户与物品的历史交互序列,预测下次即将交互的物品。针对序列化推荐中推荐物品依赖于用户的长时间全局兴趣、中时间兴趣还是短时间局部兴趣的不确定性,该文提出了一种基于CW-RNN的多时间尺度序列建模推荐算法。首先,该算法引入CW-RNN层,从用户与物品的历史交互序列中抽取多个时间尺度的用户兴趣特征。然后,通过尺度维卷积来建模对不同时间尺度的用户兴趣特征的依赖,生成多时间尺度用户兴趣特征的统一表示。最后,利用全连接层建模统一的多尺度用户兴趣特征和隐式物品特征的交互关系。在MovieLens-1M和Amazon Movies and TV两个公开数据集上的实验结果表明,相比于现有最优的序列推荐算法,该文提出的算法在准确率上分别提升了3.80%和8.63%。

Select

双特征空间的实体排序学习

赵以昕,牛树梓,纪春岩,卢菲,徐睿

2020, 34(5): 91-99.

摘要 (773) PDF (2125 KB) (3454)

随着大规模知识图谱的出现以及企业高效管理领域知识图谱的需求,知识图谱中的自组织实体检索成为研究热点。给定知识图谱以及用户查询,实体检索的目标在于从给定的知识图谱中返回实体的排序列表。从匹配的角度来看,传统的实体检索模型大都将用户查询和实体统一映射到词的特征空间。这样做具有明显的缺点,例如,将同属于一个实体的两个词视为独立的。为此,该文提出将用户查询和实体同时映射到实体与词两个特征空间方法,称为双特征空间的排序学习。首先将实体抽象成若干个域。之后从词空间和实体空间两个维度分别抽取排序特征,最终应用于排序学习算法中。实验结果表明,在标准数据集上,双特征空间的实体排序学习模型性能显著优于当前先进的实体检索模型。

Select

基于混合多头注意力和胶囊网络的特定目标情感分析

王家乾,龚子寒,薛云,庞士冠,古东宏

2020, 34(5): 100-110.

摘要 (1049) PDF (4132 KB) (3114)

特定目标情感分析旨在判断上下文语境在给定目标词下所表达的情感倾向。对句子语义信息编码时,目前大部分循环神经网络或注意力机制等方法,不能充分捕捉上下文中长距离的语义信息,同时忽略了位置信息的重要性。该文认为句子的语义信息、位置信息和多层次间的信息融合对该任务至关重要,从而提出了基于混合多头注意力和胶囊网络的模型。首先,使用多头自注意力分别在位置词向量基础上对上下文长句子和在双向GRU基础上对目标词进行语义编码;然后,使用胶囊网络在语义信息交互拼接基础上进行位置信息编码;最后,在融入原始语义信息基础上,使用多头交互注意力对上下文与目标词并行融合的方法得到情感预测结果。在公开数据集SemEval 2014 Task4和ACL 14 Twitter上的实验表明,该文模型性能较传统深度学习和标准注意力方法有显著提升,验证了模型的有效性和可行性。

Select

模仿排序学习模型

曾玮,俞蔚捷,徐君,兰艳艳,程学旗

2020, 34(1): 97-105.

摘要 (805) PDF (2546 KB) (1396)

文档排序一直是信息检索(IR)领域的关键任务之一。受益于马尔科夫决策过程强大的建模能力,以及强化学习方法强大的求解能力,近年来基于强化学习的排序模型被提出并取得了良好效果。然而,由于候选文档中会包含大量的不相关文档,导致基于“试错”的强化学习方法存在效率低下的问题。为解决上述问题,该文提出了一种基于模仿学习的排序学习算法IR-DAGGER,其基于文档标注信息构建专家策略,在保证文档排序精度的同时提高了算法的学习效率。为了测试IR-DAGGER的性能,该文基于面向相关性排序任务的OHSUMED数据集和面向多样化排序的TREC数据集进行了实验,实验结果表明IR-DAGGER在上述两个数据集上均提升了文档排序的精度和效率。

Select

基于LambdaMART算法的微信公众号排序

渠北浚,白宇,蔡东风,陈建军

2019, 33(12): 101-109.

摘要 (769) PDF (3563 KB) (809)

随着移动应用的普及,微信公众号已经成为人们获取信息的重要来源之一。微信公众号排序是获取优质信息、节约信息管理成本的必要手段。现有的公众号排序方法主要是对总阅读数、总点赞数等量化指标进行人工经验赋权得到排序结果,忽略了文章内容对公众号选择的影响。该文在保留量化指标的基础上,提出了主题垂直性、发文稳定性、主题覆盖率和主题相关性等微信篇章排序特征,使用LambdaMART算法针对上述特征集合进行排序学习,并通过主成分分析进行特征选择优化。实验结果表明,在公众号排序方面,LambdaMART方法优于现有其他方法,相关实验也证明了基于微信篇章内容分析特征的有效性。

Select

融合注意力LSTM的协同过滤推荐算法

罗洋,夏鸿斌,刘渊

2019, 33(12): 110-118.

摘要 (950) PDF (3256 KB) (1240)

针对传统协同过滤算法难以学习深层次用户和项目的隐表示,以及对文本信息不能充分提取单词之间的前后语义关系的问题,该文提出一种融合辅助信息与注意力长短期记忆网络的协同过滤推荐模型。首先,附加堆叠降噪自编码器利用评分信息和用户辅助信息提取用户潜在向量;其次,基于注意力机制的长短期记忆网络利用项目辅助信息来提取项目的潜在向量;最后,将用户与项目的潜在向量用于概率矩阵分解中,从而预测用户偏好。在两个真实数据集MovieLens-100k和MovieLens-1M上进行实验,采用RMSE和Recall指标进行评估。实验结果表明,该模型与其他相关推荐算法相比在推荐性能上有所提升。

Select

面向知识库问答的实体链接方法

赵畅,李慧颖

2019, 33(11): 125-133.

摘要 (952) PDF (2153 KB) (1168)

面向知识库问答的实体链接是指将自然语言问句中实体指称链接到知识库中实体的方法。目前主要面临两个问题: 第一是自然语言问句短,实体指称上下文不充分;第二是结构化知识库中实体的文本描述信息少。因此,该文提出了分别利用候选实体的类别、关系和邻近实体作为候选实体表示的方法,弥补知识库实体描述信息不足的问题。同时,通过语料训练得到问句指称的相似实体指称作为其背景知识。最后,结合实体流行度,共同作为实体消歧的特征。实验结果表明,上述提到所有特征的线性组合在数据集上高于单个特征的结果,表现最佳。

Select

基于代表性答案选择与注意力机制的短答案自动评分

谭红叶,午泽鹏,卢宇,段庆龙,李茹,张虎

2019, 33(11): 134-142.

摘要 (658) PDF (2896 KB) (806)

短答案自动评分是智慧教学中的一个关键问题。目前自动评分不准确的主要原因是: (1)预先给定的参考答案不能覆盖多样化的学生答题情况; (2)不能准确刻画学生答案与参考答案匹配情况。针对上述问题,该文采用基于聚类与最大相似度方法选择代表性学生答案构建更完备的参考答案,尽可能覆盖学生不同的答题情况;在此基础上,利用基于注意力机制的深度神经网络模型来提升系统对学生答案与参考答案匹配情况的刻画。相关数据集上的实验结果表明: 该文模型有效提升了自动评分的准确率。

Select

基于协同表示学习的个性化新闻推荐

梁仕威,张晨蕊,曹雷,程军军,许洪波,程学旗

2018, 32(11): 72-78.

摘要 (636) PDF (1573 KB) (1364)

新闻推荐是互联网推荐系统的研究热点之一,传统的协同过滤算法应用于新闻推荐中会面临严重的新闻冷启动问题,而且也没有考虑新闻内容本身包含的丰富的语义信息。该文将文档与词的表示学习模型与基于矩阵分解的协同过滤算法结合起来,提出一种用于推荐领域的协同表示学习模型,能同时学习带有语义信息的用户和文档的表示向量。在真实的新闻点击数据集上的实验表明,该文提出的模型优于其他基准模型。

Select

基于DQN的开放域多轮对话策略学习

宋皓宇,张伟男,刘挺

2018, 32(7): 99-108,136.

摘要 (2207) PDF (3531 KB) (1411)

有效地进行多轮对话是开放域人机对话系统的主要目标之一。目前的神经网络对话生成模型在开放域多轮对话过程中存在着容易产生万能回复、很快陷入死循环的问题;而已有的多轮对话研究工作存在着没有考虑未来对话走向的问题。借鉴强化学习方法考虑全局的视角,该文利用深度强化学习算法DQN(deep Q-network),提出了使用深度价值网络对每一轮的候选句子进行评估,并选择未来收益最大的而非生成概率最大的句子作为回复的多轮对话策略学习方法。实验结果表明,该文提出的方法将多轮对话的平均对话轮数提高了两轮,同时在主观对比评价指标上获胜比例高出了45%。

Select

基于共指消解的实体搜索模型研究

熊玲,徐增壮,王潇斌,洪宇,朱巧明

2018, 32(5): 89-96.

摘要 (780) PDF (1440 KB) (955)

实体属性挖掘(slot filling,SF)旨在从大规模文档集中挖掘给定实体(称作查询)的特定属性信息。实体搜索是SF的重要组成部分,负责检索包含给定查询的文档(称为相关文档),供后续模块从中抽取属性信息。目前,SF领域关于实体搜索的研究较少,使用的基于布尔逻辑的检索模型忽略了实体查询的特点,仅使用查询的词形信息,受限于查询歧义性,检索结果准确率较低。针对这一问题,该文提出一种基于跨文档实体共指消解(cross document coreference resolution,CDCR)的实体搜索模型。该方法通过对召回率较高但准确率较低的候选结果进行CDCR,过滤不包含与给定实体共指实体的文档,提高检索结果的准确率。为了降低过滤造成的召回率损失,该文使用伪相关反馈方法扩充查询实体的描述信息。实验结果显示,相比于基准系统,该方法能有效提升检索结果,准确率和F₁分别提升5.63%、2.56%。

Select

基于深度学习的论文个性化推荐算法

王妍,唐杰

2018, 32(4): 114-119.

摘要 (940) PDF (1072 KB) (1029)

Baidu(6)

该文基于学术搜索和数据挖掘平台Aminer向用户进行个性化推荐,提出了结合协同过滤推荐和基于内容推荐的混合模型,实验表明该算法可以有效解决新物品的推荐问题,即冷启动问题。其中在基于内容推荐的模型中,融合深度学习的方法,引进了词向量模型,将用户和论文映射到用词向量空间, 并使用WMD(Word Mover Distance)计算相似度。实验表明,与其他基线模型相比该文提出的推荐模型在准确率上显著提高了4%。

Select

基于多重增强图和主题分析的社交短文本检索方法

刘德喜,付淇,韦亚雄,万常选,刘喜平,钟敏娟,邱家洪

2018, 32(3): 110-119.

摘要 (617) PDF (3495 KB) (1116)

社会网络平台上的社交短文本不同于网页或其他文本,它的特点是内容短、文本间存在转发评论等关系、话题复杂多样、与Web页面有链接关系、文本的作者间有关注关系等,现有的检索系统不能完全适应。该文提出一个基于多重增强图的社交短文本检索方法SSTR,它利用多重增强图算法对通过Indri获得的初步检索结果实现再排序优化和去重。多重增强图算法是基于马尔科夫链理论设计出的图模型算法,社交短文本中蕴含的文本、作者、词语等不同层面的关系通过不同的图层及图中节点之间的边来建模。三个层面的关系相互增强,通过多次迭代运算,最终寻求多个层面间相互关系所处的稳定状态。多重增强图构建时,短文本的相似度计算基于主题分析结果,克服了传统余弦相似度计算时TF-IDF权重在短文本上的局限性。实验结果表明,与Indri、reRank-COS和reRank-LDA相比,基于多重增强图算法的SSTR排序的效果更好,适合初始检索结果相对较多的应用场合。

Select

基于Spark的大规模语义规则后向链推理系统

顾荣,王善永,郭晨,袁春风,黄宜华

2018, 32(3): 120-134.

摘要 (750) PDF (9414 KB) (718)

近年来,语义网数据快速增长,适合于处理静态小规模语义数据的前向链语义推理技术暴露出了需对数据进行频繁更新等问题。面对大规模动态语义网数据,对数据更新不敏感的后向链语义推理开始成为新的研究热点。后向链语义推理由查询目标驱动,在查询时根据规则集推理出查询结果。后向链语义推理具有推理过程复杂、规则扩展深度大等特点,在大规模语义数据上推理的效率和可扩展性上有一定的挑战。该文立足于已有的后向链推理技术,详细分析了语义推理规则集的特点,并结合当前主流的大数据处理平台Spark,设计了一套较为高效并且可扩展的大规模并行化语义规则后向链推理系统。该文的主要研究工作分为三个部分: (1)采用预计算本体数据闭包的方法,避免了本体模式在实时推理阶段的重复推理; (2)在后向链语义推理的逆向推理和查询阶段设计了优化措施,进一步提高了推理效率; (3)设计实现了一种基于Spark平台的大规模分布式RDFS/OWL后向链语义推理系统。实验数据显示,该文提出的RDFS/OWL后向链语义推理系统在合成数据集LUBM和真实数据集DBpedia上都表现出了良好的推理性能,在亿条三元组上的推理开销是几秒到几十秒,并且表现出了良好的数据可扩展性和节点可扩展性。

Select

问答中的问句意图识别和约束条件分析

孙鑫,王厚峰

2017, 31(6): 132-139.

摘要 (1531) PDF (2515 KB) (1351)

意图识别和约束条件分析是口语理解(SLU)中的两个重要过程。前者是分类问题,判断话语意图;后者可以看作序列标注问题,给关键信息标特定标签。该文提出了一种LSTM联合模型,同时结合了CRF和注意力机制。在ID问题上,将所有词语输出层向量的加权和用于分类;在SF问题上,考虑标签之间的转移,计算标签序列在全局的可能性。在中文数据集和ATIS英文数据集上的实验验证了该文所提方法的有效性。

Select

深度学习中汉语字向量和词向量结合方式探究

李伟康,李炜,吴云芳

2017, 31(6): 140-146.

摘要 (3077) PDF (2046 KB) (1927)

Baidu(2)

该文旨在探究深度学习中汉语字向量和词向量的有效结合方式。我们在以词作为基础语义单元和以字作为基础语义单元这两个方向进行探究,实验了字、词信息多种浅层结合方式和深层结合方式。为了验证该文提出的结合方式的有效性,我们改进了一种compare-aggregate模型,并在基于文档的问答系统上进行了实验。实验结果表明,有效的汉语字向量和词向量的结合方式超越了单独的字向量和词向量,提升了基于文档的问答系统的性能,使其结果与目前最好的结果可媲美。

“信息检索与问答系统” 栏目所有文章列表

选择文件类型/文献管理软件名称

选择包含的内容