中文信息学报

Select

陈新元,周忠眉,陈庆强,高美春,施达雅

2023, 37(3): 54-64.

摘要 (325) PDF (5218 KB) (108)

为建模知识图中的复杂关系模式,知识补全模型期望提升表示能力和特征提取能力。超复数空间容量大于传统实数/复数空间,相关计算开销较小,但现有基于超复数嵌入的方法表示/提取能力不足且没有利用实体间路径的语义信息。该文首先优化现有超复数模型设计以扩大表示空间;接下来将实体间关系序列整合视作多旋转混合问题,设计四元数路径序列的快速整合方法并理论证明,进一步引入注意力机制集成路径语义;最后利用空洞循环卷积增强模型的特征提取能力。通过在主流数据集上开展链路预测和路径查询实验,验证了模型的表示和特征提取能力等,均优于Rotate3D等先进对比模型。

Select

高血压超关系知识图谱建模及用药决策推理实践

谢晓璇,鄂海红,匡泽民,谭玲,周庚显,罗浩然,李峻迪,宋美娜

2023, 37(3): 65-78.

摘要 (428) PDF (4821 KB) (250)

传统的知识建模方法在医学场景下面临着知识复杂性高、难以通过传统三元组的方式精确表达等问题,需要研究新的本体对医学知识进行建模。该文提出一种应用于高血压领域的三层超关系知识图谱模型(Triple-view Hypertension Hyper-relational Knowledge Graph,THH-KG),该方法基于超关系知识图谱模型搭建计算层、概念层、实例层三层图谱架构,实现多元的医学逻辑规则、概念知识和实例知识的联合表达。此外,该文还提出了在普通图数据库中超关系知识图谱的通用存储方法,且基于该方法设计了高血压知识图谱推理解释引擎(Hypertension Knowledge Graph Reasoning Engine,HKG-RE),实现了基于医学规则的用药推荐辅助决策应用。上述方法在对108位真实高血压患者的用药推荐实验中正确率达到了97.2%。

Select

OpenConcepts: 一个开放的细粒度中文概念知识图谱

叶宏彬,张宁豫,陈华钧,邓淑敏,毕祯,陈想

2023, 37(1): 46-53.

摘要 (503) PDF (4491 KB) (338)

知识图谱是通过符号形式描述世界万物的实体及其之间的关联关系,是一种具备强大知识处理能力的大规模语义网络。概念知识图谱是一种特殊的知识图谱,在语义搜索、自动问答等场景具有广泛的应用价值。之前的概念图谱较难覆盖长尾实体,且存在概念粒度较粗和更新困难等问题。针对这些问题,该文提出了一种全新的自动化概念图谱构建方法,能够自动地从海量文本及半结构化数据中构建细粒度的中文概念层次结构,还发布了一个开放的细粒度中文概念知识图谱OpenConcepts,包含440万概念核心实例,5万多个细粒度概念和1 300万概念-实例三元组,并提供相应的调用接口。

Select

结合多重嵌入表示的中文知识图谱补全

陈跃鹤,谈川源,陈文亮,贾永辉,何正球

2023, 37(1): 54-63.

摘要 (513) PDF (3924 KB) (391)

近年来,随着知识图谱相关技术的不断发展,各方面研究对知识图谱本身的需求也不断加强。然而现有的知识图谱无法完全覆盖整个真实世界,同时在知识正确性以及时效性等方面存在问题,这使得知识图谱补全越来越受到研究者的关注。在中文环境下,知识图谱补全任务又呈现出与英文图谱补全任务不同的特性。该文对中/英知识图谱补全任务进行了对比分析,将中文图谱中出现的错误进行了归类。根据该分析结果,该文提出将三元组中实体和关系嵌入表示、实体和关系描述文本嵌入表示结合的链接预测方法MER-Tuck,该方法利用外部的语义补充来加强矩阵分解模型的学习能力。为了验证该方法的有效性,该文为中文知识图谱补全任务构建了新数据集。在该数据集上将该文的方法与主流的链接预测方法进行比较,实验结果表明该文所提方法是有效的。

Select

概率式关联可信中文知识图谱——“文脉”

李文浩,刘文长,孙茂松,矣晓沅

2022, 36(12): 67-73.

摘要 (429) PDF (2680 KB) (610)

国内现有的中文知识图谱往往以维基百科、百度百科等群体智能贡献的知识库作为资源抽取得到,但这些知识图谱利用的主要是百科的实体名片信息和分类体系信息。然而,这些百科中也有大量的内部链接信息,其中蕴含了大量知识。故而该文中利用维基百科的内部链接构造边,并统计目标实体在源实体定义文本中出现的频度,利用其对应的TF-IDF值作为边权,构造了一个概率式中文知识图谱。该文还提出了一种可信链接筛选算法,对偶发链接进行了去除,使知识图谱更加可信。基于上述方法,该文挖掘出了一个概率式关联可信中文知识图谱,命名为“文脉”,将其在GitHub上进行了开源,以期能对知识指导的自然语言处理以及其他下游任务有所襄助。

Select

基于平移约束的异质超网络表示学习

刘贞国,朱宇,赵海兴,王晓英,黄建强

2022, 36(12): 74-84.

摘要 (404) PDF (2609 KB) (563)

与仅具有节点成对关系的普通网络不同,超网络的节点之间还存在复杂的元组关系,即,超边。而现有的大多数网络表示学习方法不能有效地捕获复杂的元组关系。针对上述问题,该文提出一种基于平移约束的异质超网络表示学习方法(HRTC)。首先,该方法结合团扩展和星型扩展将抽象为超图的异质超网络转换为抽象为2-截图+关联图的异质网络。然后,提出一种感知节点语义相关性的元路径游走方法来捕获节点之间的语义关系。最后,在训练节点成对关系的同时,通过引入知识表示学习中的平移机制来捕获节点之间的元组关系。实验结果表明,对于链接预测任务,该方法的性能接近于其他最优基线方法;对于超网络重建任务,当超边重建比率大于0.6时,该方法在drug数据集上的性能优于其他最优基线方法,同时该方法在GPS数据集上的平均性能超过其他最优基线方法16.24%。

Select

基于Beta分布和半监督学习的非确定性知识图谱嵌入模型

徐遥,何世柱,刘康,张弛,焦飞,赵军

2022, 36(10): 54-62.

摘要 (563) PDF (2143 KB) (694)

近年来,面向确定性知识图谱的嵌入模型在知识图谱补全等任务中取得了长足的进展,但如何设计和训练面向非确定性知识图谱的嵌入模型仍然是一个重要挑战。不同于确定性知识图谱,非确定性知识图谱的每个事实三元组都有着对应的置信度,因此,非确定性知识图谱嵌入模型需要准确地计算出每个三元组的置信度。现有的非确定性知识图谱嵌入模型结构较为简单,只能处理对称关系,并且无法很好地处理假负(false-negative)样本问题。为了解决上述问题,该文首先提出了一个用于训练非确定性知识图谱嵌入模型的统一框架,该框架使用基于多模型的半监督学习方法训练非确定性知识图谱嵌入模型。为了解决半监督学习中半监督样本噪声过高的问题,我们还使用蒙特卡洛Dropout计算出模型对输出结果的不确定度,并根据该不确定度有效地过滤了半监督样本中的噪声数据。此外,为了更好地表示非确定性知识图谱中实体和关系的不确定性以处理更复杂的关系,该文还提出了基于Beta分布的非确定性知识图谱嵌入模型UBetaE,该模型将实体、关系均表示为一组相互独立的Beta分布。在公开数据集上的实验结果表明,结合该文所提出的半监督学习方法和UBetaE模型,不仅极大地缓解了假负样本问题,还在多个任务中明显优于UKGE等当前最优的非确定性知识图谱嵌入模型。

Select

面向医学知识图谱的可视化方法设计与实现

杨云飞,穗志方

2022, 36(2): 40-48.

摘要 (806) PDF (8471 KB) (952)

随着人工智能技术的迅速发展和医学数据资源的大规模增长,面向医学领域的知识图谱受到越来越多的关注,知识图谱可视化旨在借助点和边等图形特征形象化地展示知识图谱中的实体、关系及相互之间的结构,便于非专业用户阅读和使用知识图谱。该文提出并实现了一种面向医学知识图谱的多视图、交互式可视化方法及系统,该系统包括医学实体分类的层级结构可视化,实体和关系之间的语义结构可视化以及从非结构化数据到结构化数据的交互式可视化。通过多视图、多维度、交互式的医学知识图谱可视化方法,让用户更加有效地对复杂知识图谱的结构进行分析和理解,进而发现更多蕴含的有价值信息。

Select

基于层次化语义框架的知识库属性映射方法

李豫,周光有

2022, 36(2): 49-57.

摘要 (528) PDF (5562 KB) (631)

面向知识库的自动问答是自然语言处理的一项重要任务,其旨在对用户提出的自然语言形式问题给出精练、准确的回复。目前由于缺少数据集,存在特征不一致等因素,导致难以使用通用的数据和方法实现领域知识库问答。因此,该文将“问题意图”视作不同领域问答可能存在的共同特征,将“问题”与三元组知识库中“关系谓词”的映射过程作为问答核心工作。为了考虑多种层次的语义并避免重要信息的损失,该文分别将“基于门控卷积的深层语义”和“基于交互注意力机制的浅层语义”通过门控感知机制相融合。在NLPCC-ICCPOL 2016 KBQA数据集上的实验表明,该文方法与现有的CDSSM和BDSSM方法相比,效能有明显提升。此外,该文通过构造天文常识知识库,将问题与关系谓词映射模型移植到特定领域,结合Bi-LSTM-CRF模型构建了天文常识自动问答系统。

Select

基于偏旁部首知识表示学习的汉字字形相似度计算方法

刘梦迪,梁循

摘要 (871) PDF (6022 KB) (1406)

该文提出了一种字形相似度计算方法，旨在解决汉字中相似字形（称作形似字）的识别和查找问题。首先，提出了汉字拆分方法，并构建了偏旁部首知识图谱；然后，基于图谱和汉字的结构特点，提出2CTransE模型，学习汉字实体语义信息的表示；最后，将输出的实体向量用于汉字字形的相似度计算，得到目标汉字的形似字候选集。实验结果表明，该文所提出的方法对于不同结构汉字的字形相似度计算有一定效果，所形成的汉字部件组成库，为之后字形计算的相关研究提供了行之有效的数据集。同时，也拓宽了日语等类汉语语言文字字体相似度计算的研究思路。

Select

一种基于IC参数的知识图谱嵌入方法

赵晓函,周子力,李天宇,陈丹华,王凯莉

2021, 35(10): 48-55.

摘要 (515) PDF (2182 KB) (1000)

TransC是一种高效的知识图谱嵌入方法,通过区分概念和实例来建立概念、实例及关系的嵌入。TransC将概念编码为球体,球体半径被随机初始化并在训练中迭代更新。由此导致模型出现两个问题:一是训练得到的部分球体半径与模型训练目标不符;二是忽略了概念本身提供的语义信息。针对上述两个问题,该文提出了TransIC模型,首先,基于IC参数给出新的概念球体半径求解方法,使求得的半径满足TransC目标,并且丰富了概念嵌入向量的语义信息。其次,该模型以TransC为基础,在概念编码阶段引入基于IC参数的概念球体半径。最后,在公开的数据集YAGO39K上完成链接预测和三元组分类两个任务,并将该文方法实验所得性能与TransC及其他模型的性能进行对比。结果表明,TransIC在多数指标上均取得显著提升。

Select

面向开放文本的逻辑推理知识抽取与事件影响推理探索

刘焕勇,薛云志,李瑞,任红萍,陈贺,张鹏

2021, 35(10): 56-63.

摘要 (752) PDF (2859 KB) (1704)

开放文本中蕴含着大量的逻辑性知识,以刻画事物之间逻辑传导关系的逻辑类知识库是推动知识推理发展的重要基础,研发大规模逻辑推理知识库有助于支持由实体或事件等传导驱动的决策任务。该文围绕逻辑推理知识库,论述了知识库的概念、类别和基本构成,提出了一种面向大规模开放文本的实体描述、事件因果逻辑知识快速抽取方法;面向金融领域,探索了一套基于逻辑推理知识库的可解释性路径推理方法和金融实体影响生成系统。算法模型和系统均取得了不错的效果。

Select

聚合邻域信息的联合知识表示模型

彭敏,黄婷,田纲,张鼎,罗娟,银源

2021, 35(5): 46-54.

摘要 (637) PDF (1327 KB) (1435)

知识表示学习在关系抽取、自动问答等自然语言处理任务中获得了广泛关注,该技术旨在将知识库中的实体与关系表示为稠密低维实值向量。然而,已有的模型在建模知识库中的三元组时,或是忽略三元组的邻域信息,导致无法处理关联知识较少的罕见实体,或是在引入邻域信息时不能自适应地为每个实体抽取最相关的邻节点属性,导致引入了冗余信息。基于以上问题,该文在知识表示模型TransE的基础上提出了聚合邻域信息的联合知识表示模型TransE-NA(neighborhood aggregation on TransE)。该模型首先根据实体的稀疏度确定其邻节点数量,然后根据实体的邻边关系选取对应邻节点上最相关的属性作为实体的邻域信息。在链接预测和三元组分类任务上的实验结果表明,该文的模型效果超越了基线模型,验证了该模型能有效聚合邻域信息,缓解数据稀疏问题,改善知识表示性能。

Select

基于贝叶斯网络的实体属性补全

佘琪星,姜天文,刘铭,秦兵

2021, 35(5): 55-62.

摘要 (587) PDF (5294 KB) (1135)

属性是实体的重要组成部分,因此实体属性的获取是知识图谱构建的关键步骤。由哈尔滨工业大学社会计算与信息检索研究中心推出的开放域中文知识图谱《大词林》是通过从文本中自动挖掘实体及实体间的关系构建而成的,因此为《大词林》中缺少属性的实体添加属性也成为必须研究的问题之一。该文提出了一种解决方案: 基于贝叶斯网络的概率统计模型,通过上位词概念与属性之间的依赖关系和实体与上位词概念的依赖关系来自动地为《大词林》中没有属性的实体添加属性,并与相似度计算方法对比证明了其有效性,可大规模提高《大词林》的属性覆盖率。

Select

基于深层语言模型的古汉语知识表示及自动断句研究

胡韧奋,李绅,诸雨辰

2021, 35(4): 8-15.

摘要 (793) PDF (2063 KB) (1908)

古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F₁值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F₁值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。

Select

一种改进的GloVe词向量表示学习方法

石隽锋,李济洪,王瑞波

2021, 35(4): 16-22.

摘要 (567) PDF (1087 KB) (1230)

GloVe模型是一种广泛使用的词向量表示学习的模型。许多研究发现,学习得到的词向量维数越大,性能越好;但维数越大,模型学习耗时越长。事实上,GloVe模型中,耗时主要表现在两方面,一是统计词对共现矩阵,二是训练学习词向量表示。该文在利用GloVe模型统计语料中词对共现时,基于对称或非对称窗口得到两个共现矩阵,然后分别学习得到较低维度的词向量表示,再拼接得到较高维度的词向量表示。从计算的复杂度来看,该文方法并不会产生多的计算量,但显然统计共现矩阵和训练学习可通过并行方式实现,能够显著提高计算效率。在使用大规模语料的实验中,以对称和非对称窗口分别统计得到共现矩阵,分别学习得到300维词向量表示,再使用拼接方式得到600维词向量表示。与GloVe模型对称和非对称的600维的词向量相比,在中文和英文的词语推断任务上,显著地提高了预测的准确率,在词语聚类任务上,有较好的聚类效果,验证了该文方法的有效性。

Select

HowNet义原标注一致性检验方法研究

刘阳光,岂凡超,刘知远,孙茂松

2021, 35(4): 23-34.

摘要 (848) PDF (2783 KB) (1249)

义原(sememe)被定义为人类语言中不可再分的最小语义单位。一个词语的意义可以由多个义原的组合来表示。以往人们已经人工为词语标注义原并构建了知网(HowNet)这一语言知识库,并借此将义原应用到了多种自然语言处理任务。但传统的人工标注费时费力,而且不同的专家进行标注难免会引入标注者的主观偏差,导致标注的一致性和准确性难以保证。因此,保证词的义原标注一致性已成为建设高质量语言知识库HowNet、提升义原应用任务效果的首要任务。该文首次提出了一种对HowNet已标注的义原进行一致性检验的方法。实验结果表明,所提方法切实有效,能够很好地应用于HowNet知识库的标注一致性检验以及完善扩充。

Select

基于多相似性度量和集合编码的属性对齐方法

伍家豪,陈波,韩先培,孙乐

2021, 35(4): 35-43.

摘要 (526) PDF (2423 KB) (738)

属性对齐的目标是发现异构知识图谱中表示同一概念的属性之间的对应关系,是实现跨图谱知识融合的关键技术之一。现有模型通常利用基于规则和词嵌入的方法进行属性对齐,但这些方法仍存在以下两个问题:相似性度量不全面和属性实例信息未被充分利用。针对上述问题,该文提出了基于多相似性度量的属性对齐模型,通过多个角度设计相似性度量方法来获取属性间的相似性特征,并利用机器学习模型进行特征聚合。同时,为了充分利用属性的实例信息,在上述模型框架下提出了属性实例集合表示学习算法,通过将属性实例集合编码为向量来提取集合间的主题相似性,从而辅助属性对齐。在属性对齐数据集上的实验验证了模型的有效性,实验还表明,集合的表示学习算法能够有效捕捉属性实例的主题特征,并显著提升属性对齐结果。

Select

一种融入实体描述的自适应知识表示模型

翟社平,王书桓,尚定蓉,董苏苏

2021, 35(1): 43-53.

摘要 (546) PDF (2807 KB) (2947)

知识表示学习旨在在连续的低维向量空间中表示知识图谱的实体和关系,但是现有的表示模型大多仅利用三元组的结构信息,而忽略了具有丰富语义的实体描述信息。为此,该文提出了一种基于实体描述的联合表示模型(joint representation based on entity descriptions,JRED)。具体来说,模型引入位置向量和注意力机制设计了Attention_Bi-LSTM文本编码器,可以根据不同的关系从文本描述中动态选择最相关的信息。同时,采用一种自适应表示方法,为每个特征维度区别地赋予权重,并以此方法为基础通过门控机制共同学习文本和结构的联合表示。该文在链接预测和三元组分类任务上评估该模型,实验结果表明,模型在各项指标上均取得了很大的提升,尤其在Mean Rank指标上有明显优势。

Select

结合平移关系嵌入和CNN的知识图谱补全

陈新元,谢晟祎,陈庆强,刘羽

2021, 35(1): 54-63.

摘要 (741) PDF (4408 KB) (3307)

为解决基于翻译机制的知识图谱补全模型在处理复杂关系时的性能局限,该文提出一种ATREC(algorithm based on transitional relation embedding via CNN)算法,将三元组的实体和关系映射至低维向量空间,并将不同的关系特征与头/尾实体融合,将原始三元组和融合三元组的嵌入表示合并为6列k维矩阵,使用卷积神经网络(CNN)降低参数规模,提取特征后拼接、赋权并评分。链路预测和三元组分类的实验结果表明,ATREC在较大规模数据集和复杂关系上相较主流算法有一定性能提升。

Select

基于地理空间数据的知识图谱构建技术研究

刘俊楠,刘海砚,陈晓慧,郭漩,朱新铭

2020, 34(11): 29-36.

摘要 (1181) PDF (2887 KB) (3022)

随着3S技术迅猛发展,地理空间数据呈现出爆发式增长趋势,基于地理空间数据构建知识图谱,实现数据到空间知识的转换成为亟待解决的科学问题。针对通用知识图谱仅以属性和语义关系表示空间知识,以及空间关系相对缺失等问题,该文首先描述了空间关系的表示方法;其次,提出了基于空间关系的知识图谱构建技术流程,重点研究空间关系抽取和表示以及多源地理空间数据融合的问题,实现了地理知识图谱构建;最后,论述知识图谱在地理空间领域的应用方向。该研究可以促进地理空间数据和语义网技术的整合,实现网络文本空间化、空间数据语义化,进一步提高智能化服务水平。

Select

面向临床科研的医疗事件模型与开放数据集合构建

刘旭利,金季豪,阮彤,高大启,殷亦超,葛小玲

2020, 34(11): 37-48.

摘要 (575) PDF (3424 KB) (1865)

基于电子病历观察性数据的真实世界研究成为目前临床科研的热点。然而关系数据模型无法直接支撑起科研应用中医疗事件的时序关系表示以及知识融合的查询需求。针对上述问题,该文提出了一种新的基于RDF的医疗观察性数据表示模型,该模型可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。对来源于医院的电子病历数据,经过数据预处理、数据模式转换、时序关系构建以及知识融合4个步骤建立事件图谱。具体地,使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173 395个医疗事件以及501 335个事件时序关系的医疗数据集,并融合了5 313个中文医疗知识库概念。基于临床文献与医生科研需求,该文根据公共卫生流行病学的病因研究、治疗研究等类型,分别提供了针对本数据集的40个问题示例,并将其中的部分问题与传统关系数据库在查询的构建与执行方面进行了实验比对,论证了该事件图谱的优越性。该数据集遵循开放链接标准,在OpenKG上发布并提供了在线访问的SPARQL站点,链接为 https://peg.ecustnlplab.com/dataset.html。

Select

煤矿安全知识图谱构建及智能查询方法研究

刘鹏,叶帅,舒雅,鹿晓龙,刘明明

2020, 34(11): 49-59.

摘要 (873) PDF (5409 KB) (3250)

煤矿企业正从信息化建设向智能化迈进,以大数据、人工智能为代表的网络新技术已促进了矿山领域的智能化发展。但是由于煤矿领域数据信息的繁杂性,难以对其进行统一而高效地收集、信息挖掘,进而促进深一步的特定领域研究和应用。将知识图谱技术初步引入煤矿安全领域,对相关知识概念分类建模,并基于图数据库存储,用实体关系图的方式直观地描述各类概念及概念之间的关系,然后基于初步构建的知识图谱,提出了一种自然语言知识查询方法。实验证明,该文提出的方法具有较高的查全率和查准率,基于Spark的并行朴素贝叶斯问题分类方法可以在保证准确率的同时,显著提升训练效率。该文工作为煤矿安全知识图谱构建及智能查询做了初步有益探索。

Select

融合实体知识描述的实体联合消歧方法

范鹏程,沈英汉,许洪波,程学旗,廖华明

2020, 34(7): 42-49,78.

摘要 (1137) PDF (2478 KB) (2977)

实体消歧(entity disambiguation)是指将文档中识别出的实体指称(entity mention)链向其在特定知识库中相应条目的过程。该文结合主流的基于深度学习的实体消歧方法并融合实体知识描述展开了实验性研究。实验结果表明,融合实体知识描述的实体消歧方法在公开数据集上取得了与已有最好算法相当的F₁性能。

Select

融合实体描述及类型的知识图谱表示学习方法

杜文倩,李弼程,王瑞

2020, 34(7): 50-59.

摘要 (1348) PDF (2631 KB) (3148)

知识图谱在很多人工智能领域发挥着越来越重要的作用。知识图谱表示学习旨在将三元组中的实体和关系映射到低维稠密的向量空间。TransE、TransH和TransR等基于翻译操作的表示学习方法,只考虑了知识图谱的三元组信息孤立的学习表示,未能有效利用实体描述、实体类型等重要信息,从而不能很好地处理一对多、多对多等复杂关系。针对这些问题,该文提出了一种融合实体描述及类型的知识图谱表示学习方法。首先,利用Doc2Vec模型得到全部实体描述信息的嵌入;其次,对实体的层次类型信息进行表示,得到类型的映射矩阵,结合Trans模型的三元组嵌入,得到实体类型信息的表示;最后,对三元组嵌入、实体描述嵌入及实体类型嵌入进行连接操作,得到最终实体嵌入的表示,通过优化损失函数训练模型,在真实数据集上分别通过链接预测和三元组分类两个评测任务进行效果评估,实验结果表明新方法优于TransE、TransR、DKRL、SimplE等主流模型。

Select

面向司法案件的案情知识图谱自动构建

洪文兴,胡志强,翁洋,张恒,王竹,郭志新

2020, 34(1): 34-44.

摘要 (2622) PDF (3873 KB) (2597)

以法学知识为中心的认知智能是当前司法人工智能发展的重要方向。该文提出了以自然语言处理(NLP)为核心技术的司法案件案情知识图谱自动构建技术。以预训练模型为基础,对涉及的实体识别和关系抽取这两个NLP基本任务进行了模型研究与设计。针对实体识别任务,对比研究了两种基于预训练的实体识别模型;针对关系抽取任务,该文提出融合平移嵌入的多任务联合的语义关系抽取模型,同时获得了结合上下文的案情知识表示学习。在“机动车交通事故责任纠纷”案由下,和基准模型相比,实体识别的F₁值可提升0.36,关系抽取的F₁值提升高达2.37。以此为基础,该文设计了司法案件的案情知识图谱自动构建流程,实现了对数十万份判决书案情知识图谱的自动构建,为类案精准推送等司法人工智能应用提供语义支撑。

Select

汉藏双语旅游领域知识图谱系统构建

冯小兰,赵小兵

2019, 33(11): 64-72.

摘要 (793) PDF (3979 KB) (1315)

旅游业是藏族地区主要的经济来源之一。然而,目前互联网上缺乏藏文旅游信息智能化服务系统,且藏文景点介绍文本也十分匮乏;相反,汉文旅游网站信息量大,但各旅游网站包含的景点不尽相同,景点介绍文本篇幅较长,且各旅游网站对同一个景点描述侧重点不同。为便于不同语言使用者能快速准确地了解景点相关的知识,该文首先在汉文旅游领域分别采用基于BLSTM神经网络模型、基于维基百科以及基于网络爬虫等形式获取与景点相关的共8种属性知识;并通过采用基于维基百科等方法构建的旅游领域汉藏词典,将获取的汉文知识迁移到藏文,其翻译覆盖率平均值达70.44%。最终,构建汉藏双语旅游领域知识图谱。

Select

TransRD: 一种不对等特征的知识图谱嵌入表示模型

朱艳丽,杨小平,王良,张志宇

2019, 33(11): 73-82.

摘要 (839) PDF (3333 KB) (968)

知识图谱嵌入是一种将实体和关系映射到低维向量空间的技术。目前已有的嵌入表示方法在对具有不对等特征的知识图谱中的实体和关系建模时存在两大缺陷: 一是假定头尾实体来自同一语义空间,忽略二者在链接结构和数量上的不对等;二是每个关系单独配置一个投影矩阵,忽略关系之间的内在联系,导致知识共享困难,泛化能力差。该文提出一种新的嵌入表示方法TransRD,首先对头尾实体采用不对等转换矩阵进行投影,并用ADADELTA算法自适应调整学习率;其次对关系按相关性分组,每组关系使用同一对投影矩阵的方式来共享公共信息,解决泛化能力差的问题。在公开的数据集WN18和FB15K以及MPBC_20(乳腺癌知识图谱的子集)上进行实验和结果分析并与现有的模型进行对比,结果表明TransRD在各项指标上均取得大幅提升。

Select

基于生成对抗模型的异质信息网络语义表征方法研究

赵瑜,谭海宁,刘志方,武超

2019, 33(11): 83-94.

摘要 (716) PDF (4666 KB) (834)

近些年,网络表示学习问题吸引了大量研究者的关注,而异构信息网络由于其丰富的结构语义信息及其广阔的应用领域,更是成为了网络表示学习领域的重中之重。目前面向异构信息网络的表示学习模型主要可以分为基于生成式模型的表示学习方法和基于判别式模型的表示学习方法,但是很少有工作同时结合两种模型进行表示学习的优化。该文提出了结合生成式模型和判别式模型的异构信息网络表示学习模型HINGAN,主要是将对抗生成思想融入异构信息网络表示学习过程中,达到优化网络表示结果的目的。该模型首先在元路径的引导下构建带权信息网络图,然后在带权图上计算更新构造的生成器和判别器参数,通过生成对抗的博弈思想来获取最大收益。在AMiner和DBLP两个真实学术图谱数据集上的实验结果表明,HINGAN在多标签分类、链路预测以及可视化方面都能比现在主流的网络表示方法取得更优的效果,并且HINGAN可以应用于大规模的异构网络数据的表示和计算。除此之外,该文还总结了已有研究成果并对未来研究可能面临的挑战进行了展望。

Select

基于多源信息融合的分布式词表示学习

冶忠林,赵海兴,张科,朱宇

2019, 33(10): 18-30.

摘要 (891) PDF (3156 KB) (909)

分布式词表示学习旨在用神经网络框架训练得到低维、压缩、稠密的词语表示向量。然而,这类基于神经网络的词表示模型有以下不足: (1) 罕见词由于缺乏充分上下文训练数据,训练所得的罕见词向量表示不能充分地反映其在语料中的语义信息; (2) 中心词语的反义词出现于上下文时,会使意义完全相反的词却赋予更近的空间向量表示; (3) 互为同义词的词语均未出现于对方的上下文中,致使该类同义词学习得到的表示在向量空间中距离较远。基于以上三点,该文提出了一种基于多源信息融合的分布式词表示学习算法(MSWE),主要做了4个方面的改进: (1) 通过显式地构建词语的上下文特征矩阵,保留了罕见词及其上下文词语在语言训练模型中的共现信息可以较准确地反映出词语结构所投影出的结构语义关联; (2) 通过词语的描述或解释文本,构建词语的属性语义特征矩阵,可有效地弥补因为上下文结构特征稀疏而导致的训练不充分; (3) 通过使用同义词与反义词信息,构建了词语的同义词与反义词特征矩阵,使得同义词在词向量空间中具有较近的空间距离,而反义词则在词向量空间中具有较远的空间距离; (4) 通过诱导矩阵补全算法融合多源特征矩阵,训练得到词语低维度的表示向量。实验结果表明,该文提出的MSWE算法能够有效地从多源词语特征矩阵中学习到有效的特征因子,在6个词语相似度评测数据集上表现出了优异的性能。

“知识表示与知识获取” 栏目所有文章列表

选择文件类型/文献管理软件名称

选择包含的内容