“知识表示与知识获取” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 汤宇轩,申彦明,齐恒,尹宝才
    2024, 38(9): 24-35.
    摘要 (151) PDF (4405 KB) (128)
    知识图谱复杂逻辑推理是知识图谱中的一项重要任务,其目的是根据给定的起始节点和逻辑表达式来推理出答案节点。先前的工作主要关注的是如何对实体、关系和查询进行建模,忽略了相似查询对当前查询的影响。因此,该文提出了一种相似查询的定义(称之为同构查询),并设计了一种基于同构查询的组件,它可以利用同构查询的特性,在推理的每一步缩短查询嵌入和答案嵌入之间的距离,在不改变原有复杂逻辑推理模型结构的基础上提升模型的性能。实验结果表明,该文提出的组件可以在不同的数据集上为各类不同的基线模型带来1.6%-3.3%的提升,证明了该方法的有效性与灵活性。
  • 李华昱,王翠翠,张智康,李海洋
    2024, 38(9): 36-47.
    摘要 (268) PDF (8536 KB) (221)
    针对传统实体对齐方法未充分利用多模态信息,且在特征融合时未考虑模态间潜在的交互影响等问题,该文提出了一种多模态实体对齐方法,旨在充分利用实体的不同模态特征,在不同多模态知识图谱中找到等价实体。首先通过不同的特征编码器获得属性、关系、图像和图结构的嵌入表示,同时引入数值模态以增强实体语义信息;其次在特征融合阶段,在对比学习的基础上同时进行跨模态互补性和相关性建模,并引入强化学习优化模型输出,减小获得的联合嵌入和真实模态嵌入之间的异构差异;最后计算两个实体之间的余弦相似度,筛选出候选对齐实体对,并将其迭代加入对齐种子,指导新的实体对齐。实验结果表明,该文所提方法在多模态实体对齐任务中是有效的。
  • 张虎,李壮壮,王宇杰,李茹
    2024, 38(9): 48-57.
    摘要 (201) PDF (2283 KB) (117)
    事件因果关系识别(Event Causality Identification,ECI)是自然语言处理领域的一项重要研究任务,旨在识别文本中事件之间的因果关系。现有方法大都基于微调范式,不能较好发挥预训练语言模型的作用,难以有效捕获隐式因果关系识别的线索。为此,该文提出了一种基于多模板提示调优和知识增强的事件因果关系识别方法。针对ECI任务设计独特的总提示模板,对显式和隐式事件因果关系分别设计不同的种子提示模板,集成训练所有提示模板,形成适应于ECI任务的提示调优方式。通过引入ConceptNet、Oxford Dictionaries等外部知识库,丰富事件的解释性知识和事件之间的关系性知识,将不同的知识融入提示模板,强化隐式因果关系线索。在EventStoryLine和Causal-TimeBank两个广泛使用的数据集上的实验结果表明,该文方法性能优于现有方法。
  • 吕嘉,王裴岩,蔡东风,张桂平,李林娜
    2024, 38(6): 24-33.
    摘要 (180) PDF (1676 KB) (190)
    该文研究了基于HowNet的KDML语法体系的术语DEF自动生成问题,提出一种基于树形解码器的生成方法。在编码器端输入专业术语以及其他外部信息(术语的定义、术语子词的义原等);在解码器端交替使用义原解码器和关系解码器,同时使用注意力机制关注编码器端的各种表征信息,最终得到“义原-关系-义原”形式的输出,并组合成术语对应的义原树,进而得到术语的DEF表示以辅助专业领域HowNet的构建,最终取得了首义原F1值74.13%、总义原F1值53.92%、总关系F1值53.33%、总三元组F1值30.48%的结果。
  • 朱柏霖,桂韬,张奇
    2024, 38(6): 34-44.
    摘要 (255) PDF (5937 KB) (401)
    实体对齐(EA)的目标是从多个知识图谱(KG)中识别等价的实体对,并构建一个更全面、统一的知识图谱。大多数EA方法主要关注KG的结构模式,缺乏对多模态信息的探索。已有的一些多模态EA方法在这个领域做出了良好的尝试。但是,它们存在两个缺点: (1)针对不同模态信息采用复杂且不同的建模方式,导致模态建模不一致且建模低效; (2)由于EA中各模态间的异质性,模态融合效果往往不佳。为了解决这些挑战,该文提出了PathFusion,使用模态相似性路径作为信息载体,有效地合并来自不同模态的信息。在真实世界的数据集上的实验结果显示,与最先进的方法相比,PathFusion在Hits@1上提高了22.4%~28.9%,在MRR上提高了0.194~0.245,验证了PathFusion的优越性。
  • 王亚,曹存根,王石
    2024, 38(6): 45-57.
    摘要 (199) PDF (3216 KB) (110)
    在计算机科学和语言学中,针对动词语义层面上的分类问题,研究者们提出了不同的分类方法,但这些分类方法无一例外地都存在着分类不全面等分类学中经常遇到的问题。一个动词表示一个事件,该文以获取事件相关的常识知识为出发点,以动词性语素为分类依据对常见的现代汉语动词进行语义分类,此分类方法分类标准清晰、不丢失语义信息,并且可实现自动分类,该文重点以“自移”类动词为例来介绍我们的分类方法。此外,该文用描述逻辑对动词性语素及语素之间的分类关系进行形式化表示,动词性语素的形式化表示是动词形式化表示的基础。根据该事件语义分类结构,可以有效地进行事件属性常识知识和事件关系常识知识的获取。
  • 陈新元,周忠眉,陈庆强,高美春,施达雅
    2023, 37(3): 54-64.
    摘要 (455) PDF (5218 KB) (428)
    为建模知识图中的复杂关系模式,知识补全模型期望提升表示能力和特征提取能力。超复数空间容量大于传统实数/复数空间,相关计算开销较小,但现有基于超复数嵌入的方法表示/提取能力不足且没有利用实体间路径的语义信息。该文首先优化现有超复数模型设计以扩大表示空间;接下来将实体间关系序列整合视作多旋转混合问题,设计四元数路径序列的快速整合方法并理论证明,进一步引入注意力机制集成路径语义;最后利用空洞循环卷积增强模型的特征提取能力。通过在主流数据集上开展链路预测和路径查询实验,验证了模型的表示和特征提取能力等,均优于Rotate3D等先进对比模型。
  • 谢晓璇,鄂海红,匡泽民,谭玲,周庚显,罗浩然,李峻迪,宋美娜
    2023, 37(3): 65-78.
    摘要 (711) PDF (4821 KB) (612)
    传统的知识建模方法在医学场景下面临着知识复杂性高、难以通过传统三元组的方式精确表达等问题,需要研究新的本体对医学知识进行建模。该文提出一种应用于高血压领域的三层超关系知识图谱模型(Triple-view Hypertension Hyper-relational Knowledge Graph,THH-KG),该方法基于超关系知识图谱模型搭建计算层、概念层、实例层三层图谱架构,实现多元的医学逻辑规则、概念知识和实例知识的联合表达。此外,该文还提出了在普通图数据库中超关系知识图谱的通用存储方法,且基于该方法设计了高血压知识图谱推理解释引擎(Hypertension Knowledge Graph Reasoning Engine,HKG-RE),实现了基于医学规则的用药推荐辅助决策应用。上述方法在对108位真实高血压患者的用药推荐实验中正确率达到了97.2%。
  • 叶宏彬,张宁豫,陈华钧,邓淑敏,毕祯,陈想
    2023, 37(1): 46-53.
    摘要 (682) PDF (4491 KB) (715)
    知识图谱是通过符号形式描述世界万物的实体及其之间的关联关系,是一种具备强大知识处理能力的大规模语义网络。概念知识图谱是一种特殊的知识图谱,在语义搜索、自动问答等场景具有广泛的应用价值。之前的概念图谱较难覆盖长尾实体,且存在概念粒度较粗和更新困难等问题。针对这些问题,该文提出了一种全新的自动化概念图谱构建方法,能够自动地从海量文本及半结构化数据中构建细粒度的中文概念层次结构,还发布了一个开放的细粒度中文概念知识图谱OpenConcepts,包含440万概念核心实例,5万多个细粒度概念和1 300万概念-实例三元组,并提供相应的调用接口。
  • 陈跃鹤,谈川源,陈文亮,贾永辉,何正球
    2023, 37(1): 54-63.
    摘要 (710) PDF (3924 KB) (766)
    近年来,随着知识图谱相关技术的不断发展,各方面研究对知识图谱本身的需求也不断加强。然而现有的知识图谱无法完全覆盖整个真实世界,同时在知识正确性以及时效性等方面存在问题,这使得知识图谱补全越来越受到研究者的关注。在中文环境下,知识图谱补全任务又呈现出与英文图谱补全任务不同的特性。该文对中/英知识图谱补全任务进行了对比分析,将中文图谱中出现的错误进行了归类。根据该分析结果,该文提出将三元组中实体和关系嵌入表示、实体和关系描述文本嵌入表示结合的链接预测方法MER-Tuck,该方法利用外部的语义补充来加强矩阵分解模型的学习能力。为了验证该方法的有效性,该文为中文知识图谱补全任务构建了新数据集。在该数据集上将该文的方法与主流的链接预测方法进行比较,实验结果表明该文所提方法是有效的。
  • 李文浩,刘文长,孙茂松,矣晓沅
    2022, 36(12): 67-73.
    摘要 (681) PDF (2680 KB) (976)
    国内现有的中文知识图谱往往以维基百科、百度百科等群体智能贡献的知识库作为资源抽取得到,但这些知识图谱利用的主要是百科的实体名片信息和分类体系信息。然而,这些百科中也有大量的内部链接信息,其中蕴含了大量知识。故而该文中利用维基百科的内部链接构造边,并统计目标实体在源实体定义文本中出现的频度,利用其对应的TF-IDF值作为边权,构造了一个概率式中文知识图谱。该文还提出了一种可信链接筛选算法,对偶发链接进行了去除,使知识图谱更加可信。基于上述方法,该文挖掘出了一个概率式关联可信中文知识图谱,命名为“文脉”,将其在GitHub上进行了开源,以期能对知识指导的自然语言处理以及其他下游任务有所襄助。
  • 刘贞国,朱宇,赵海兴,王晓英,黄建强
    2022, 36(12): 74-84.
    摘要 (568) PDF (2609 KB) (874)
    与仅具有节点成对关系的普通网络不同,超网络的节点之间还存在复杂的元组关系,即,超边。而现有的大多数网络表示学习方法不能有效地捕获复杂的元组关系。针对上述问题,该文提出一种基于平移约束的异质超网络表示学习方法(HRTC)。首先,该方法结合团扩展和星型扩展将抽象为超图的异质超网络转换为抽象为2-截图+关联图的异质网络。然后,提出一种感知节点语义相关性的元路径游走方法来捕获节点之间的语义关系。最后,在训练节点成对关系的同时,通过引入知识表示学习中的平移机制来捕获节点之间的元组关系。实验结果表明,对于链接预测任务,该方法的性能接近于其他最优基线方法;对于超网络重建任务,当超边重建比率大于0.6时,该方法在drug数据集上的性能优于其他最优基线方法,同时该方法在GPS数据集上的平均性能超过其他最优基线方法16.24%。
  • 徐遥,何世柱,刘康,张弛,焦飞,赵军
    2022, 36(10): 54-62.
    摘要 (760) PDF (2143 KB) (1329)
    近年来,面向确定性知识图谱的嵌入模型在知识图谱补全等任务中取得了长足的进展,但如何设计和训练面向非确定性知识图谱的嵌入模型仍然是一个重要挑战。不同于确定性知识图谱,非确定性知识图谱的每个事实三元组都有着对应的置信度,因此,非确定性知识图谱嵌入模型需要准确地计算出每个三元组的置信度。现有的非确定性知识图谱嵌入模型结构较为简单,只能处理对称关系,并且无法很好地处理假负(false-negative)样本问题。为了解决上述问题,该文首先提出了一个用于训练非确定性知识图谱嵌入模型的统一框架,该框架使用基于多模型的半监督学习方法训练非确定性知识图谱嵌入模型。为了解决半监督学习中半监督样本噪声过高的问题,我们还使用蒙特卡洛Dropout计算出模型对输出结果的不确定度,并根据该不确定度有效地过滤了半监督样本中的噪声数据。此外,为了更好地表示非确定性知识图谱中实体和关系的不确定性以处理更复杂的关系,该文还提出了基于Beta分布的非确定性知识图谱嵌入模型UBetaE,该模型将实体、关系均表示为一组相互独立的Beta分布。在公开数据集上的实验结果表明,结合该文所提出的半监督学习方法和UBetaE模型,不仅极大地缓解了假负样本问题,还在多个任务中明显优于UKGE等当前最优的非确定性知识图谱嵌入模型。
  • 杨云飞,穗志方
    2022, 36(2): 40-48.
    摘要 (1049) PDF (8471 KB) (1254)
    随着人工智能技术的迅速发展和医学数据资源的大规模增长,面向医学领域的知识图谱受到越来越多的关注,知识图谱可视化旨在借助点和边等图形特征形象化地展示知识图谱中的实体、关系及相互之间的结构,便于非专业用户阅读和使用知识图谱。该文提出并实现了一种面向医学知识图谱的多视图、交互式可视化方法及系统,该系统包括医学实体分类的层级结构可视化,实体和关系之间的语义结构可视化以及从非结构化数据到结构化数据的交互式可视化。通过多视图、多维度、交互式的医学知识图谱可视化方法,让用户更加有效地对复杂知识图谱的结构进行分析和理解,进而发现更多蕴含的有价值信息。
  • 李豫,周光有
    2022, 36(2): 49-57.
    摘要 (697) PDF (5562 KB) (1483)
    面向知识库的自动问答是自然语言处理的一项重要任务,其旨在对用户提出的自然语言形式问题给出精练、准确的回复。目前由于缺少数据集,存在特征不一致等因素,导致难以使用通用的数据和方法实现领域知识库问答。因此,该文将“问题意图”视作不同领域问答可能存在的共同特征,将“问题”与三元组知识库中“关系谓词”的映射过程作为问答核心工作。为了考虑多种层次的语义并避免重要信息的损失,该文分别将“基于门控卷积的深层语义”和“基于交互注意力机制的浅层语义”通过门控感知机制相融合。在NLPCC-ICCPOL 2016 KBQA数据集上的实验表明,该文方法与现有的CDSSM和BDSSM方法相比,效能有明显提升。此外,该文通过构造天文常识知识库,将问题与关系谓词映射模型移植到特定领域,结合Bi-LSTM-CRF模型构建了天文常识自动问答系统。
  • 刘梦迪,梁循
    摘要 (1106) PDF (6022 KB) (2162)
    该文提出了一种字形相似度计算方法,旨在解决汉字中相似字形(称作形似字)的识别和查找问题。首先,提出了汉字拆分方法,并构建了偏旁部首知识图谱;然后,基于图谱和汉字的结构特点,提出2CTransE模型,学习汉字实体语义信息的表示;最后,将输出的实体向量用于汉字字形的相似度计算,得到目标汉字的形似字候选集。实验结果表明,该文所提出的方法对于不同结构汉字的字形相似度计算有一定效果,所形成的汉字部件组成库,为之后字形计算的相关研究提供了行之有效的数据集。同时,也拓宽了日语等类汉语语言文字字体相似度计算的研究思路。
  • 赵晓函,周子力,李天宇,陈丹华,王凯莉
    2021, 35(10): 48-55.
    摘要 (646) PDF (2182 KB) (1449)
    TransC是一种高效的知识图谱嵌入方法,通过区分概念和实例来建立概念、实例及关系的嵌入。TransC将概念编码为球体,球体半径被随机初始化并在训练中迭代更新。由此导致模型出现两个问题:一是训练得到的部分球体半径与模型训练目标不符;二是忽略了概念本身提供的语义信息。针对上述两个问题,该文提出了TransIC模型,首先,基于IC参数给出新的概念球体半径求解方法,使求得的半径满足TransC目标,并且丰富了概念嵌入向量的语义信息。其次,该模型以TransC为基础,在概念编码阶段引入基于IC参数的概念球体半径。最后,在公开的数据集YAGO39K上完成链接预测和三元组分类两个任务,并将该文方法实验所得性能与TransC及其他模型的性能进行对比。结果表明,TransIC在多数指标上均取得显著提升。
  • 刘焕勇,薛云志,李瑞,任红萍,陈贺,张鹏
    2021, 35(10): 56-63.
    摘要 (928) PDF (2859 KB) (2395)
    开放文本中蕴含着大量的逻辑性知识,以刻画事物之间逻辑传导关系的逻辑类知识库是推动知识推理发展的重要基础,研发大规模逻辑推理知识库有助于支持由实体或事件等传导驱动的决策任务。该文围绕逻辑推理知识库,论述了知识库的概念、类别和基本构成,提出了一种面向大规模开放文本的实体描述、事件因果逻辑知识快速抽取方法;面向金融领域,探索了一套基于逻辑推理知识库的可解释性路径推理方法和金融实体影响生成系统。算法模型和系统均取得了不错的效果。
  • 彭敏,黄婷,田纲,张鼎,罗娟,银源
    2021, 35(5): 46-54.
    摘要 (792) PDF (1327 KB) (2016)
    知识表示学习在关系抽取、自动问答等自然语言处理任务中获得了广泛关注,该技术旨在将知识库中的实体与关系表示为稠密低维实值向量。然而,已有的模型在建模知识库中的三元组时,或是忽略三元组的邻域信息,导致无法处理关联知识较少的罕见实体,或是在引入邻域信息时不能自适应地为每个实体抽取最相关的邻节点属性,导致引入了冗余信息。基于以上问题,该文在知识表示模型TransE的基础上提出了聚合邻域信息的联合知识表示模型TransE-NA(neighborhood aggregation on TransE)。该模型首先根据实体的稀疏度确定其邻节点数量,然后根据实体的邻边关系选取对应邻节点上最相关的属性作为实体的邻域信息。在链接预测和三元组分类任务上的实验结果表明,该文的模型效果超越了基线模型,验证了该模型能有效聚合邻域信息,缓解数据稀疏问题,改善知识表示性能。
  • 佘琪星,姜天文,刘铭,秦兵
    2021, 35(5): 55-62.
    摘要 (764) PDF (5294 KB) (1556)
    属性是实体的重要组成部分,因此实体属性的获取是知识图谱构建的关键步骤。由哈尔滨工业大学社会计算与信息检索研究中心推出的开放域中文知识图谱《大词林》是通过从文本中自动挖掘实体及实体间的关系构建而成的,因此为《大词林》中缺少属性的实体添加属性也成为必须研究的问题之一。该文提出了一种解决方案: 基于贝叶斯网络的概率统计模型,通过上位词概念与属性之间的依赖关系和实体与上位词概念的依赖关系来自动地为《大词林》中没有属性的实体添加属性,并与相似度计算方法对比证明了其有效性,可大规模提高《大词林》的属性覆盖率。
  • 胡韧奋,李绅,诸雨辰
    2021, 35(4): 8-15.
    摘要 (1054) PDF (2063 KB) (2701)
    古文句读不仅需要考虑当前文本的语义和语境信息,还需要综合历史文化常识,对专家知识有较高要求。该文提出了一种基于深层语言模型(BERT)的古汉语知识表示方法,并在此基础上通过条件随机场和卷积神经网络实现了高精度的自动断句模型。在诗、词和古文三种文体上,模型断句F1值分别达到99%、95%和92%以上。在表达较为灵活的词和古文文体上,模型较之传统双向循环神经网络方法的F1值提升幅度达到10%以上。实验数据显示,模型能较好地捕捉诗词表达的节奏感和韵律感,也能充分利用上下文信息,实现语序、语法、语义、语境等信息的编码。在进一步的案例应用中,该方法在已出版古籍的断句疑难误例上也取得了较好的效果。
  • 石隽锋,李济洪,王瑞波
    2021, 35(4): 16-22.
    摘要 (723) PDF (1087 KB) (1692)
    GloVe模型是一种广泛使用的词向量表示学习的模型。许多研究发现,学习得到的词向量维数越大,性能越好;但维数越大,模型学习耗时越长。事实上,GloVe模型中,耗时主要表现在两方面,一是统计词对共现矩阵,二是训练学习词向量表示。该文在利用GloVe模型统计语料中词对共现时,基于对称或非对称窗口得到两个共现矩阵,然后分别学习得到较低维度的词向量表示,再拼接得到较高维度的词向量表示。从计算的复杂度来看,该文方法并不会产生多的计算量,但显然统计共现矩阵和训练学习可通过并行方式实现,能够显著提高计算效率。在使用大规模语料的实验中,以对称和非对称窗口分别统计得到共现矩阵,分别学习得到300维词向量表示,再使用拼接方式得到600维词向量表示。与GloVe模型对称和非对称的600维的词向量相比,在中文和英文的词语推断任务上,显著地提高了预测的准确率,在词语聚类任务上,有较好的聚类效果,验证了该文方法的有效性。
  • 刘阳光,岂凡超,刘知远,孙茂松
    2021, 35(4): 23-34.
    摘要 (1061) PDF (2783 KB) (1703)
    义原(sememe)被定义为人类语言中不可再分的最小语义单位。一个词语的意义可以由多个义原的组合来表示。以往人们已经人工为词语标注义原并构建了知网(HowNet)这一语言知识库,并借此将义原应用到了多种自然语言处理任务。但传统的人工标注费时费力,而且不同的专家进行标注难免会引入标注者的主观偏差,导致标注的一致性和准确性难以保证。因此,保证词的义原标注一致性已成为建设高质量语言知识库HowNet、提升义原应用任务效果的首要任务。该文首次提出了一种对HowNet已标注的义原进行一致性检验的方法。实验结果表明,所提方法切实有效,能够很好地应用于HowNet知识库的标注一致性检验以及完善扩充。
  • 伍家豪,陈波,韩先培,孙乐
    2021, 35(4): 35-43.
    摘要 (653) PDF (2423 KB) (1173)
    属性对齐的目标是发现异构知识图谱中表示同一概念的属性之间的对应关系,是实现跨图谱知识融合的关键技术之一。现有模型通常利用基于规则和词嵌入的方法进行属性对齐,但这些方法仍存在以下两个问题:相似性度量不全面和属性实例信息未被充分利用。针对上述问题,该文提出了基于多相似性度量的属性对齐模型,通过多个角度设计相似性度量方法来获取属性间的相似性特征,并利用机器学习模型进行特征聚合。同时,为了充分利用属性的实例信息,在上述模型框架下提出了属性实例集合表示学习算法,通过将属性实例集合编码为向量来提取集合间的主题相似性,从而辅助属性对齐。在属性对齐数据集上的实验验证了模型的有效性,实验还表明,集合的表示学习算法能够有效捕捉属性实例的主题特征,并显著提升属性对齐结果。
  • 翟社平,王书桓,尚定蓉,董苏苏
    2021, 35(1): 43-53.
    摘要 (703) PDF (2807 KB) (3165)
    知识表示学习旨在在连续的低维向量空间中表示知识图谱的实体和关系,但是现有的表示模型大多仅利用三元组的结构信息,而忽略了具有丰富语义的实体描述信息。为此,该文提出了一种基于实体描述的联合表示模型(joint representation based on entity descriptions,JRED)。具体来说,模型引入位置向量和注意力机制设计了Attention_Bi-LSTM文本编码器,可以根据不同的关系从文本描述中动态选择最相关的信息。同时,采用一种自适应表示方法,为每个特征维度区别地赋予权重,并以此方法为基础通过门控机制共同学习文本和结构的联合表示。该文在链接预测和三元组分类任务上评估该模型,实验结果表明,模型在各项指标上均取得了很大的提升,尤其在Mean Rank指标上有明显优势。
  • 陈新元,谢晟祎,陈庆强,刘羽
    2021, 35(1): 54-63.
    摘要 (868) PDF (4408 KB) (3675)
    为解决基于翻译机制的知识图谱补全模型在处理复杂关系时的性能局限,该文提出一种ATREC(algorithm based on transitional relation embedding via CNN)算法,将三元组的实体和关系映射至低维向量空间,并将不同的关系特征与头/尾实体融合,将原始三元组和融合三元组的嵌入表示合并为6列k维矩阵,使用卷积神经网络(CNN)降低参数规模,提取特征后拼接、赋权并评分。链路预测和三元组分类的实验结果表明,ATREC在较大规模数据集和复杂关系上相较主流算法有一定性能提升。
  • 刘俊楠,刘海砚,陈晓慧,郭漩,朱新铭
    2020, 34(11): 29-36.
    摘要 (1460) PDF (2887 KB) (4216)
    随着3S技术迅猛发展,地理空间数据呈现出爆发式增长趋势,基于地理空间数据构建知识图谱,实现数据到空间知识的转换成为亟待解决的科学问题。针对通用知识图谱仅以属性和语义关系表示空间知识,以及空间关系相对缺失等问题,该文首先描述了空间关系的表示方法;其次,提出了基于空间关系的知识图谱构建技术流程,重点研究空间关系抽取和表示以及多源地理空间数据融合的问题,实现了地理知识图谱构建;最后,论述知识图谱在地理空间领域的应用方向。该研究可以促进地理空间数据和语义网技术的整合,实现网络文本空间化、空间数据语义化,进一步提高智能化服务水平。
  • 刘旭利,金季豪,阮彤,高大启,殷亦超,葛小玲
    2020, 34(11): 37-48.
    摘要 (737) PDF (3424 KB) (2285)
    基于电子病历观察性数据的真实世界研究成为目前临床科研的热点。然而关系数据模型无法直接支撑起科研应用中医疗事件的时序关系表示以及知识融合的查询需求。针对上述问题,该文提出了一种新的基于RDF的医疗观察性数据表示模型,该模型可以清晰地表示临床检查、诊断、治疗等多种事件类型以及事件的时序关系。对来源于医院的电子病历数据,经过数据预处理、数据模式转换、时序关系构建以及知识融合4个步骤建立事件图谱。具体地,使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173 395个医疗事件以及501 335个事件时序关系的医疗数据集,并融合了5 313个中文医疗知识库概念。基于临床文献与医生科研需求,该文根据公共卫生流行病学的病因研究、治疗研究等类型,分别提供了针对本数据集的40个问题示例,并将其中的部分问题与传统关系数据库在查询的构建与执行方面进行了实验比对,论证了该事件图谱的优越性。该数据集遵循开放链接标准,在OpenKG上发布并提供了在线访问的SPARQL站点,链接为 https://peg.ecustnlplab.com/dataset.html。
  • 刘鹏,叶帅,舒雅,鹿晓龙,刘明明
    2020, 34(11): 49-59.
    摘要 (1115) PDF (5409 KB) (4663)
    煤矿企业正从信息化建设向智能化迈进,以大数据、人工智能为代表的网络新技术已促进了矿山领域的智能化发展。但是由于煤矿领域数据信息的繁杂性,难以对其进行统一而高效地收集、信息挖掘,进而促进深一步的特定领域研究和应用。将知识图谱技术初步引入煤矿安全领域,对相关知识概念分类建模,并基于图数据库存储,用实体关系图的方式直观地描述各类概念及概念之间的关系,然后基于初步构建的知识图谱,提出了一种自然语言知识查询方法。实验证明,该文提出的方法具有较高的查全率和查准率,基于Spark的并行朴素贝叶斯问题分类方法可以在保证准确率的同时,显著提升训练效率。该文工作为煤矿安全知识图谱构建及智能查询做了初步有益探索。
  • 范鹏程,沈英汉,许洪波,程学旗,廖华明
    2020, 34(7): 42-49,78.
    摘要 (1319) PDF (2478 KB) (3717)
    实体消歧(entity disambiguation)是指将文档中识别出的实体指称(entity mention)链向其在特定知识库中相应条目的过程。该文结合主流的基于深度学习的实体消歧方法并融合实体知识描述展开了实验性研究。实验结果表明,融合实体知识描述的实体消歧方法在公开数据集上取得了与已有最好算法相当的F1性能。