“信息提取和文本挖掘” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 汪平仄,曹存根,王 石
    2014, 28(4): 58-67.
    摘要 (664) PDF (1448 KB) (778)
    属性是一种用于描述概念和鉴别概念的特殊知识。属性名称是表示属性的专有名词。该文提出了一种基于前后缀迭代的方法,从Web网页中获取概念的属性名称。该方法的每一次迭代分为两个阶段: (1) 从现有种子属性集中选择合适的前后缀,构造词汇-句法模式,从Web网页中提取候选属性;(2) 采用基于相似性的验证模型对候选属性进行验证,以扩充现有属性集合。该文提出了一组验证模型对候选属性进行验证,比较各个模型的优缺点,并在地域类和商业主体类概念上分别得到了平均92.9%和90.7%的准确率,以及对原有种子属性集合近100倍的扩充率。
  • 余 如,朱朝阳,黄名选
    2014, 28(4): 68-75.
    摘要 (687) PDF (731 KB) (824)
    Baidu(4)
    完全加权数据模型的特点是其项目权值分布在各个事务记录中,随着事务记录的不同而变化。现有的加权负关联规则挖掘算法不能适用于完全加权数据模型。该文提出一种新颖的基于概率比和兴趣度的完全加权正负关联规则的挖掘算法,探讨了算法在教育信息化数据中的应用。算法以概率比代替传统的置信度,采用支持度-概率比-兴趣度架构衡量完全加权正负关联规则,获得很好的挖掘效果。以真实的教育数据和文本数据为实验测试集,与现有正负关联规则挖掘算法比较,该文提出的算法更有效、更合理,具有较高的理论价值和应用前景。
  • 常天舒,林鸿飞
    2014, 28(4): 76-83.
    摘要 (762) PDF (1960 KB) (790)
    维基百科收录的文章和参与编辑的用户日益增多,其中不乏一些用户对同一条目持有不同的见解。该文旨在发现维基百科中的争议性文章,通过维基百科提供的历史信息,在传统的挖掘方法基础上,对具有特殊属性的用户角色进行总结并融合到排序模型中,探讨这类用户对争议性文章挖掘的作用。在 16-745篇文章组成的数据集上进行了实验,除传统的PRF和NDCG评价外,该文给出了更直观的排序结果,与其他基准模型相比有较大的提升。
  • 徐学可,谭松波,刘 悦,程学旗
    2014, 28(4): 84-91.
    摘要 (650) PDF (1194 KB) (755)
    Baidu(1)
    该文研究面向在线顾客点评的面向属性抽取式观点摘要问题。传统方法主要考虑如何抽取属性相关观点,该文提出进一步考虑观点的富含信息(informativeness)、重要性(salience)及多样性 (diversity)这三方面要求。该文提出了一个基于带汇点的流形排序的一体化的摘要抽取模型,在一体化的流形排序过程中同时考虑三方面要求。 在餐馆点评数据上的实验表明了所提出三方面要求的合理性及摘要抽取模型的有效性。
  • 戴 敏,王荣洋,李寿山,朱 珠,周国栋
    2014, 28(4): 92-97.
    摘要 (1066) PDF (2138 KB) (1607)
    评价对象抽取是情感分析任务中一个重要的子任务。该文使用基于条件随机场模型的监督学习方法实现英文的评价对象抽取。为了更好的捕捉评价对象和情感词之间的关系,引入句法分析用以加入丰富的句法特征提高评价对象抽取性能。实验中,我们在两个不同的数据集上考查了句法特征对评价对象抽取性能的影响,并做了详细的分析比较。实验结果表明,将句法特征应用在评价对象抽取任务中能够取得不错的效果,明显提高了评价对象的抽取召回率。
  • 周红照,侯明午,侯 敏,滕永林
    2014, 28(3): 136-141.
    摘要 (837) PDF (1317 KB) (1053)
    比较是人们常用的评估不同事物优劣、异同的表达方式,利用机器识别比较句并进一步抽取比较要素是语言信息处理领域一项新颖又有实用价值的课题。该文依据比较句与比较要素之间是一种“你中有我,我中有你”的共生关系,将比较句识别与比较要素抽取两个任务合二为一完成;根据词意分类,构建由领域词典、情感词典、标记词典、普通词典构成的词典系统;根据汉语比较句句义分类,构建比较句识别与比较要素抽取规则库。以第四届中文倾向性评测(COAE2012)发布的测试语料为实验对象,该系统取得了较好的实验(评测)结果。
  • 方 莹,黄河燕,辛 欣,魏骁驰,庄 琨
    2014, 28(3): 142-149.
    摘要 (1006) PDF (3694 KB) (964)
    话题演化用于自动分析话题变化趋势,具有较高的应用和研究价值。ILDA(Infinite Latent Dirichlet Allocation)模型在LDA(Latent Dirichlet Allocation)模型的基础上增加了狄利克雷过程,除了能获取隐变量,更重要的是能完成超参的动态更新和主题数的变动。而已有的话题演化研究中,话题的主题数需要事先指定且无法变动,基于ILDA模型的方法则可以针对性地解决该问题。构建的话题演化分析系统可实现如下功能:各周期内按不同主题分类、相邻周期间的主题进行关联、按时间顺序计算子话题强度。实验显示,基于ILDA模型的参数动态更新符合实际需求,话题演化分析过程完善可行。
  • 何林娜,杨志豪,林鸿飞,李彦鹏,唐利娟
    2014, 28(2): 72-77.
    摘要 (826) PDF (2296 KB) (1034)
    药名识别的直接目的是从生物医学文本中寻找药名。目前,药物相关研究不断出现,远远超出了维护人员更新药物信息数据库的速度,这就迫切需要一种自动提取药物信息的技术。该文采用了一种基于特征耦合泛化(FCG)的半监督学习方法生成药名词典,然后将药名词典和条件随机场结合进行药名实体识别。首先我们用模板的方法构造了一个药名词典,然后用FCG方法对词典去噪,最后将去噪后的词典用在测试集上进行药名实体识别,得到了76.73%的F值。
  • 刘冰洋,刘 倩,张 瑾,刘欣然,程学旗
    2014, 28(2): 78-84.
    摘要 (774) PDF (3150 KB) (878)
    从网络文本中提取新词是网络信息处理中的一个重要问题,在信息检索、文本挖掘、词典编纂、中文分词等领域中都有重要应用。本文提出了一种与语言无关的快速新词提取算法,首先针对后缀树的数据结构将多语言文本进行统一编码,然后使用改进的统计方法在双后缀树上以线性时间统计重复串与邻接类别,并计算字符串的整体度,同时通过剪枝大幅度减少计算量,在中、英文语料上较好地实现了新词的抽取及排序。
  • 林莉媛,王中卿,李寿山,周国栋
    2014, 28(2): 85-90.
    摘要 (813) PDF (1183 KB) (970)
    文本情感摘要任务旨在对带有情感的文本数据进行浓缩、提炼进而产生文本所表达的关于情感意见的摘要。该文主要研究基于多文档的文本情感摘要问题, 重点针对网络上存在同一个产品的多个评论产生相应的摘要。首先,为了进行关于文本情感摘要的研究,该文收集并标注了一个基于产品评论的中文多文档文本情感摘要语料库。其次,该文提出了一种基于情感信息的PageRank算法框架用于实现多文档文本情感摘要,该算法同时考虑了情感和主题相关两方面的信息。实验结果表明,该文采用的方法和已有的方法相比在ROUGE值上有显著提高。
  • 刘丹丹,彭 成,钱龙华,周国栋
    2014, 28(2): 91-99.
    摘要 (1227) PDF (1877 KB) (1157)
    语义信息在命名实体间语义关系抽取中具有重要的作用。该文以《同义词词林》为例,系统全面地研究了词汇语义信息对基于树核函数的中文语义关系抽取的有效性,深入探讨了不同级别的语义信息和一词多义等现象对关系抽取的影响,详细分析了词汇语义信息和实体类型信息之间的冗余性。在ACE2005中文语料库上的关系抽取实验表明,在未知实体类型的前提下,语义信息能显著提高抽取性能;而在已知实体类型的情况下,语义信息也能明显提高某些关系类型的抽取性能,这说明《词林》语义信息和实体类型信息在中文语义关系抽取中具有一定的互补性。
  • 杨雪蓉,洪 宇,马 彬,姚建民,朱巧明
    2014, 28(2): 100-108.
    摘要 (909) PDF (4067 KB) (1139)
    事件关系识别是一项面向文本信息流进行事件关系判定的自然语言处理技术。事件关系识别的核心任务是以事件为基本语义单元,通过分析事件的篇章结构信息及语义特征,实现事件逻辑关系的浅层检测(即判定任意事件之间是否存在逻辑相关性)。该文通过利用同一话题下事件的核心词及实体的分布特性,针对同一话题下事件关系识别任务,提出一种基于核心词和实体推理的事件关系识别方法。实验结果显示,该文方法明显优于基于事件语义依存线索的事件关系识别方法,F值获得了15.34%的提升。
  • 赵红燕,刘 鹏,李 茹,王智强
    2014, 28(2): 109-115.
    摘要 (868) PDF (2138 KB) (872)
    文本蕴涵识别是解决自然语言中存在的同义异形问题的有效途径。虽然国内外学者已经提出了很多文本蕴涵识别模型,但影响文本蕴涵识别的因素错综复杂,识别准确率普遍不高。该文把文本蕴涵识别看作二元分类问题,抽取词汇特征、句法依存关系特征及FrameNet语义知识库特征的多种特征构造特征矩阵,训练SVM分类器,实现文本蕴涵识别。该方法在国际文本蕴涵识别技术评测RTE3的测试集上进行测试,蕴涵正例识别准确率达到了78.1%,高于RTE3评测2-ways的最高结果。
  • 刘振岩,孟 丹,王伟平,王 勇
    2014, 28(2): 116-121.
    摘要 (851) PDF (1347 KB) (949)
    对于不同类别样本数量差别很大的偏斜文本数据集,使用传统的特征选择方法所选出的特征绝大多数来自于大类,会使得分类器偏重大类而忽略小类,直接影响分类效果。该文首先针对偏斜文本数据集的数据特点,分析发现偏斜数据集中影响特征选择的两个重要因素,即特征项的类别分布和类间差异,其中类别分布因素反映的是特征项在整个数据集中的类别频率差异;而类别差异因素反映的是特征项在不同类别之间的相对文档频率差异。然后基于这两个重要因素构造形成一个新的尤其适用于偏斜文本分类的特征选择函数— 相对类别差异(Relative Category Difference,RCD)。与传统的特征选择方法进行对比实验的结果表明,RCD特征选择方法对于偏斜文本分类效果更优。