中文信息学报

Select

丁彬,孔芳,李生,周国栋

2014, 28(6): 101-106.

摘要 (763) PDF (933 KB) (939)

篇章关系分为显式和隐式两种。显式关系的显著特征是篇章的基本单元之间存在显式连接词。针对汉语显式篇章关系,构建了包括汉语连接词识别和篇章关系分类的显式篇章关系分析平台。该文选取汉语宾州树库(Chinese Penn Treebank, CTB)中的500篇文本进行了汉语显式篇章关系标注;结合连接词的中心词,采用最大熵分类器构建了汉语连接词识别模块,其性能F₁值达到了66.79%;基于连接词及其词性等上下文特征,构建了篇章关系分类器,其在最顶层4大类语义关系上的分类性能的F₁值为91.92%。

Select

广义话题结构理论视角下话题自足句成句性研究

尚英,宋柔,卢达威

2014, 28(6): 107-113.

摘要 (664) PDF (1017 KB) (984)

话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行了分析、分类,并提出了使其成句的办法。这将进一步完善广义话题结构理论,并能提高使用话题自足句的应用系统的性能。

Select

基于协同训练的文本蕴含识别

任函,万菁,吴泓缈,冯文贺

2014, 28(6): 114-119.

摘要 (693) PDF (1469 KB) (916)

针对文本蕴含的训练数据不足的问题,该文提出了基于协同训练的文本蕴含识别方法。该方法利用少量已标注的蕴含数据和大量未标注数据进行协同训练。为此,该文利用改写视图和评估视图,从结构和非结构两个角度考察蕴含关系,并将语义树核分类器和基于统计特征的分类器应用于两个视图,同时利用协同训练的结果训练一个综合分类器,用于对新数据进行预测。实验表明,基于协同训练的蕴含识别方法能在少量训练数据的情况下获得较好的识别性能。

Select

基于单文本指代消解的人物家庭网络构建研究

顾静航,朱苏阳,钱龙华,朱巧明

2014, 28(6): 120-128.

摘要 (888) PDF (1806 KB) (1195)

人物家庭网络是社会关系网络中的一个重要组成部分,因此,如何高效准确地提取出人物的家庭网络具有重要研究意义。该文在前人工作的基础上提出一种基于单文本指代消解技术的人物家庭关系抽取方法,以此扩大人物家庭关系抽取的范围,进而提高人物家庭网络的召回性能。该文还提出了一种基于人物虚拟边的家庭网络评估指标,用于更合理地评价构建出的人物家庭网络的性能。在大规模中文语料Gigaword上的实验表明,该方法可以较为准确地抽取出人物的家庭关系,进而提高人物家庭网络的召回性能,从而为社会网络分析提供基础数据。

Select

基于话题链的汉语语篇连贯性描述体系

周强,周骁聪

2014, 28(5): 102-111.

摘要 (712) PDF (2767 KB) (1102)

汉语简洁灵活的意合型篇章组合结构,对传统的基于关联词的篇章连贯性描述体系提出了新的挑战。该文引入话题链描述形式,设计不同类型的话题评述关系集,构建了以话题链为主,融合关联词语和其他连贯形式描述机制,覆盖话题评述、并列、因果、转折四大类关系的汉语语篇连贯性描述体系。在清华句法树库TCT上进行的验证实验,发现话题链和关联词语分别覆盖了约76%和50%的汉语复句,并且两者经常同时使用,初步证明了这个体系在句子连贯性描述方面的可行性和有效性。

Select

从广义话题结构考察汉语篇章话题认知复杂度

卢达威,宋柔,尚英

2014, 28(5): 112-124.

摘要 (768) PDF (1665 KB) (1205)

语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。

“语篇分析” 栏目所有文章列表

选择文件类型/文献管理软件名称

选择包含的内容