中文信息学报

Select

张坤丽,昝红英,柴玉梅,韩英杰,赵丹

2015, 29(3): 1-8.

摘要 (1105) PDF (1653 KB) (2023)

现代汉语虚词用法繁杂多样,虚词用法的研究对汉语语义理解及语法分析起着非常重要地作用。该文在分析虚词及词汇知识库研究现状的基础上,对三位一体的现代汉语虚词用法知识库中虚词用法词典、虚词用法规则库和虚词用法标注语料库的建设过程进行了详细描述,对虚词知识库现存的问题进行了分析。利用已经构建的现代汉语虚词知识库,对虚词用法自动识别进行了研究,并对现代汉语虚词知识库的应用进行了初步的探讨。

Select

基于依存语法构建多视图汉语树库

邱立坤,金澎,王厚峰

2015, 29(3): 9-15.

摘要 (1076) PDF (3635 KB) (1206)

树库是自然语言处理中一项重要的基础资源,现有树库基本上都是单视图树,支持短语结构语法或者依存语法。该文提出一套基于依存语法的多视图汉语树库标注体系,仅需标注中心语和语法角色两类信息,之后可以自动地推导出描述句法结构所需的短语结构功能和层次信息,从而可以在不增加标注工作量的前提下获得更多语法信息。基于该体系,构建了北京大学多视图汉语树库(PMT)1.0版,含有64000句、140万词,支持短语结构语法和依存语法两个视图。

Select

词汇计量研究与常用词知识库建设

俞士汶,朱学锋

2015, 29(3): 16-20.

摘要 (1011) PDF (583 KB) (1364)

面向自然语言处理的词汇语义研究应该以词汇的计量研究为基础。该文在评述汉语词汇计量研究的主要成果以后,提出一个汉语常用词知识库的建设任务,并给出常用词表的构造性定义、词表常用性的定量评价方法以及“部件词”的概念,最后介绍现代汉语常用词知识库的总体设计和已经做的工作。期望常用词知识库的建设能为汉语词汇语义学研究、为中文信息处理事业的发展做出贡献。

Select

面向计算的现代汉语双音词分离及其语法意义与特性研究

薛宏武

2015, 29(3): 21-26.

摘要 (761) PDF (723 KB) (1057)

汉语缺乏严格的形态束缚,在句子里双音词经常由于嵌入相关句法成分而呈现出分离。为了提高自然语言处理中语段分词、词性标注及基于规则的句子语义计算的准确性与有效度等,文章系统考察了现代汉语里典型词与离合词的分离现象,挖掘并刻画出它们各自形成的语法动因、条件、意义以及分离而成的成分的语法特性等,从而对现代汉语中双音词的分离做出了系统多层级的理论思考。文章指出典型词的分离是语用作用的结果,分离结构的意义是主观的;而离合词分离是句法语义作用的产物,意义是客观的。

Select

汉语复合名词语义信息标注词库: 基于生成词库理论

宋作艳,赵青青,亢世勇

2015, 29(3): 27-33.

摘要 (1044) PDF (2541 KB) (1148)

复合名词分析一直是语言研究和自然语言信息处理中的一个重要问题,涉及未登录词的识别、自动释义以及词典编纂等。生成词库理论是目前较新的一种语义学理论,我们拟利用该理论对汉语复合名词进行语义信息标注,建立一个词库。该文首先介绍了这一词库的标注框架,然后通过对“纸”、“石”构成的复合词的对比分析,展示了这一词库在复合名词构词、语义研究中的应用。研究结果显示,物性角色、自然类和人造类是非常重要的语义信息,能揭示复合名词构词和语义的一些模式和规律。

Select

基于语料库的明清小说人名与称谓研究

熊丹,陆勤,罗凤珠,石定栩,赵天成

2015, 29(1): 19-27.

摘要 (1136) PDF (4485 KB) (1395)

在自然语言处理及其应用领域,人名和称谓作为重要的命名实体,是信息处理的关键部分之一。该文从命名实体识别和资讯提取的角度出发,在对4部明清古典小说的语料库进行标注的前提下,建构了姓名、字号和称谓作为命名实体的分类及标注系统。人名和称谓总体上分为单一型和复合型,根据复合型的内部组成元素和组合方式,将其进一步分为固定式、同位式、附属嵌套式、灵活嵌套式。结合语料库的完整数据统计,该文对各类型人名和称谓进行了比较分析,并分别展示了4部名著在人名、称谓使用上的特点。

Select

花园幽径现象理解折返性的数据结构分析

杜家利, 于屏方

2015, 29(1): 28-37.

摘要 (667) PDF (2546 KB) (1233)

该文讨论了花园幽径现象(GPP)的数据结构。GPP数据结构呈现理解折返的认知树形结构,不同于语法前状态的词集合结构、句子理解的语法线性结构和语义匹配多对多的歧义图状结构。GPP结构的显著性特征如下:(1)GPP理解初期,数据结构呈线性特征;(2)GPP理解中期,语义触发点迫使原解码模式被推翻,数据结构表现为词集合结构;(3)GPP理解末期,行进式错位导致回溯形成,解码结构最终呈现树形结构;(4)GPP动态解码融合了除歧义图状结构之外的两种结构特征,语义触发语的激活产生额外认知负担。GPP树形结构与歧义图状结构的不同从数据结构角度证实了两种语法现象的迥异,从而为计算语言学解读GPP提供了理论支撑。

Select

记叙文语篇修辞结构对焦点分布影响的研究

赵建军,杨晓虹,杨玉芳

2015, 29(1): 38-43.

摘要 (755) PDF (846 KB) (1200)

该研究让20名被试对30篇汉语记叙文进行焦点标定,在焦点标定的基础上,结合文本标注和统计分析,对语篇修辞结构对焦点分布的影响进行了探讨。结果主要发现,记叙文语篇中有大约30％的小句没有获得焦点;核心性对焦点的分布有重要影响,大约80％的核心句中有焦点,而只有60％的辅助句中有焦点;最高层级的小句焦点数量相对较少;记叙文语篇主要由10种修辞关系构成,联合关系和阐述关系小句中焦点数量最多,归属关系小句中焦点数量最少。

Select

基于规则的复句关系词的自动标识

贾遂民,雷利利,胡明生

2015, 29(1): 44-48.

摘要 (781)

关系词的自动标识是中文信息处理领域的基础性研究课题,该文利用规则实现其自动标识。首先通过语料的分析总结出关系词在使用过程中的12种特征,以这些特征建立规则的约束条件;然后提出包含匹配算法实现复句准关系词序列与规则索引词的匹配,以此获取目标规则,并根据目标规则约束条件与关系词所在语境的匹配结果得到匹配规则;最后利用匹配规则的结论实现关系词的自动标识。实验结果表明,该方法对关系词标识的正确率达到70.9%。

Select

基于声学特征的阳声韵元音鼻化程度的计算研究

孙锐欣

2015, 29(1): 49-56.

摘要 (781)

在以鼻音为韵尾的音节中,元音可能会受韵尾的鼻音影响而带上鼻化音色,该文在对阳声韵韵母声学特征物理分析的基础上提出了阳声韵元音鼻化程度的计算方法。利用元音鼻化段时长和鼻化元音共振峰带宽构建的一个三维向量作为描述鼻化元音的依据,把这个向量的模作为元音鼻化程度的标度。经过实验和计算,我们发现前鼻音韵母中的元音的鼻化程度比较低,标度均值0.410,而后鼻音韵母中的元音的鼻化程度比较高,标度均值0.718,在所有阳声韵中,韵腹是高元音的阳声韵元音鼻化程度最高的。

Select

一个面向信息抽取的中文跨文本指代语料库

赵知纬,钱龙华,周国栋

2015, 29(1): 57-66.

摘要 (1151) PDF (3125 KB) (1366)

跨文本指代(CrossDocumentCoreference,CDC)消解是信息集成和信息融合的重要环节,相应地,CDC语料库是进行跨文本指代消解研究和评估所不可或缺的平台。由于目前还没有一个公开发布的面向信息抽取的中文CDC语料库,因此该文在ACE2005语料库的基础上,采用自动生成和人工标注相结合的方法,构建了一个面向信息抽取的涵盖所有ACE实体类型的中文CDC语料库,并将该语料库公开发布,旨在促进中文跨文本指代消解研究的发展。同时,该文以该语料库为基础,分析了中文环境下跨文本指代现象的类型和特点,提出了用“多名困惑度”和“重名困惑度”两个指标来衡量跨文本指代消解任务的难度,为今后的跨文本指代消解研究提供一些启示。

“语言分析与语言资源建设” 栏目所有文章列表

选择文件类型/文献管理软件名称

选择包含的内容