中文信息学报

Select

郭振,张玉洁,苏晨,徐金安

2014, 28(6): 1-8.

摘要 (1118) PDF (1867 KB) (1814)

目前,基于转移的中文分词、词性标注和依存句法分析联合模型存在两大问题: 一是任务的融合方式有待改进;二是模型性能受限于全标注语料的规模。针对第一个问题,该文利用词语内部结构将基于词语的依存句法树扩展成了基于字符的依存句法树,采用转移策略,实现了基于字符的中文分词、词性标注和依存句法分析联合模型;依据序列标注的中文分词方法,将基于转移的中文分词处理方案重新设计为4种转移动作: Shift_S、Shift_B、Shift_M和Shift_E,同时能够将以往中文分词的研究成果融入联合模型。针对第二个问题,该文使用具有部分标注信息的语料,从中抽取字符串层面的n-gram特征和结构层面的依存子树特征融入联合模型,实现了半监督的中文分词、词性标注和依存句法分析联合模型。在宾州中文树库上的实验结果表明,该文的模型在中文分词、词性标注和依存分析任务上的F1值分别达到了98.31%、94.84%和81.71%,较单任务模型的结果分别提升了0.92%、1.77%和3.95%。其中,中文分词和词性标注在目前公布的研究结果中取得了最好成绩。

Select

基于联合音变还原和形态切分的形态分析方法

张海波,蔡洽吾,姜文斌,吕雅娟,刘群

2014, 28(6): 9-17.

摘要 (801) PDF (2694 KB) (1107)

传统的形态分析方法,一般是先进行音变还原工作,再进行形态切分工作。音变还原工作的好坏直接影响形态切分工作的优劣,两者之间存在错误传播的问题。鉴于传统形态分析方法存在的错误传播问题,该文提出了基于联合音变还原和形态切分的形态分析方法。该方法通过使用具有双重功能的联合标签,同时实现了音变还原及形态切分的功能。由于该方法不依赖于黏着语的特有的语言学规则,因此便于扩展到新的语言上。结果表明,联合音变还原和形态切分的形态分析方法要优于传统的先进行音变还原后形态切分的形态分析方法,能够很好地解决先音变还原后形态切分带来的错误传播问题。

Select

基于字的分布表征的汉语基本块识别

李国臣,党帅兵,王瑞波,李济洪

2014, 28(6): 18-25.

摘要 (839) PDF (1185 KB) (940)

汉语的基本块识别是汉语句法语义自动分析中的重要任务之一。传统的方法大多数直接将汉语基本块识别任务转化成词层面的一个序列标注问题,采用CRF模型来处理。虽然,在许多评测中得到最好的结果,但基于词为标注单位,在实用中受限于自动分词系统以及汉语词特征的稀疏性。为此,该文给出了一种以字为标注单位,以字为原始输入层,来构建汉语的基本块识别的深层神经网络模型,并通过无监督方法,学习到字的C&W和word2vec两种分布表征,将其作为深层神经网络模型的字的表示层的初始输入参数来强化模型参数的训练。实验结果表明,使用五层神经网络模型,以[-3,3]窗口的字的word2vec分布表征,其准确率、召回率和F值分别达到80.74%,73.80%和77.12%,这比基于字的CRF高出约5%。这表明深层神经网络模型在汉语的基本块识别中是有作用的。

Select

面向图解树库的标注工具开发与优化

赵敏,彭炜明,宋继华,杨天心

2014, 28(6): 26-33.

摘要 (733) PDF (1109 KB) (1057)

一个高效便捷的标注工具对树库建设起到至关重要的作用,该文在现有的基于句式结构的图解标注工具的基础上,针对其不足之处,进行了重新设计,加入词类和义项等标注信息,实现了人机结合的可视化图解标注工具,并从实践角度详细介绍标注工具在树库构建工程中的操作模式和功能。

Select

“A+一+X,B+一+Y”构式的分类及释义模板

刘洪超,詹卫东

2014, 28(6): 34-40.

摘要 (701) PDF (1302 KB) (1047)

该文以现代汉语中的“A+一+X,B+一+Y”格式为例,介绍了构建《现代汉语构式知识库》的初步工作。“A+一+X,B+一+Y”格式可根据其表义功能不同分为三个大类,十个小类。该文重点阐释了该构式表达“因果倚变义、事物交错义、状态交替义、动作行为交替义、周遍大量义、让步小量义”等6种意义的判定条件及相应的释义模板。

Select

中文非投射语义依存现象分析研究

郑丽娟,邵艳秋,杨尔弘

2014, 28(6): 41-47.

摘要 (1010) PDF (3454 KB) (996)

汉语是一种语序灵活的语言,句子变式很多,基于传统依存树的投射现象还不能很好解决某些句式的语义理解问题。文章以10000个句子的汉语语义依存图库为基础,验证并明确了汉语非投射现象的客观存在性,考察了汉语句子中存在的非投射现象,并从语言学和句子深层语义理解的角度对非投射现象进行了归纳和解释。文章总结了7类出现非投射现象的情况,包括小句宾语句、比较句、主谓谓语句、紧缩复句、代词、动补谓语句以及注释短语或复句。这对于自动语义依存标注有重要的指导作用。

Select

汉语核心框架语义分析

石佼,李茹,王智强

2014, 28(6): 48-55.

摘要 (1303) PDF (1486 KB) (980)

汉语核心框架语义分析是从框架语义角度,通过抽取句子的核心框架,获取汉语句子的核心语义骨架。该文将核心框架语义分析分为核心目标词识别、框架选择和框架元素标注三个子任务,基于各个子任务的不同特点,采取最大熵模型分别对核心目标词识别与框架选择任务进行建模;采用序列标注模型条件随机场对框架元素标注任务进行建模。实验在汉语框架网资源的10 831条测试语料中显示,核心目标词识别和框架元素标注F值分别达到99.51%和59.01%,框架选择准确率达到84.73%。

Select

基于分层输出神经网络的汉语语义角色标注

王臻,常宝宝,穗志方

2014, 28(6): 56-61.

摘要 (1051) PDF (1574 KB) (1115)

语义角色标注是自然语言处理中的一项重要任务。当下针对中文语义角色标注的主流做法是通过基于特征的统计机器学习实现的。然而,统计机器学习的方法需要引入经验性的人工特征,这在一定程度上增加了工作量。深度学习在自然语言处理领域的应用使得特征的自动学习成为可能。文章尝试了一种适用于语义角色标注的深层神经网络架构,该模型能自然地推广到其他标注任务。实验表明,深度学习算法能够有效地用于语义角色标注任务,但是我们仍然发现,模型对语义层面知识的学习是相当有限的,基于深度学习的方法还不能取代基于人工特征的统计机器学习算法。

Select

基于语义解析的中文GIS自然语言接口实现研究

周俊生,曲维光,许菊红,龙毅,朱耀邦

2014, 28(6): 62-69.

摘要 (1006) PDF (1614 KB) (1134)

该文对基于语义解析的中文地理信息系统(GIS)自然语言接口实现技术与方法进行了探索性的研究。首先,我们针对一个具体GIS应用领域设计和开发了一种函数式的形式化意义表示语言GISQL和一个中文语义解析标注语料库;然后,我们通过引入混合树作为隐变量用于构造输入句子与输出表示结构之间的对应关系,提出了一种基于含隐变量的感知器模型的语义解析算法。在开发的中文语义解析标注语料库上的实验结果显示,该文提出的语义解析算法的F1值达到了90.67％,明显优于baseline系统。更重要的是,该文的研究证明了基于语义解析方法实现中文GIS的自然语言接口是一种有效可行的途径。

Select

语法和语义相结合的中文对话系统问题理解研究

黄沛杰,黄强,吴秀鹏,吴桂盛,郭庆文,陈楠挺,陈楚萍

2014, 28(6): 70-78.

摘要 (722) PDF (4482 KB) (1766)

针对中文口语问句的表达多样性对对话系统问题理解带来的挑战,该文采用“在语法结构之上获取语义知识”的设计理念,提出了一种语法和语义相结合的口语对话系统问题理解方法。首先人工编制了独立于领域和应用方向的语法知识库,进而通过句子压缩模块简化复杂句子,取得结构信息,再进行问题类型模式识别,得到唯一确定问题的语义组织方法、查询策略和应答方式的句型模式。另一方面,根据领域语义知识库,从源句子中提取相应的语义信息,并根据识别到的句型模式所对应的知识组织方法进行语义知识组织,完成对问句的理解。该文的方法被应用到开发的中文手机导购对话系统。测试结果表明,该方法能有效地完成对话流程中的用户问题理解。

Select

面向政治新闻领域的中文文本校对方法研究

张仰森,唐安杰,张泽伟

2014, 28(6): 79-84.

摘要 (733) PDF (991 KB) (1317)

政治新闻领域内文本错误多为语义级错误。在研究新闻领域文本政治性差错的语言表述特征的基础上,分析了报刊新闻中政治性差错的表现类型,构建了面向各类错误侦测的词库和知识库。通过研究政治新闻文本的语言学特征,提出了一个政治性差错文本错误侦测规则的一般形式化模型,采用统计与规则相结合的策略实现政治新闻领域文本的语义校对。实验结果显示,该方法的召回率为65.5%,精确率为80.5%,具有较好的应用前景。

Select

基于语块和条件随机场(CRFs)的韵律短语识别

钱揖丽,冯志茹

2014, 28(5): 32-38.

摘要 (983) PDF (1830 KB) (929)

该文提出一种基于汉语语块这一浅层句法信息,并利用条件随机场模型的中文文本韵律短语边界预测方法。首先介绍语块的定义和标注算法,然后在进行了语块结构标注以及归并处理的语料上,利用CRFs算法生成相应模型对韵律短语进行识别。实验结果表明,基于语块信息的CRFs韵律短语识别模型的识别效果优于不利用语块结构的模型,其F值平均能够提高约十个百分点。

Select

利用扩展标记集的词结构分析

孙静,方艳,丁彬,周国栋

2014, 28(5): 39-45.

摘要 (797) PDF (3244 KB) (1000)

该文给出了一种与传统分词不同的词法分析选择,提出了一种利用扩展标记集来实现词内部结构分析的方法。首先阐述了词的内部结构特点,把结构中的前后缀视为特殊的词,进而通过识别出每一个词的前后缀来识别词的内部结构。方法是把词内部结构识别问题转换成序列标注问题,通过扩展标记集,采用CRF模型来实现词的内部结构分析。最终实验表明,无论是在总体性能上,还是在各层结构的识别上都取得了较高的准确度。

Select

量化词语的领域特征

刘冬明,杨尔弘

2014, 28(5): 46-50.

摘要 (618) PDF (602 KB) (889)

词作为最小的语义单位,同领域之间具有复杂的关系,特别是较为常用的词,通常难以明确界定其所属领域。在某些应用中并非必须确定词和领域的明确关系,仅仅依赖词的领域性的量化值就能够取得较好的效果。该文根据大规模语料库中词的关联信息,采用无指导的方法,对词的领域性进行量化,其结果可以作为词的一种特征应用于文本分类、话题检测、信息检索等相关的自然语言处理中。最后,通过和常用的特征——TFIDF在话题检测应用中进行对比,证明了其有效性。

Select

基于Word Embedding语义相似度的字母缩略术语消歧

于东,荀恩东

2014, 28(5): 51-59.

摘要 (1150) PDF (3606 KB) (1226)

该文提出基于Word Embedding的歧义词多个义项语义表示方法,实现基于知识库的无监督字母缩略术语消歧。方法分两步聚类,首先采用显著相似聚类获得高置信度类簇,构造带有语义标签的文档集作为训练数据。利用该数据训练多份Word Embedding模型,以余弦相似度均值表示两个词之间的语义关系。在第二步聚类时,提出使用特征词扩展和语义线性加权来提高歧义分辨能力,提高消歧性能。该方法根据语义相似度扩展待消歧文档的特征词集合,挖掘聚类文档中缺失的语义信息,并使用语义相似度对特征词权重进行线性加权。针对25个多义缩略术语的消歧实验显示,特征词扩展使系统F值提高约4%,使用语义线性加权后F值再提高约2%,达到89.40%。

Select

基于量词的名词概念获取研究

王萌,俞士汶

2014, 28(5): 60-65.

摘要 (631) PDF (713 KB) (1021)

概念获取是自然语言理解领域中重要的研究课题。该文提出了一种基于汉语量词的名词概念描述方法,设计并实现了一个权重计算方案。通过聚类实验探索了量词对名词语义区分的作用和贡献,实验结果表明基于量词的名词概念表达方式是有效的,可以区分大部分名词概念。

Select

汉语语义选择限制知识的自动获取研究

贾玉祥,王浩石,昝红英,俞士汶,王治敏

2014, 28(5): 66-73.

摘要 (1112) PDF (973 KB) (1088)

语义选择限制刻画了谓语对论元的语义选择倾向,是一种重要的词汇语义知识,对自然语言的句法、语义分析具有重要作用。该文研究汉语语义选择限制知识的自动获取,提出基于HowNet和基于LDA (Latent Dirichlet Allocation)的两种知识获取方法,对方法进行了实验对比与分析。实验表明,前者所获取的知识可理解性更好,后者所获取的知识应用效果更好。两种方法具有很好的互补性,我们提出了一个二者的融合方案。

“词法·句法·语义分析及应用” 栏目所有文章列表

选择文件类型/文献管理软件名称

选择包含的内容