中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2013年 27卷 1期
刊出日期:2013-02-15

综述
 
   
综述
1 基于大规模语料库的汉语词义相似度计算方法
石 静1, 吴云芳1, 邱立坤2, 吕学强3
词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。
2013 Vol. 27 (1): 1-7 [摘要] ( 626 ) [HTML 1KB] [PDF 748KB] ( 1417 )
7 一种基于搭配的中文词汇语义相似度计算方法
王 石1,曹存根1,裴亚军3,夏 飞1,2
词汇间的语义相似度计算在自然语言处理相关的许多应用中有基础作用。该文提出了一种新的计算方法,具有高效实用、准确率较高的特点。该方法从传统的分布相似度假设“相似的词汇出现在相似的上下文中”出发,提出不再采用词汇在句子中的邻接词,而是采用词汇在二词名词短语中的搭配词作为其上下文,将更能体现词汇的语义特征,可取得更好的计算结果。在自动构建大规模二词名词短语的基础上,首先基于tf-idf构造直接和间接搭配词向量,然后通过计算搭配词向量间的余弦距离得到词汇间的语义相似度。为了便于与相关方法比较,构建了基于人工评分的中文词汇语义相似度基准测试集,在该测试集中的名、动、形容词中,方法分别得到了0.703、0.509、0.700的相关系数,及100%的覆盖率。
2013 Vol. 27 (1): 7-15 [摘要] ( 470 ) [HTML 1KB] [PDF 1504KB] ( 807 )
15 基于双语依存关系映射的中英文词表构建研究
徐 华,刘丹丹,钱龙华,周国栋
基于上下文的双语词表构建方法是比较流行的基于可比较双语语料库的双语词表构建方法。特别地,依存上下文模型从句子的依存树上抽取词语的上下文特征,由于依存关系更能体现词语之间的共现关系,因而这种方法提高了构建双语词表的性能。该文在此基础上,进一步提出了依存关系映射模型, 即通过同时匹配依存树中的上下文词语、依存关系类型和方向来实现双语词表的构建。在FBIS语料库上的实验表明,该方法在中文—英文和英文—中文两个方向上的双语词表构建上均取得了较好的性能,这说明了依存关系映射模型在双语词表构建中的有效性。
2013 Vol. 27 (1): 15-21 [摘要] ( 484 ) [HTML 1KB] [PDF 1091KB] ( 818 )
21 网页中商品“属性—值”关系的自动抽取方法研究
唐 伟,洪 宇,冯艳卉,姚建民,朱巧明
商品属性及其对应值的自动挖掘,对于基于Web的商品市场需求分析、商品推荐、售后服务等诸多领域有重要的应用价值。该文提出一种基于网页标题的模板构建方法,从结构化网页中抽取完整的商品“属性—值”关系。该方法包含四个关键技术 1)利用商品网页标题构建领域相关的属性词包;2)基于预设分隔符细化文本节点;3)结合领域商品属性词包获取种子“属性—值”关系;4)结合网页布局信息和字符信息来筛选与构建模板。该文的实验基于相机和手机两个领域展开,获得94.68%的准确率和90.57%的召回率。
2013 Vol. 27 (1): 21-30 [摘要] ( 516 ) [HTML 1KB] [PDF 2150KB] ( 942 )
30 事件超图模型及类型识别
肖 升1,2,何炎祥1
为避免向量空间模型的独立性假设影响事件类型识别,该文提出了一种基于超图的事件类型识别方法。该方法首先用事件超图描写事件元素间的多元有序关系;然后用事件超图模型(由事件超图添加类型组件和层面组件后构成)描述某个(某类)事件在不同观测层面的属性及其结构;最后根据事件的属性及其结构计算其相似度,并借此完成事件类型识别。实验结果显示,此方法识别效率的平均F值达到83.0%,与基于向量空间模型的支持向量机方法和最大熵方法相比,此方法也具有一定优势。
2013 Vol. 27 (1): 30-39 [摘要] ( 368 ) [HTML 1KB] [PDF 3242KB] ( 724 )
39 一种基于社会化标签的信息检索方法
李 鹏1,2,王 斌1,晋 薇3
社会化标签提供了网页信息的额外描述,直观上对搜索具有重要价值。该文提出一种新颖的利用社会化标签的分类属性进行检索的方法。该方法通过将群体的标注信息建模为高层类别来估计话题模型,然后基于该话题模型来对语言模型进行平滑。建模方法可以降低标注稀疏性的影响,有效地表达标签含义,从而提升检索效果。基于TREC评测构建的数据集上的实验结果表明,该方法优于基于LDA的检索方法以及现有其他基于标签数据的检索方法。
2013 Vol. 27 (1): 39-47 [摘要] ( 470 ) [HTML 1KB] [PDF 2651KB] ( 720 )
47 中文博客多方面话题情感分析研究
傅向华, 刘 国, 郭岩岩, 郭武彪
博客是Web环境中个人表达观点和情感的一种重要载体,一般涉及较宽泛的话题,蕴含丰富的舆情信息。现有针对有关社会事件的用户产生内容进行情感分析的研究多数以篇章级为处理粒度,尚不能满足博客文本深度情感分析的需求。该文提出一种基于LDA话题模型与Hownet词典的中文博客多方面话题情感分析方法。该方法首先利用数据语料训练LDA话题模型,然后以滑动窗口为基本处理单位,利用训练好的LDA模型对博客文本进行话题识别与划分;在此基础上,基于Hownet词典对划分后的话题段落进行情感倾向计算。该方法有助于同时识别博客文本所涉及的多方面子话题及每个子话题上的情感倾向。实验结果表明,该方法不仅能获得较好的话题划分结果,也有助于改善情感分析的准确率。
2013 Vol. 27 (1): 47-56 [摘要] ( 613 ) [HTML 1KB] [PDF 1070KB] ( 1029 )
56 第三届中文倾向性分析评测(COAE2011)语料的构建与分析
廖祥文1,许洪波2,孙 乐3,姚天昉4
文本倾向性分析已成为自然语言处理领域研究的热点问题之一。为进一步推动中文倾向性分析的研究,中国中文信息学会信息检索专业委员会举办了第三届中文倾向性分析评测(COAE2011)。该次评测主要关注领域和上下文语境(Context)对中文倾向性分析的影响。该文主要介绍COAE2011评测语料的构建及其对评测的支撑 首先介绍了COAE2011语料的领域选取、媒介分布等获取过程,然后详细阐述语料的标注原则与方法,最后依据评测结果分析领域和上下文语境因素对倾向性的影响。COAE2011语料的建立将为中文倾向性分析提供强大的资源支持。
2013 Vol. 27 (1): 56-64 [摘要] ( 949 ) [HTML 1KB] [PDF 986KB] ( 974 )
64 统计机器翻译中一致性解码方法比较分析
段 楠1,李 沐2,周 明1, 2
该文对近年来统计机器翻译研究中出现的多种一致性解码方法进行比较与分析。根据现有一致性解码方法对(单个或多个)统计机器翻译系统输出结果使用方式的不同,首先将其归纳为两大类 基于翻译假设重排序的一致性解码方法和基于翻译假设重组合的一致性解码方法;然后,针对每类方法,分别回顾其最具代表性的研究工作;最后,通过在大规模中—英机器翻译评测数据上的对比实验,对该文中介绍的多种方法进行比较,并对该课题未来研究方向进行展望。
2013 Vol. 27 (1): 64-72 [摘要] ( 444 ) [HTML 1KB] [PDF 916KB] ( 646 )
72 BFS-CTC汉语句义结构标注语料库
刘盈盈,罗森林,冯 扬,韩 磊,陈 功,王 倩
句义结构分析是汉语语义分析中不可逾越的重要环节,为了满足汉语句义结构分析的需要,基于现代汉语语义学理论构建了一种层次化的汉语句义结构模型,定义了标注规范和标记形式,建设了一个汉语句义结构标注语料库BFS-CTC(Beijing Forest Studio-Chinese Tagged Corpus)。标注内容方面,基于句义结构模型的定义标注了句义结构句型层、描述层、对象层和细节层中所包含的各个要素及其组合关系,包括句义类型、谓词及其时态、语义格类型等信息,并且提供了词法和短语结构句法信息,便于词法、句法、句义的对照分析研究;语料库组织结构方面,该语料库包括四个部分,即原始句子库、词法标注库、句法标注库和句义结构标注库,可根据研究的需要,在词法、句法、句义结构标注的基础上进行深加工,在核心标注库的基础上添加更多具有针对性的扩展标注库,利用句子的唯一ID号进行识别和使用;语料来源和规模方面,语料全部来自新闻语料,经过人工收集、整理,合理覆盖了主谓句、非主谓句、把字句等六种主要句式类型,规模已达到10 000句。同其他语义标注库相比,BFS-CTC基于现代汉语语义学,提供了多层次的句义结构标注信息,兼容进行了词法和语法标注,各类标注既可以单独使用也可综合使用进行横向分析,可用于自然语言处理多方面的研究,进一步推动汉语语义分析的研究和发展。
2013 Vol. 27 (1): 72-81 [摘要] ( 419 ) [HTML 1KB] [PDF 4480KB] ( 881 )
81 基于统计的记叙文语句焦点的分布特点研究
赵建军1,2, 杨玉芳2, 吕士楠3
该文通过20人对30篇汉语记叙文中语句焦点的标定结果,结合文本标注和统计分析,对焦点在词类和语义角色中的分布规律进行了探讨。结果主要发现,记叙文语篇中焦点词大约占实词总数的五分之一。形容词成为焦点的概率远高于其他词类。焦点在语义角色中分布的总体趋势是 客体论元的焦点化倾向最高,其次是外围论元,最低的是主体论元和谓词部分。
2013 Vol. 27 (1): 81-86 [摘要] ( 317 ) [HTML 1KB] [PDF 1213KB] ( 636 )
86 基于组合核的蛋白质交互关系抽取
李丽双,刘 洋,黄德根
蛋白质交互关系(PPI)抽取是生物医学信息抽取领域的一个重要部分,具有很高的应用价值和实际意义。该文使用一种基于SVM的组合核方法进行蛋白质关系抽取,将基于特征的平面核和基于结构的卷积树核组合。一棵完整的句法解析树中包含了较多噪声,需对其修剪以提高PPI抽取效果。首先讨论不同的树的剪裁策略对实验结果的影响,分别使用完全树、最小完全树、最小树和最短路径闭包树进行实验,最短路径闭包树效果最好;然后在最短路径闭包树的基础上提出一种动态拓展树,该树取得了明显优于其他解析树的效果。最后基于组合核在AIMED上进行10倍交叉实验,精确率、召回率和F值分别达到了82.40%、51.30%和63.23%。
2013 Vol. 27 (1): 86-93 [摘要] ( 298 ) [HTML 1KB] [PDF 2675KB] ( 771 )
93 “方言同音字汇”自动生成软件的设计及实现
程南昌1,2, 侯 敏3
“方言同音字汇”整理是方言调查的基础性工作,靠手工制作十分繁难。该文论述了“方言同音字汇”自动生成软件的设计原理及实现过程。软件的主要功能是,根据用户事先给定的韵、声、调排序依据和排序顺序,对已经录入的方言字表进行排序,排序技术采用对应韵、声、调与字表所有字目的一个四重循环,最终生成“同音字汇竖排表”。此外,该文对软件的实用性能进行了分析,并对软件的应用进行了一定的说明。实践证明,该软件完全能够满足方言调查实用化的需求。
2013 Vol. 27 (1): 93-98 [摘要] ( 270 ) [HTML 1KB] [PDF 1326KB] ( 633 )
98 针对发音质量评测的声学模型优化算法
严 可1,魏 思2,戴礼荣1
在发音质量评测研究中,传统仅用发音标准的数据进行声学建模,难以描述实际测试面临的非标准发音,使得训练与测试的失配在所难免。针对上述问题,该文提出一种利用覆盖各种发音的数据,根据最小化机器分与人工分均方误差准则进行声学模型优化的算法。实验在普通话水平考试现场3 685份数据(其中498份测试,3 187份训练)上进行。实验表明采用优化算法得到的针对发音质量的评测声学模型相比传统建模方式得到的声学模型有显著的优势。
2013 Vol. 27 (1): 98-108 [摘要] ( 383 ) [HTML 1KB] [PDF 3507KB] ( 770 )
108 新标准体系下蒙古文变形显现模型的设计与实现
王 震1,2,刘汇丹1,2,吴 健1
国家标准GB 25914-2010的提出,为蒙古文变形规则提供了统一的可实施的标准。目前还缺乏完全符合该标准的蒙古文变形引擎和OpenType蒙古文字库。针对这一问题,该文提出了一种符合新标准的蒙古文变形模型,该模型具有高效率和通用性。我们利用蒙古文变形模型分别在KDE平台下的复杂文本布局引擎Qt4和GNOME平台下的Pango中实现了对蒙古文的变形支持。实验结果证明了该模型的有效性。其中,通过对Pango增加蒙古文变形支持,GNOME平台下的Firefox等应用程序也能正确显示蒙古文。该模型的实现,为研制符合新标准的以GNOME或者KDE为桌面环境的蒙古文操作系统奠定了基础。
2013 Vol. 27 (1): 108-115 [摘要] ( 387 ) [HTML 1KB] [PDF 2519KB] ( 630 )
115 现代藏语助动词结尾句子边界识别方法
赵维纳1,2, 于 新2,刘汇丹2,3,李 琳1,4,王 磊5,吴 健2
藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。
2013 Vol. 27 (1): 115-120 [摘要] ( 463 ) [HTML 1KB] [PDF 2174KB] ( 666 )
120 水书键盘输入系统研究与实现
陈笑蓉,杨撼岳,郑高山,黄 千
水族文字被称为水书。为了满足水书研究者和出版业界的需要,设计了水字字符集的Unicode编码,利用字体制作软件建立了水字TrueType字库。该文提出了一种基于笔形特征的编码方法,依据编码规则取水字3个角的笔形组成有序序列,为水字编码。利用Windows系统的IMM-IME机制,实现了水字笔形输入法。
2013 Vol. 27 (1): 120-129 [摘要] ( 321 ) [HTML 1KB] [PDF 3639KB] ( 672 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发