中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2012年 26卷 4期
刊出日期:2012-08-15

综述
 
   
综述
3 基于单层标注级联模型的篇章情感倾向分析
李本阳,关 毅,董喜双,李 生
情感分类是目前篇章情感分析的主要方法,但该方法存在难以融入中文结构特征的问题。针对此问题,采用级联模型对篇章情感倾向进行分析,将篇章情感倾向分析分为两层 小句级和篇章级,对篇章情感倾向分析引入小句级的情感分析。该文使用最大熵模型处理小句级情感分类,小句级的输出作为上层篇章级的输入,并结合句型特征和句子位置等信息作为特征,采用支持向量机模型进行篇章级情感分类。同时对于级联模型中双层标注问题,基于交叉验证的思想提出了单层标注级联模型,避免了多层标注工作以及错误。实验结果表明,该方法的准确率较传统情感分类方法提高了2.53%。
2012 Vol. 26 (4): 3-9 [摘要] ( 314 ) [HTML 1KB] [PDF 1522KB] ( 702 )
9 文本处理中的MapReduce技术
李 锐1,2,王 斌1
用于文本处理的很多数据集已经达到TB、PB甚至更大规模,传统的单机方法难以对这些数据进行有效处理。近年来出现的MapReduce计算框架能够以简洁的形式和分布式的方案来解决大规模数据的并行处理问题,得到了学术界和工业界的广泛认可和使用。目前,MapReduce已经被用于自然语言处理、机器学习及大规模图处理等领域。该文首先对MapReduce做了简单的介绍,并分析了其特点、优势还有不足;然后对MapReduce近年来在文本处理各个方面的应用进行分类总结和整理;最后对MapReduce的系统和性能方面的研究也做了一些介绍与展望。
2012 Vol. 26 (4): 9-21 [摘要] ( 287 ) [HTML 1KB] [PDF 1762KB] ( 855 )
21 微博文本处理研究综述
张剑峰1,2,夏云庆1,姚建民2
微博是一个基于关系的信息分享、传播以及获取平台。用户可以通过WEB、WAP以及各种客户端组件,以140字左右的文字更新信息,并实现即时分享。由于微博发展迅猛,微博文本已经形成了大规模积累,针对微博文本的研究已经成为了一个十分重要的课题。该文对微博文本进行了定义,阐述了微博文本研究的重要性,并从微博文本的不同应用领域出发,对微博文本的研究现状进行了综述,介绍了目前已经存在的微博文本数据集和应用系统。
2012 Vol. 26 (4): 21-28 [摘要] ( 511 ) [HTML 1KB] [PDF 1684KB] ( 2338 )
28 基于甲骨文字形动态描述库的甲骨文输入方法
栗青生1,2,3,吴琴霞1,3,王 蕾1,3
该文分析了目前常用的甲骨文字在编码和输入方面的问题和不足,给出了一种甲骨文字形动态描述的方法。该方法在现代汉字的编码和书写规范基础上,使用有向笔段和笔元对甲骨文进行描述,用扩展的编码区域和外部描述字形库相结合的方式,解决了甲骨文字特别是异体字和没有识别的甲骨文字的输入和输出问题。
2012 Vol. 26 (4): 28-34 [摘要] ( 344 ) [HTML 1KB] [PDF 986KB] ( 884 )
34 古汉语双字词自动获取方法的比较与分析
段 磊,韩 芳,宋继华
词汇的自动获取在自然语言生成、计算词典编纂、句法分析以及语料库语言学等领域均有着重要的研究价值。该文针对古汉语双字词的自动获取问题,以《史记》全文语料为例,分别应用基于频率、互信息、假设检验的统计方法获取古汉语双字词,并结合人工标注结果进行了详细的比较和分析,评价了各方法的优缺点及可靠性,为不同应用背景下的古汉语双字词自动获取提供了相应的解决方案。
2012 Vol. 26 (4): 34-43 [摘要] ( 400 ) [HTML 1KB] [PDF 1520KB] ( 665 )
43 基于《知网》的中文信息结构消歧研究
张瑞霞1,庄晋林1,杨国增2
《中文信息结构库》是《知网》的重要组成部分之一,可以作为中文语义分析的规则库,对其进行消歧是实际应用的基础之一。因此,该文首先对中文信息结构进行了形式化描述;接着对其进行优先级划分;然后根据其构成形式提出了四种不同的消歧方法 即词性序列消歧法、图相容匹配消歧法、图相容度计算消歧法、基于实例的语义相似度计算消歧法;最后针对不同优先级的中文信息结构集设计了不同消歧流程。实验结果证明消歧正确率达到了90% 以上。
2012 Vol. 26 (4): 43-50 [摘要] ( 275 ) [HTML 1KB] [PDF 867KB] ( 760 )
50 汉语传统语法及其在中文信息处理中的应用展望
彭炜明1,宋继华2,王 宁1,康明吉2
汉语传统语法首推黎锦熙《新著国语文法》为代表。黎氏语法是以讲句子成分和句子格局为主要特征的语法体系,被称为“句本位”的语法。该文首先简要回顾了汉语语法体系自《马氏文通》以来的变化发展历史,梳理了传统语法与结构语法两大流派的主要思想和理论特色。然后从汉语树库角度剖析了当前中文信息处理领域主流语法体系的优缺点,并将它们与传统语法体系做了深入的比较分析,得出将传统语法应用于中文信息处理的必要性。最后讨论传统语法在中文信息处理领域应用需要面对的几个关键问题。
2012 Vol. 26 (4): 50-61 [摘要] ( 303 ) [HTML 1KB] [PDF 4332KB] ( 1555 )
61 维吾尔语动词体范畴的有限状态自动机的构建
阿孜古丽·夏力甫1,3,早克热·卡德尔2,吐尔根·依布拉音2
维吾尔语动词的体范畴是维吾尔语动词语法范畴中极为复杂的范畴,也是维吾尔语信息处理中的难点问题之一,计算机对维吾尔语动词体范畴的处理是在对人称、时、否定等语法范畴处理之后才进行处理。但是难点就是体范畴重叠问题的解决。维吾尔语动词的体范畴词尾按照一定的规则连接在词干,这使得维吾尔语动词体范畴的重叠形式可用有限状态自动机形式化描述。因此它根据重叠规则构造从右向左的非确定自动机,之后把从右向左方向的自动机转换成从左向右的非确定自动机,最后把非确定自动机转换成确定自动机来实现维吾尔语动词体范畴的形式化描述。
2012 Vol. 26 (4): 61-66 [摘要] ( 292 ) [HTML 1KB] [PDF 4235KB] ( 581 )
66 藏语机读音标SAMPA_ST的设计
于洪志,高 璐,李永宏,郑文思
该文选取具有代表意义的藏语卫藏方言的拉萨话、安多方言的夏河话以及康方言的德格话进行语言调查;整理归纳藏语三大方言音系,包括单辅音、复辅音、单元音、复合元音和辅音韵尾,以及三大方言声调;依照SAMPA的规则建立适合于藏语三大方言的机读音标,并设计了SAMPA_ST的自动标注系统,实现文音转换功能,为语音的韵律特征分析和语音工程的研究提供依据。
2012 Vol. 26 (4): 66-73 [摘要] ( 312 ) [HTML 1KB] [PDF 2670KB] ( 636 )
73 中文歧义研究25年
——以《中文信息学报》论文为例
张禄彭1,易绵竹2,周 云3
过去的25年间中文信息处理领域的歧义研究取得了长足进步,涌现出大量科研成果。该文试图以中国中文信息学会会刊《中文信息学报》刊载的论文为例,着重从研究对象和研究方法两个方面观察探讨歧义研究的进展、特点和大体趋势。文章分时间段从多个角度对中文歧义研究进行定量统计分析,述评结合,针对歧义研究的现状提出了建议。
2012 Vol. 26 (4): 73-85 [摘要] ( 262 ) [HTML 1KB] [PDF 4578KB] ( 684 )
85 基于随机特征子空间的半监督情感分类方法研究
苏 艳,居胜峰,王中卿,李寿山,周国栋
情感分类是目前自然语言处理领域的一个热点研究问题。该文关注情感分类中的半监督学习方法(即基于少量标注样本和大量未标注样本进行学习的方式),提出了一种新的基于动态随机特征子空间的半监督学习方法。首先,动态生成多个随机特征子空间;然后,基于协同训练(Co-training)在每个特征子空间中挑选置信度高的未标注样本;最后使用这些挑选出的样本更新训练模型。实验结果表明我们的方法明显优于传统的静态产生方式及其他现有的半监督方法。此外该文还探索了特征子空间的划分数目问题。
2012 Vol. 26 (4): 85-91 [摘要] ( 418 ) [HTML 1KB] [PDF 1659KB] ( 671 )
91 评价对象及其倾向性的抽取和判别
顾正甲1,姚天昉2
基于主观性文本的意见挖掘技术是一种在多种领域都有广泛应用的语言技术。该文把评价性语素作为研究对象,在哈尔滨工业大学的语言技术平台(LTP)对语料处理结果的基础上,利用SBV极性传递法为核心,引入指代消解、ATT链算法和互信息法对语料中的评价对象进行抽取,并在对极性词进行倾向性判别时,充分考虑了不同类型的句子,以及副词、连词对极性的影响,尤其是对一般副词、贬义副词和副词“太”作了详细地探讨,最后提出了一个综合的解决方案。该方案结构层次清晰,易于理解,并且其算法复杂度较低。但由于利用的是较为浅层的句法分析结果和基于经验的语言模式方法,该文提出的方案对句法分析结果的依赖度较大。
2012 Vol. 26 (4): 91-98 [摘要] ( 467 ) [HTML 1KB] [PDF 1504KB] ( 766 )
98 基于非完备信息系统的评价对象情感聚类
王素格1,2,尹学倩3,李 茹1,2,张 杰3,吕云云1
该文利用领域本体对产品评论文本中的评价对象进行抽取和整合,在此基础上,建立产品性能的非完备信息系统,将特征的情感倾向寓于特征的权重计算之中。对非完备信息系统,给出了基于差别矩阵的启发式特征约简方法,通过特征降维处理,达到了减少特征的冗余度和数据稀疏性的目的。对降维后的非完备信息系统采用K-Means聚类算法,实现了评价对象情感聚类。为了验证该文提出方法的有效性,在真实汽车评论文本数据上进行实验, 实验结果表明,在对特征进行一定程度的降维后,仍表现出较好的聚类效果。
2012 Vol. 26 (4): 98-103 [摘要] ( 307 ) [HTML 1KB] [PDF 638KB] ( 618 )
103 基于情绪词的非监督中文情感分类方法研究
代大明,王中卿,李寿山,李培峰,朱巧明
情感分类任务旨在识别文本所表达的情感色彩信息(例如,褒或者贬,支持或者反对)。该文提出一种基于情绪词的中文情感分类方法,使用大规模未标记数据和少量情绪词实现情感分类。具体来讲,首先使用情绪词从未标注数据中抽取高正确率的自动标注数据作为训练样本,然后采用半监督学习方法训练分类器进行情感分类。实验表明,该文提出的方法在产品评论与酒店评论两个领域的情感分类任务中取得了较好地分类效果。
2012 Vol. 26 (4): 103-109 [摘要] ( 314 ) [HTML 1KB] [PDF 1496KB] ( 940 )
109 微博客中转发行为的预测研究
张 旸,路 荣,杨 青
在微博客中,转发对信息的传播有着至关重要的影响,各种各样的信息正是通过转发得以在微博客上广泛且迅速的传播。另外在很多领域中,例如,市场营销、政治选举和热点提取等,也都需要深入探讨转发的各种特性。该文中,我们以Twitter为例,通过预测一条tweet是否会被转发,研究微博客中的转发行为。为解决这个问题,我们使用机器学习中的分类算法,并通过对微博上不同特征的重要性进行分析,提出了基于特征加权的预测模型。实验表明,我们的特征加权模型很好的解决了微博客中的转发预测问题,大约86%的微博能被成功预测。
2012 Vol. 26 (4): 109-115 [摘要] ( 388 ) [HTML 1KB] [PDF 1879KB] ( 977 )
115 采用数据挖掘的自动化推荐技术的研究
陈庆章, 汤仲喆,王 凯,姚 敏,裴玉洁
随着网络的迅速发展,各种数据量变得庞大且分散,利用关键词检索数据的传统方式变得相当费时。为了减少用户在网络上的搜寻时间,提供用户更确切的内容信息,自动化推荐系统(Automatic Recommender System)应运而生。该研究将人工神经网络中的自适应共振理论(Adaptive Resonance Theory,ART)和数据挖掘技术结合起来,建构了一个可自动聚类族群特征且能挖掘出关联规则的自动化在线推荐机制。同时将用于用户聚类的ART算法进行了改进,提出了MART聚类算法,使由推荐系统得出的结果变得更加合理和灵活。
2012 Vol. 26 (4): 115-122 [摘要] ( 325 ) [HTML 1KB] [PDF 2011KB] ( 606 )
122 基于幂律分布的网络用户快速排序算法
张 玥,张宏莉,张伟哲
随着网络论坛、博客、微博的发展,引出社会网络中的用户排序问题。将在线网络论坛中用户映射为节点,用户评论过程中形成的回复关系映射为有向关联图,其节点度符合幂律分布。且论坛中用户的主题发布行为和回复关系符合Pagerank算法的互增强和随机游走特性,因此选用Pagerank算法排序用户影响力。该文提出的研究问题 如何提高用户排序应用中数据的存储和运行效率。天涯网络论坛中80%以上用户入度为0,据此,根据入度是否为0划分为两个集合,对入度为0集合按出度构造链接表,设计了基于集合划分的高效排序算法SD-Rank。SD-Rank时空复杂性为O(V′),V′为入度非0节点集。对天涯网络论坛真实用户数据的实验结果表明 SD-Rank算法时空复杂性优于Pagerank算法。
2012 Vol. 26 (4): 122-129 [摘要] ( 273 ) [HTML 1KB] [PDF 3103KB] ( 601 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发