中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2014年 28卷 1期
刊出日期:2014-01-07

机器翻译
综述与前瞻
信息检索与社会计算
少数民族语言信息处理
评论与报道
 
   
综述与前瞻
1 语言计算的重要国际前沿
孙茂松,刘挺,姬东鸿,穗志方,赵军,张钹,吾守尔·斯拉木,俞士汶,朱军,李建民,刘洋,王厚峰,吐尔根·依布拉音,刘群,刘知远
该文在互联网规模语言信息处理的语境下,从语言计算基础模型、语言分析、语言资源建设、机器翻译、文本内容理解与问答等多个方面,对国内外相关重要动态进行了评述,讨论了语言计算的若干前沿问题及其对中文信息处理近期研究工作所提出的要求。
2014 Vol. 28 (1): 1-8 [摘要] ( 610 ) [HTML 1KB] [PDF 1094KB] ( 1780 )
9 语言网络研究进展
韩普,王东波,路高飞,苏新宁
语言网络作为一个新的研究领域,其研究正在迅速崛起,目前已经吸引了不少领域的研究者们的关注。该文首先简要介绍了语言网络的特点、常用的统计特征以及相关的网络模型;其次,根据语言构成单位以及当前语言网络研究热点,将语言网络分为语音网络、共现网络、依存句法网络、概念语义网络,并详细介绍了各类语言网络研究的主要进展。最后总结了语言网络研究的现状并给出了展望。
2014 Vol. 28 (1): 9-18 [摘要] ( 430 ) [HTML 1KB] [PDF 1390KB] ( 890 )
19 基于语言模型的有监督词义消歧模型优化研究
杨陟卓,黄河燕
词义消歧是自然语言领域中重要的研究课题之一。目前,有监督词义消歧方法已经是解决该问题的有效手段。但是,由于缺乏大规模的训练语料,有监督方法还不能取得满意的效果。该文提出一种基于语言模型的词义消歧优化模型,该模型采用语言模型优化传统的有监督消歧模型,充分利用有监督和语言模型两种模型的消歧优势,共同推导歧义词的词义。该模型可以在训练语料不足的情况下,有效的提高词义消歧效果。在真实数据上表明,该方法的消歧性能超过了参加SemEval-2007:task #5评测任务的最好的有监督词义消歧系统。
2014 Vol. 28 (1): 19-25 [摘要] ( 661 ) [HTML 1KB] [PDF 1764KB] ( 827 )
26 多种语义特征在突发事件新闻中的共指消解研究
庞宁,杨尔弘
提高突发事件应对的关键在于快速地收集和提取相关新闻报道中的有用信息,共指消解是信息提取研究的重要子任务。该文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,综合对比了语义类特征、语义角色特征,以及基于维基百科的语义相关特征,重定向特征及上下文特征在测试集上的效果。实验结果表明,除单纯使用语义角色特征会使系统F值下降1.31%以外,其余各种语义知识对共指消解模型的结果均有所提高。
2014 Vol. 28 (1): 26-32 [摘要] ( 456 ) [HTML 1KB] [PDF 841KB] ( 978 )
信息检索与社会计算
33 Weighted-Tau Rank: 一种采用加权Kendall Tau的面向排序的协同过滤算法
孙建凯,王帅强,马军
已知的面向排序的协同过滤算法主要有两个缺点:计算用户相似度时只考虑用户对同一产品对的偏好是否一致,而忽略了用户对产品对的偏好程度以及该偏好在用户间的流行度; 进行偏好融合和排序时需要中间步骤来构建价值函数然后才能利用贪婪算法产生推荐列表。为解决上述问题: 我们利用类TF-IDF加权策略对用户的偏好程度及偏好流行度进行综合考量,使用加权的Kendall Tau相关系数计算用户间的相似度;进行偏好融合与排序时则使用基于投票的舒尔茨方法直接产生推荐列表。在两个电影数据集上,本文提出的算法在评测指标NDCG上的效果要明显优于其他流行的协同过滤算法。
2014 Vol. 28 (1): 33-40 [摘要] ( 768 ) [HTML 1KB] [PDF 2173KB] ( 823 )
41 基于吸收马尔可夫链的子话题发现方法
魏明川,朱俊杰,张瑾,张凯,程学旗,任彦
受互联网文本信息话题内容多元性,演化性等特点的影响,传统的话题检测模型对子话题粒度的选取和检测质量很难保证。针对该问题,该文提出一种基于吸收马尔可夫链的子话题划分算法,该算法对基于网页聚类生成的话题关键词进行组合生成子话题,并以吸收马尔可夫链对子话题进行吸收衍化,进行重排序生成结果子话题。实验结果表明,该算法能同时保证生成子话题的重要性和多样性。
2014 Vol. 28 (1): 41-46 [摘要] ( 312 ) [HTML 1KB] [PDF 1459KB] ( 808 )
47 特定事件微博与新闻报道话题对比研究
周振宇,李芳
该文描述了基于特定事件的新闻报道和微博在话题层面的对比研究。首先利用LDA话题模型抽取两种媒体上关于特定事件的话题,然后提出了话题关注度、差异度、演化度的定义和计算公式,改进了不同媒体话题差异度的计算方法,最后,选取四个不同种类的事件,进行实验对比与分析,结果显示,关于同一事件,1)微博上评论性话题较多,话题关注度值比较接近;新闻报道上事实性话题较多,话题关注度值差异较大;2)微博与新闻报道对评论性话题词汇差异度大,事实性话题词汇差异度小;3)微博上评论性话题持续时间较长,内容变化较少;新闻报道上事实性话题持续时间较长,内容变化较少。
2014 Vol. 28 (1): 47-55 [摘要] ( 481 ) [HTML 1KB] [PDF 3480KB] ( 963 )
56 社交网络中的社团结构挖掘
范超,王厚峰
社交网络已经成为现代人们在线交流并交换信息的重要途径之一。以国内的人人网为例,大量的年轻人,尤其是学生,以此为平台,相互讨论感兴趣的话题。人与人之间因为学习关系、工作关系、共同的兴趣等诸多因素关联起来;以大学生交流为主体的社交网则更有可能因为在相同院、系、所而关联在一起,从而呈现出社团结构。该文以人人网的真实数据,使用CNM算法来验证这一假设;同时,还利用社会网络的结构知识对CNM算法作了改进,提高了社团发现的精度。所挖掘的社团结构关系还表明,高校不同院系和学科形成的社团具有各自的特点。
2014 Vol. 28 (1): 56-63 [摘要] ( 856 ) [HTML 1KB] [PDF 1990KB] ( 813 )
64 基于用户意图识别的查询推荐研究
罗成,刘奕群,张敏,马少平,茹立云,张阔
信息检索的效果很大程度上取决于用户能否输入恰当的查询来描述自身信息需求。很多查询通常简短而模糊,甚至包含噪音。查询推荐技术可以帮助用户提炼查询、准确描述信息需求。为了获得高质量的查询推荐,在大规模“查询-链接”二部图上采用随机漫步方法产生候选集合。利用摘要点击信息对候选列表进行重排序,使得体现用户意图的查询排在比较高的位置。最终采用基于学习的算法对推荐查询中可能存在的噪声进行过滤。基于真实用户行为数据的实验表明该方法取得了较好的效果。
2014 Vol. 28 (1): 64-72 [摘要] ( 975 ) [HTML 1KB] [PDF 2993KB] ( 2407 )
73 搜索引擎用户行为与用户满意度的关联研究
刘健,刘奕群,马少平,张敏,茹立云,张阔
用户满意度是以用户为中心的搜索引擎性能评价的一个重要分支,区别于传统基于查询与文档相关性的评价方法,基于用户满意度的性能评价能够更加全面、客观地对搜索引擎性能进行评价。该文通过设计搜索实验平台,在尽量不影响用户正常搜索过程的前提下收集用户的搜索行为及其满意度评价,通过用户行为分析的方法挖掘用户群体行为特征与用户查询满意度之间的关联关系。相关结论对提高搜索引擎性能、改善用户查询体验具有一定的参考意义。
2014 Vol. 28 (1): 73-79 [摘要] ( 513 ) [HTML 1KB] [PDF 1816KB] ( 858 )
80 一种基于内存的高效在线数据处理服务框架
林祥辉,张瑾,黄康平,许磊,许洪波,程学旗,程工
在海量数据处理环境下,传统的基于中心数据库的架构已经无法满足大规模的数据处理应用中高并发高数据读写的需求,而串行的工作模式也使得数据分析的时效性得不到有效的保证,已经严重地影响了用户体验。该文从应用架构的角度出发,提出了一种基于内存的高效在线数据处理服务框架,通过多索引的高效数据存取方法和基于发布/订阅模式的数据访问控制机制,在有效减少用户对中心数据库的读写请求的同时提高了数据处理的时效性。实验结果表明该文提出的基于内存的高效在线数据处理服务框架能够有效提高数据库的响应速度,缩短数据处理延时。
2014 Vol. 28 (1): 80-86 [摘要] ( 418 ) [HTML 1KB] [PDF 4556KB] ( 748 )
机器翻译
87 引入集成学习的最大熵短语调序模型
何钟豪,苏劲松,史晓东,陈毅东,黄研洲
基于最大熵的括号转录语法模型具有翻译能力强、模型训练简单的优点,成为近些年统计机器翻译研究的热点。然而,该模型存在短语调序实例样本分布不平衡的缺点。针对该问题,该文提出了一种引入集成学习的短语调序模型训练方法。在大规模数据集上的实验结果表明,我们的方法能有效改善调序模型的训练效果,显著提高翻译系统性能。
2014 Vol. 28 (1): 87-93 [摘要] ( 422 ) [HTML 1KB] [PDF 828KB] ( 917 )
94 现代汉语常用动词释义对比研究--以《现代汉语词典》(第六版)和《重編國語辭典修訂本》为例
刘珺,徐德宽,马梦佳,陈淑梅
动词在语言中的地位十分重要,而汉语更是一种动词性语言。了解动词的释义,是研究动词的一个重要途径。该文采用《现代汉语词典》(第六版)和《重編國語辭典修訂本》为对比研究的材料,参考新汉语水平考试大纲,选取三者共有的动词词条进行研究,着重对比两本词典对动词的释义,找出普通话和台湾地区所用标准语两者在动词方面的差异,减少两岸交流中因词义不同所产生的误会,更好地促进两岸交流。
2014 Vol. 28 (1): 94-99 [摘要] ( 365 ) [HTML 1KB] [PDF 917KB] ( 786 )
少数民族语言信息处理
100 维吾尔语音素的声学特征分析
王辉,努尔麦麦提·尤鲁瓦斯,吾守尔·斯拉木
该文对不同语速下,人工标注的维吾尔语连续语音语料中各音素进行共振峰频率、音长、音强的统计分析,并完成辅-元结构下的塞音、塞擦音的声学特征分析。该文通过美尔频率倒谱系数与共振峰频率等声学特征的融合及模型状态数的修改,对维吾尔语音素识别的声学模型进行了改进,并验证了不同声学特征对音素识别的影响。相比于基线系统,改进后声学模型的识别率取得一定提升。同时,利用语音学知识分析维吾尔语易混淆音素产生原因,为音素识别声学模型的进一步改进提供参考依据。
2014 Vol. 28 (1): 100-106 [摘要] ( 386 ) [HTML 1KB] [PDF 3048KB] ( 812 )
107 最大熵和条件随机场模型相融合的藏文人名识别
加羊吉,李亚超,宗成庆,于洪志
藏文人名识别是藏文信息处理领域研究的难点之一,其识别效果直接影响到藏文自动分词的精度和相关应用系统的性能,包括藏汉翻译、藏文信息检索、文本分类等。该文在分析藏文人名构成规律和特点的基础上,提出了一种最大熵和条件随机场相融合的藏文人名识别方法。实验表明,该方法可以获取较好的识别效果,在我们的测试集上F-测度值到达了93.08%。
2014 Vol. 28 (1): 107-112 [摘要] ( 493 ) [HTML 1KB] [PDF 2186KB] ( 844 )
113 计算机识别藏语虚词的方法研究
高定国,扎西加,赵栋材
藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提。该文在论述藏语虚词在藏语文本中的作用和使用方法的基础上,分析了计算机识别藏语虚词的难度,提出了一个计算机识别藏语虚词的方法,并用2525句典型藏文句子进行了验证,对结果进行分析发现藏文虚词识别的正确率高达97.0768%。
2014 Vol. 28 (1): 113-117 [摘要] ( 451 ) [HTML 1KB] [PDF 1846KB] ( 965 )
118 维吾尔文网页研究及Android维文浏览器的实现
邓俊,吾守尔·斯拉木,艾尼宛尔·托乎提,袁廷磊,赵志成
通过二次修改WebKit内核来定制浏览器功能是当前嵌入式应用开发的热点。在研究Android平台浏览器引擎WebKit的基础上,综合分析多款浏览器在访问维吾尔文网站时出现的显示问题,找出访问维文网页时显示异常的原因。最后根据维吾尔文文字特点进行研究、设计维文浏览器架构,提出在应用层开发维文网页渲染引擎,实现Android平台的维吾尔文浏览器。
2014 Vol. 28 (1): 118-124 [摘要] ( 571 ) [HTML 1KB] [PDF 6398KB] ( 727 )
评论与报道
125 内容丰富多彩,阐述深入浅出--评《统计自然语言处理》(第2版)
俞士汶
2014 Vol. 28 (1): 125-126 [摘要] ( 466 ) [HTML 1KB] [PDF 324KB] ( 870 )
中文信息学报
·编辑部2023年春节放假通知
·2023年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发