中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2016年 30卷 2期
刊出日期:2016-04-20

机器翻译
少数民族及周边语言信息处理
情感分析与社会计算
信息检索与问答系统
语言分析与计算
 
   
语言分析与计算
1 汉语概念复合块的自动分析
仵永栩,吕学强,周 强,关晓炟,
为解决句法分析任务中的块边界识别和块内结构分析问题,该文基于概念复合块描述体系进行了块分析探索。通过概念复合块与以往的基本块和功能块描述体系的对比分析,深入挖掘了概念复合块自动分析的主要难点所在,提出了一种基于“移进-归约”模型的汉语概念复合块自动分析方法。在从清华句法树库TCT中自动提取的概念复合块标注库上,多层次、多角度对概念复合块自动分析性能进行了纵向与横向评估,初步实验结果证明了该分析方法对简单概念复合块分析的有效性,为后续进行更复杂的概念复合块的句法语义分析研究打下了很好的基础。
2016 Vol. 30 (2): 1-11 [摘要] ( 505 ) [HTML 1KB] [PDF 3568KB] ( 1056 )
12 融合分词隐层特征的汉语基本块识别
李国臣, 刘展鹏,王瑞波,李济洪
该文以字为基本标注单位,构建了一种汉语基本块识别的神经网络学习模型。模型联合分词任务的神经网络学习模型与基本块识别任务模型,将分词任务模型中学习得到的隐层特征融入基本块识别的模型中,两模型相互交替优化学习模型参数,并实现了以整句似然函数(而非单字似然函数)作为优化目标的算法。实验结果表明:1)以整句似然函数为优化目标的基本块识别的F值比单字似然情形要高出1.33%,特别是在多字块识别中,其召回率比单字似然情形要高出4.68%;2)融合分词任务模型中的隐层特征的汉语基本块识别模型的结果比不做融合的模型要高出2.17%,说明融合分词隐层特征的交替联合学习方法是有效的。
2016 Vol. 30 (2): 12-17 [摘要] ( 568 ) [HTML 1KB] [PDF 2450KB] ( 944 )
18 基于PDTB的自动显式篇章分析器
李 生,孔 芳 ,周国栋
自动篇章处理是自然语言处理中非常有挑战的一个任务,对自然语言处理的其他任务,如问答系统,自动文摘以及篇章生成都有重要的作用。近年来,大规模篇章语料PDTB的出现为篇章研究提供了一个公共的平台。该文在PDTB语料之上提出了一个完整的基于条件随机场模型的显式篇章分析平台,该平台包含连接词识别、篇章关系分类和关系论元提取三个子任务。给出了在PDTB上各模块的实验结果,并针对错误传播问题,给出了完整平台的性能及详细分析。
2016 Vol. 30 (2): 18-25 [摘要] ( 668 ) [HTML 1KB] [PDF 2988KB] ( 1161 )
26 一种基于特征映射的中文专家消歧方法
潘 霄,余正涛,郭剑毅,毛存礼,杨秀贞
针对中文专家页面特点,以及用于消歧的基准专家页面中信息涵盖不全的问题,该文提出一种基于特征映射的中文专家消歧方法。首先,采用条件随机场模型,从基准专家页面和待消歧页面中提取出所定义的12维人物属性特征,并利用最大熵分类模型,结合已有消歧结果训练出各属性特征的权重;然后,针对某个专家的基准页面,计算待消歧页面与该页面的相似度,根据设定的阈值判断该页面是否单独成类,若不是单独成类,则利用特征映射,扩充该页面的属性特征,结合模糊聚类方法,得到与该页面为一类的页面。在“自然语言处理”及“机器学习”领域进行中文专家消歧实验,结果表明提出的方法能有效对中文专家页面进行消歧。
2016 Vol. 30 (2): 26-31 [摘要] ( 423 ) [HTML 1KB] [PDF 2225KB] ( 910 )
情感分析与社会计算
32 一种策略融合的跨语言文本情感倾向判别方法
张 鹏,王素格,李德玉,
随着互联网的迅速发展,网络资源呈现领域开放性和语言多样性的特点。而语言多样性将造成网络信息交流上的障碍,整合多语言数据资源让用户快速了解其他语言信息具有重要的应用价值和现实意义。该文结合跨语言情感倾向判别的特点,提出策略融合的跨语言文本情感倾向判别框架。通过跨语言一致文本和跨语言混合概念空间的文本两种策略,构建基于双语协同文本情感倾向判别框架和基于跨语言特征混合文本情感倾向判别框架。在两种判别框架的基础上,融合两种框架判别结果,给出文本整体情感倾向性。实验表明,该文提出的融合策略在跨语言文本情感倾向判别上是有效的。
2016 Vol. 30 (2): 32-40 [摘要] ( 711 ) [HTML 1KB] [PDF 3270KB] ( 1120 )
41 基于多分类器投票集成的半监督情感分类方法研究
黄 伟,范 磊
情感分类是目前自然语言处理领域的一个具有挑战性的研究热点,该文主要研究基于半监督的文本情感分类问题。传统基于Co-training的半监督情感分类方法要求文本具备大量有用的属性集,其训练过程是线性时间的计算复杂度并且不适用于非平衡语料。该文提出了一种基于多分类器投票集成的半监督情感分类方法,通过选取不同的训练集、特征参数和分类方法构建了一组有差异的子分类器,每轮通过简单投票挑选出置信度最高的样本使训练集扩大一倍并更新训练模型。该方法使得子分类器可共享有用的属性集,具有对数时间复杂度并且可用于非平衡语料。实验结果表明我们的方法在不同语种、不同领域、不同规模大小,平衡和非平衡语料的情感分类中均具有良好效果。
2016 Vol. 30 (2): 41-49 [摘要] ( 822 ) [HTML 1KB] [PDF 3308KB] ( 1196 )
50 基于因果模型的主题热度计算与预测方法
杜 慧,郭 岩,范意兴,张 瑾,余智华,程学旗
网络是目前最重要的信息传播渠道,其自由性和丰富性使得信息迅速传播。挖掘网络中的热点主题对政府政策的制定、企业经营决策的调整可以提供强有力的支持,并能够满足网民对热点主题的关注需求。主题数量的庞大使得主题热度值的计算尤为重要,该文分析热度的形成原因,基于因果模型并采用面板数据,给出一种较为客观可行的主题热度计算模型。该模型使用易于获取的数据进行计算,给出较为客观的热度度量,进而便于不同主题、不同日期间的热度对比。在此基础上,通过对热度变化规律的考察,提出一种基于多峰高斯曲线拟合热度变化进行主题热度预测的思路。
2016 Vol. 30 (2): 50-55 [摘要] ( 833 ) [HTML 1KB] [PDF 2158KB] ( 1037 )
56 社交网络用户标签预测研究
刘 列,邢千里,刘奕群,张 敏,马少平
随着社交网站的流行以及用户的大规模增加,社交网络用户行为分析已经成为社交网站进行网站维护、性能优化和系统升级的重要基础,也是网络知识挖掘和信息检索的重要研究领域。为了更好地理解社交网络用户添加个人标签的行为特征,该文基于大约263万个微博用户的真实数据,对用户标签的分布进行了研究和分析。我们主要考察了用户标签的宏观分布特征,以及用户标签与关注对象的标签分布之间的联系,发现微博用户给自己添加标签时,在开始阶段倾向于使用反映个性的标签,之后会出于从众心理而选用大众化标签。我们将研究发现运用到基于关注关系的标签预测算法中,结果证实相关分析对于社交网站的标签推荐等课题具有一定的参考意义。
2016 Vol. 30 (2): 56-63 [摘要] ( 742 ) [HTML 1KB] [PDF 2503KB] ( 1177 )
64 一种融合地理位置信息的协同过滤推荐算法
鲁 骁 ,王书鑫 ,王 斌 ,鲁 凯
目前,基于用户消费数据构建的推荐系统在电子商务领域发挥着越来越大的作用,而在这些数据中,商家本身具有的地理位置信息忠实地记录了用户的消费痕迹,能够有效反映出用户在地理位置维度上的个人偏好信息,从而对推荐系统具有非常重要的意义。现有工作一般只利用了用户对地点的评价以及地点之间的距离,无法反映出不同地点之间的关联关系,以及用户在不同地点中的偏好权重问题。该文从地理区域划分的角度出发,研究了用户在区域范围内的消费兴趣偏好,以及不同粒度级别的区域划分方法对推荐模型的影响,探索了在推荐过程中有效融合地域信息的方法,考虑了包括地区的全局性影响、用户对地区的偏好等,结合这些因素提出了融合地理位置信息的推荐模型LGE、LGN及LRSVD。通过在Yelp数据集上的实验表明,这些模型相比于传统的推荐算法能够有效提高预测效果。
2016 Vol. 30 (2): 64-73 [摘要] ( 552 ) [HTML 1KB] [PDF 3433KB] ( 978 )
74 利用社交网络的影响力骨架探索信息传播
黄俊铭, 沈华伟, 程学旗
理解社交网络上的信息传播机制,通常包括对拓扑结构的分析和对用户行为的分析。由于社交网络上连边的强度具有异质性,只有一部分连边对于信息传播有实质作用,构成隐藏在社交网络中的影响力骨架。对影响力骨架的拓扑研究可帮助我们获得比直接研究社交网络拓扑结构更深入的认识。我们从连边正负性和个体节点角色分化入手,探讨了微观层面连边和节点在信息传播中的作用,进而从宏观层面分析信息传播所依赖的影响力骨架的连通性和扩散效率,发现信息传播具有一定程度的脆弱性,且其传播效率低于对社交网络本身研究的预期。
2016 Vol. 30 (2): 74-82 [摘要] ( 538 ) [HTML 1KB] [PDF 2882KB] ( 1499 )
83 基于在线社会网络的用户影响力研究
许丹青,刘奕群,张 敏,马少平
对大规模的在线社会网络图结构进行了较为系统的分析,结果表明社会网络的入度、出度、发文数等基本符合幂律分布。社会网络的小世界属性也使得强连通关系呈现“纺锤体”形状。该文从用户的阅读概率角度引入用户的发文行为、浏览行为与标签社区小世界属性等对用户的社会影响力模型进行建模。实验结果显示PTIM模型融合了发文行为与小世界属性等特性,在最具影响力用户节点、用户粉丝数、认证用户数与人工标注的相对用户影响力大小等指标上均表现出稳定的性能。
2016 Vol. 30 (2): 83-89 [摘要] ( 621 ) [HTML 1KB] [PDF 2376KB] ( 1393 )
90 基于用户相似性传递的跨平台交叉推荐算法
李 超,周 涛, 黄俊铭,程学旗,沈华伟
个性化推荐系统在电子商务领域中的广泛应用带来了巨大的经济效益和良好的用户体验。由于用户数据往往分布在多个不同的网站,单个网站的推荐系统受制于数据稀疏性的限制,难以获得准确的推荐效果。该文提出了一种基于传递相似性的交叉推荐系统算法,可以利用多个网站平台数据计算不同网站中的用户的相似度,从而很大程度上克服了推荐系统中的数据稀疏性以及冷启动问题。结果显示,该交叉推荐算法与传统的针对单个数据集的推荐算法相比,推荐的精确性有一至两倍的提高。
2016 Vol. 30 (2): 90-98 [摘要] ( 687 ) [HTML 1KB] [PDF 2657KB] ( 2010 )
信息检索与问答系统
99 一种支持混合语言的并行查询纠错方法
颛 悦,熊锦华,马宏远,程舒杨,程学旗
中文信息检索系统中的查询语句包含中文字、拼音、英文等多种形式,而有些查询语句过长,不利于纠错处理。现有的查询纠错方法不能很好的解决中文检索系统中的混合语言与中文长查询的问题。为了解决上述两个问题,该文提出了一种支持混合语言的并行纠错方法。该方法通过对混合语言统一编码,建立统一编码语言模型和异构字符词典树,并根据语言特点制定相应的编辑规则对查询词语进行统一处理,其中,针对中文长查询,提出双向并行的纠错模型。为了并行处理查询语句,我们在字符词典树和语言模型的基础上提出了逆向字符词典树和逆向语言模型的概念。模型中使用的训练语料库是从用户查询日志、网页点击日志、网页链接信息等文件中提取的高质量文本。实验表明,与单向查询纠错相比,支持混合语言的并行纠错方法在准确率上提升了9%,召回率降低了3%,在速度上提升了40%左右。
2016 Vol. 30 (2): 99-106 [摘要] ( 602 ) [HTML 1KB] [PDF 2759KB] ( 1016 )
107 结合句子级别检索的信息检索模型
左家莉,王明文,吴水秀,万剑怡
查询词之间的距离较为接近的文档,相关的可能性更大,将这种距离信息用于信息检索模型的构造可有效提高检索的性能。然而直接估计查询词在文档中的距离需要大量的训练文本,且计算复杂度高。该文提出了一种结合句子级别检索的信息检索模型,将文档分为若干个窗口,通过计算句子和查询的相关度考察查询词在给定窗口中的共现性,该方法可增大那些查询词彼此靠近的文档的相关度,从而使得检索模型可返回更为相关的文档。标准数据集上的实验结果表明所提出的模型可以取得较好的性能。
2016 Vol. 30 (2): 107-112 [摘要] ( 440 ) [HTML 1KB] [PDF 2070KB] ( 1007 )
113 查询会话中带时间因子的隐式负反馈研究
陈振宏,俞晓明,刘 悦,程学旗
隐式相关反馈常被用于提升检索系统的性能,目前大部分工作集中在研究隐式正反馈。该文同时考虑隐式正负反馈,将查询会话中被点击网页前的未被点击网页作为隐式负反馈信息,通过引入时间因子,估计用户在未被点击网页的标题和摘要上的停留时间,推断隐式负反馈与用户兴趣和行为的关系,达到优化检索结果的目的。在TREC Session 2011和2012数据集上的实验,验证了该文提出的带时间因子的隐式正负反馈算法TIPNF的有效性。
2016 Vol. 30 (2): 113-120 [摘要] ( 574 ) [HTML 1KB] [PDF 2990KB] ( 948 )
121 基于内容和用户行为的查询聚类
程舒杨,熊锦华,公 帅,程学旗
现有方法没有有效利用查询文本特征、点击行为和session信息来挖掘用户的搜索意图,获取的查询特征对于多意图查询在不同意图下的区分度不足,对于多意图查询的相关查询聚类效果不佳。针对以上问题,该文提出了基于查询图信息的GPLSI模型,并利用该模型学习所得的查询特征进行查询聚类。基于查询图信息的GPLSI模型利用查询的词语、点击和session共现现象,从查询的文本特征、点击行为和session信息等多个方面来模拟查询意图的产生和表现,学习查询在不同搜索意图上的概率分布。最后,实验结果验证了基于查询图信息的PLSI模型用于查询相似度计算和多意图查询聚类中的有效性。
2016 Vol. 30 (2): 121-127 [摘要] ( 667 ) [HTML 1KB] [PDF 2199KB] ( 1616 )
128 基于用户偏好与语言模型的个性化引文推荐
刘亚宁,严 睿,闫宏飞
根据引文上下文,自动为科研人员推荐备引用的论文列表具有很大的实用价值和研究意义。在科研人员写作时,一个为引用符自动推荐引文的系统,会为科研人员节省大量的时间。对于引文推荐问题,过去的工作均主要把注意力集中到基于内容的研究上。该文认为引文推荐,不能只根据内容进行通用推荐,还需要根据不同研究者的偏好进行个性化推荐。该文利用用户的发表及引用历史,结合语言模型,构建出一个个性化引文推荐模型——PCR模型。在结合用户引用倾向性与内容相关性后,与传统的基于内容的语言模型相比,PCR模型在recall@10上获得了71.01%的性能提升,在MAP上获得了70.23%的性能提升。
2016 Vol. 30 (2): 128-135 [摘要] ( 637 ) [HTML 1KB] [PDF 2838KB] ( 836 )
136 基于视觉显著计算的图像语义检索方法
柳 伟 ,陈 旭 ,梁永生
网络标签已经开始广泛地用于图像内容的标注和分享,由于图像本身的差异和人们对图像的不同理解,对图像语义检索提出了新的挑战。该文首先引入视觉显著模型,突出图像的显著信息;然后提取视觉显著特征,建立图像内容的相似关系;最后基于随机漫步模型平衡图像内容及网络标签间的关系。实验表明该文提出的方法能够有效地实现图像的语义理解并用于图像检索。
2016 Vol. 30 (2): 136-141 [摘要] ( 419 ) [HTML 1KB] [PDF 2309KB] ( 788 )
142 基于本体和语义文法的上下文相关问答
王东升,王 石,王卫民,刘亮亮,符建辉
在问答系统中,用户的提问通常不是孤立的,而是使用连续的多个相关的问题来获取信息,用户在与这样的系统进行交互时,才会感觉更自然。在已构建的非上下文相关问答系统的基础上,该文提出了一种可以处理上下文相关问题的方法并开发了系统OSG-IQAs。方法首先识别当前问题是否是一个从问题(follow-up),并判别其与前面问题的具体的相关类别,然后根据相关类别,利用话语结构中的信息对当前的follow-up问题进行重构,并提交到非上下文相关问答系统中。最后,将方法在两个不同规模的领域进行测试,并与相关系统或方法进行比较,测试结果表明,该方法具有较好的可扩展性。在总体测试中,该方法比基线系统获得了更好地效果,同时利用手工将所有上下文相关问题进行上下文消解,系统与此也进行了比较,并获得了相近的性能。
2016 Vol. 30 (2): 142-152 [摘要] ( 583 ) [HTML 1KB] [PDF 4433KB] ( 1013 )
153 利用维基百科实体增强基于图的多文档摘要
陈维政,严 睿,闫宏飞,李晓明
针对基于图的多文档摘要,该文提出了一种在图排序中结合维基百科实体信息增强摘要质量的方法。首先抽取文档集合中高频实体的维基词条内容作为该文档集合的背景知识,然后采用PageRank算法对文档集合中的句子进行排序,之后采用改进的DivRank算法对文档集合和背景知识中的句子一起排序,最后根据两次排序结果的线性组合确定文档句子的最终排序以进行摘要句的选取。在DUC2005数据集上的评测结果表明该方法可以有效利用维基百科知识增强摘要的质量。
2016 Vol. 30 (2): 153-159 [摘要] ( 599 ) [HTML 1KB] [PDF 2713KB] ( 977 )
160 基于迁移学习的蛋白质交互关系抽取
李丽双,郭 瑞,黄德根,周惠巍
作为生物医学信息抽取领域的重要分支,蛋白质交互关系(Protein-Protein Interaction,PPI)抽取具有重要的研究意义。目前的研究大多采用统计机器学习方法,需要大规模标注语料进行训练。训练语料过少,会降低关系抽取系统的性能,而人工标注语料需要耗费巨大的成本。该文采用迁移学习的方法,用大量已标注的源领域(其它领域)语料来辅助少量标注的目标领域语料(本领域)进行蛋白质交互关系抽取。但是,不同领域的数据分布存在差异,容易导致负迁移,该文借助实例的相对分布来调整权重,避免了负迁移的发生。在公共语料库AIMed上实验,两种迁移学习方法获得了明显优于基准算法的性能;同样方法在语料库IEPA上实验时,TrAdaboost算法发生了负迁移,而改进的DisTrAdaboost算法仍保持良好迁移效果。
2016 Vol. 30 (2): 160-167 [摘要] ( 572 ) [HTML 1KB] [PDF 2693KB] ( 989 )
168 一个半监督的中文事件抽取方法
徐 霞,李培峰,朱巧明
半监督或无监督的事件抽取方法在目前依旧是一个具有挑战性的课题。针对中文本身在表述中存在的固有特点,该文提出一种基于双视图的事件抽取自举学习方法。该方法以少量种子为基础,从文档相关度与语义相似度两个视图出发,进行交互过滤筛选,不断抽取新的有效事件模板,为事件抽取服务。在ACE2005中文语料上的测试表明,和现有方法相比,该方法可以有效地提高中文信息事件抽取系统的性能。
2016 Vol. 30 (2): 168-174 [摘要] ( 726 ) [HTML 1KB] [PDF 2494KB] ( 1131 )
175 基于领域知识抽样的深网资源采集方法
林海伦,熊锦华,王 博,程学旗
深网资源是指隐藏在HTML表单后端的Web数据库资源,这些资源主要通过表单查询的方式访问。然而,目前的网页采集技术由于采用页面超链接的方式采集资源,所以无法有效覆盖这些资源,为此,该文提出了一种基于领域知识抽样的深网资源采集方法,该方法首先利用开源目录服务创建领域属性集合,接着基于置信度函数对属性进行赋值,然后利用领域属性集合选择查询接口并生成查询接口赋值集合,最后基于贪心选择策略选择置信度最高的查询接口赋值生成查询实例进行深网采集。实验表明,该方法能够有效地实现深网资源的采集。
2016 Vol. 30 (2): 175-181 [摘要] ( 448 ) [HTML 1KB] [PDF 2890KB] ( 849 )
182 FPC: 大规模网页的快速增量聚类
余 钧,郭 岩,张 凯,刘 林,刘 悦,俞晓明,程学旗
面向结构相似的网页聚类是网络数据挖掘的一项重要技术。传统的网页聚类没有给出网页簇中心的表示方式,在计算点簇间和簇簇间相似度时需要计算多个点对的相似度,这种聚类算法一般比使用簇中心的聚类算法慢,难以满足大规模快速增量聚类的需求。针对此问题,该文提出一种快速增量网页聚类方法FPC(Fast Page Clustering)。在该方法中,先提出一种新的计算网页相似度的方法,其计算速度是简单树匹配算法的500倍;给出一种网页簇中心的表示方式,在此基础上使用Kmeans算法的一个变种MKmeans(Merge-Kmeans)进行聚类,在聚类算法层面上提高效率;使用局部敏感哈希技术,从数量庞大的网页类集中快速找出最相似的类,在增量合并层面上提高效率。
2016 Vol. 30 (2): 182-188 [摘要] ( 526 ) [HTML 1KB] [PDF 2563KB] ( 845 )
189 文本聚类的重构策略研究
陈笑蓉,刘作国
该文提出面向文本距离并独立于聚类过程的聚类重构策略。提出邻近域的概念并阐述了邻近域规则,设计了高斯加权邻近域算法。利用高斯函数根据样本与聚簇中心的距离为样本赋权,计算聚簇间距。基于邻近域权重对文本聚类的结果实施重构。使用拆分算子拆分稀疏聚簇并调整异常样本;使用合并算子合并相似聚簇。实验显示聚簇重构机制能够有效地提高聚类的准确率及召回率,增加聚簇密度,使得形成的聚类结果更加合理。
2016 Vol. 30 (2): 189-195 [摘要] ( 477 ) [HTML 1KB] [PDF 2207KB] ( 792 )
机器翻译
196 Wikipedia跨语言链接发现中的锚文本译项选择
郑剑夕,白 宇,郭 程,张桂平
Wikipedia跨语言链接发现主要研究从源语言Wikipedia文章中自动识别与主题相关的锚文本,并为锚文本推荐一组相关的目标语言链接。该研究涉及三个关键问题: 锚文本识别、锚文本翻译和目标链接发现。在锚文本翻译中,一个锚文本可能存在多个目标译项,如果其译项选择有误,将会直接影响目标链接发现中的链接推荐的准确性。为此,该文提出了一种基于上下文的锚文本译项选择方法,使用基于逐点互信息投票的方式确定锚文本的译项。 对中英文Wikipedia中的人名、术语以及缩略语的译项选择进行测试,实验表明该方法取得了较好的效果。
2016 Vol. 30 (2): 196-201 [摘要] ( 601 ) [HTML 1KB] [PDF 2639KB] ( 954 )
少数民族及周边语言信息处理
202 藏文字符的向量模型及构件特征分析
才智杰, 才让卓玛,
藏文字属性分析是藏文信息处理的一项基础性工作,对藏文信息处理的研究和藏语文教学具有重要的参考价值及指导意义。藏文字是一种特殊的拼音文字,由1~7个基本构件横向和纵向拼接而成。因而藏文字符的属性包括其组成的构件及其构件的位置特征,以及藏文字的使用频度、结构、字长等属性特征。该文通过分析藏文字的结构,分别建立了藏文字及藏文字符串的向量模型VMTT、VMTS和藏文字符串的稀疏域模型SLM,并在向量模型和稀疏域模型上研究了藏文字符的构件特征。
2016 Vol. 30 (2): 202-206 [摘要] ( 655 ) [HTML 1KB] [PDF 1714KB] ( 880 )
207 面向维吾尔语关键词检索的等宽切词算法
木合塔尔·沙地克,布合力齐姑丽·瓦斯力, 李 晓
该文提出了面向维吾尔语关键词检索的两种切词算法,并给出MATLAB实现的算法代码及详细说明;在同等条件下对两种算法的切词效果和关键词识别效率进行对比分析;提出两种算法的优化方法和构想。
2016 Vol. 30 (2): 207-212 [摘要] ( 558 ) [HTML 1KB] [PDF 1522KB] ( 809 )
213 汉蒙机器翻译中译文动词后处理研究
王斯日古楞 ,王春荣,斯琴图 ,阿 荣 ,玉 霞
蒙古文的形态变化非常丰富,在动词词类上该特点更为明显。我们对蒙古文的动词自动生成方法进行了系统的研究。该文利用生成的蒙古语动词库,给出了对基于层次短语的汉蒙统计机器翻译译文中句尾错误词形动词进行纠正处理的方法。实验表明,该方法可以提高汉蒙机器翻译的性能和流利度。
2016 Vol. 30 (2): 213-216 [摘要] ( 674 ) [HTML 1KB] [PDF 1421KB] ( 936 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发