中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2009年 23卷 5期
刊出日期:2009-10-19

综述
 
   
综述
3 基于CRFs边缘概率的中文分词
罗彦彦,黄德根
将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串。在第四届SIGHAN Bakeoff 中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度。
2009 Vol. 23 (5): 3-9 [摘要] ( 287 ) [HTML 1KB] [PDF 684KB] ( 713 )
9 形容词与名词的语义组合模型研究
赵春利,石定栩
该文首先针对传统方法研究形名组合的不足,提出了理解形名组合的基本语义模式,即事物、属性值和属性域;其次,根据形名组合的理解模式和语料库的调查,从哲学理论和语言事实角度,把名词各自分成了主体、事体、物体、时空、逻辑五个次类,把形容词分成了主体、事体、物体、时空和评价五个次类;最后,借助于计算语言学的研究思想和语义语法的理论原则,构建了形容词次类与名词次类间语义匹配的形名语义组合模型。研究结果表明该形名语义组合模型能深入细致地揭示形容词与名词的组合规律。
2009 Vol. 23 (5): 9-19 [摘要] ( 273 ) [HTML 1KB] [PDF 1383KB] ( 661 )
19 基于SVM融合多特征的介词结构自动识别
温苗苗,吴云芳
介词结构在汉语文本中出现频率很高,正确识别介词结构边界对句法分析、语音合成中的韵律短语划分有着重要意义。该文较为系统地探讨了汉语中常用介词的边界识别问题。利用支持向量机SVM模型,基于输出概率而不是简单的二分法来选择正确的后边界。探讨了不同的特征选择,并尝试加入语义信息等不同特征组合以提高识别准确率。对常用的68个介词进行边界识别实验,5折交叉验证的准确率达到90.95%,优于前人的识别结果。
2009 Vol. 23 (5): 19-25 [摘要] ( 415 ) [HTML 1KB] [PDF 658KB] ( 624 )
25 Dirichlet 过程及其在自然语言处理中的应用
徐谦,周俊生,陈家骏
Dirichlet过程是一种典型的变参数贝叶斯模型,其优点是参数的个数和性质灵活可变,可通过模型和数据来自主地计算,近年来它已成为机器学习和自然语言处理研究领域中的一个研究热点。该文较为系统的介绍了Dirichlet过程的产生、发展,并重点介绍了其模型计算,同时结合自然语言处理中的具体应用问题进行了详细分析。最后讨论了Dirichlet过程未来的研究方向和发展趋势。
2009 Vol. 23 (5): 25-33 [摘要] ( 469 ) [HTML 1KB] [PDF 829KB] ( 1004 )
33 基于树核函数的英文代词消解研究
王海东,胡乃全,孔芳,周国栋
该文提出了一种基于树核的英文代词消解方法。针对结构化信息在指代消解中的重要作用,该文使用SVM提供的卷积树核函数自动获取句法结构信息,将句法树作为一个特征,和其他基本特征相结合。该文系统的分析了训练用例的过滤及不同的剪枝策略对模型性能的影响,同时还分析了树核函数对于几句之内的代词消解有比较好的结果。在ACE2004 NWIRE基准数据上进行实验的结果说明树核能显著地提高代词消解系统的性能,并且对一句之内的代词消解有较好的效果。
2009 Vol. 23 (5): 33-40 [摘要] ( 359 ) [HTML 1KB] [PDF 762KB] ( 668 )
40 基于短语模糊匹配和句子扩展的统计翻译方法
刘鹏,宗成庆
近几年来,基于短语的统计翻译模型在机器翻译研究中受到普遍关注,并取得了较好的翻译性能。但是,由于目前基于短语的翻译系统在解码时采用精确匹配的策略,常常导致数据稀疏,一方面,有些短语在训练获得的短语表中找不到精确的匹配,使其成为未知短语;另一方面,短语表中大量的短语无法得到充分的利用。为此,我们提出了基于短语模糊匹配和句子扩展的翻译方法。对于不存在于短语表中的短语,通过模糊匹配的办法,寻找与其相似的短语,然后将所有相似短语用于替换原短语,从而生成扩展句子,在此基础上对所有扩展的句子进行翻译。由于并不是所有扩展后的句子都能提高原始句子的翻译效果,因此,我们在句子翻译完成后设置了组合分类器用于选择最优翻译结果。实验证明,这种方法可以有效地提高翻译系统的译文质量。
2009 Vol. 23 (5): 40-47 [摘要] ( 304 ) [HTML 1KB] [PDF 1064KB] ( 649 )
47 基于层叠条件随机场的旅游领域命名实体识别
郭剑毅,薛征山,余正涛,张志坤,张宜浩,姚贤明
针对旅游领域,提出了一种基于层叠条件随机场模型的旅游领域命名实体识别方法。该方法在低层条件随机场中以字为切分粒度,结合旅游景点常用字表、景点常用后缀表、地名常用字表等特征词典,实现简单旅游命名实体的识别;其识别结果传递到高层模型,以词为切分粒度,结合复杂特征,实现嵌套景点、特产风味、地点的识别。最后进行了两组相关实验,结果表明,在开放测试中,层叠条件随机场模型相比于单层模型,F值提高了8个百分点;相比于HMM模型,正确率提高了8个百分点,召回率提高了22个百分点,F值提高了15个百分点。
2009 Vol. 23 (5): 47-53 [摘要] ( 685 ) [HTML 1KB] [PDF 757KB] ( 1154 )
53 基于语义组块分析的汉语语义角色标注
丁伟伟,常宝宝
近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的“句法分析——语义角色识别——语义角色分类”,而是一种简化的“语义组块识别——语义组块分类”流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。
2009 Vol. 23 (5): 53-62 [摘要] ( 397 ) [HTML 1KB] [PDF 973KB] ( 941 )
62 汉语时间关系抽取与计算
林静,苑春法
时间关系普遍存在于时间和事件概念之间,为信息组织提供了一条天然的线索。该文在信息抽取和时间信息标注的基础上,研究汉语中时间与时间、事件与时间和事件与事件之间的时间关系。一方面考虑汉语文本的特点,充分抽取蕴含于语法语义层面中的时间关系;另一方面定义了与文本无关的规则,实现了不同来源信息之间的时间关系的计算。这为信息抽取结果的组织、积累和共享打下了基础,对于事件追踪、多文本摘要等方面的研究也有一定的借鉴意义。
2009 Vol. 23 (5): 62-68 [摘要] ( 365 ) [HTML 1KB] [PDF 678KB] ( 818 )
68 基于同义词的词汇情感倾向判别方法
王素格,李德玉,魏英杰,宋晓雷
词汇的情感倾向直接影响短语、句子、段落、篇章等更高层次语言粒度的情感倾向。对于基准词选取问题,该文提出了基于类别区分能力与情感词词表相结合的方法。考虑到词汇与其同义词很大程度上具有相同的情感倾向,我们提出了基于同义词的词汇情感倾向判别方法,这种方法一定程度上避免了数据稀疏问题。实验结果表明,基于同义词的词汇情感倾向判别方法优于仅采用目标词与基准词的词汇情感倾向判别方法。
2009 Vol. 23 (5): 68-75 [摘要] ( 320 ) [HTML 1KB] [PDF 726KB] ( 798 )
75 基于信息推理的网络新闻在线评论情绪分类
李成伟,彭勤科,徐涛
网络评论数据的情绪倾向性信息对于企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。该文基于语言类比超空间(HAL空间),利用信息推理方法,给出了一种短语级别的评论数据情绪倾向分类模型。该模型首先从评论文本中抽取符合预定义模式的短语,然后运用基于HAL空间的概念组合算法,将短语组合为概念C,最后使用信息推理算法,对概念C按情绪分类。实验表明,与SVM算法和Term-Count算法相比,该文的模型对于网络在线新闻评论数据分类效果较好。
2009 Vol. 23 (5): 75-80 [摘要] ( 344 ) [HTML 1KB] [PDF 554KB] ( 783 )
80 基于统计与正文特征的中文网页正文抽取研究
周佳颖,朱珍民,高晓芳.
该文提出了一种基于统计与正文特征的网页正文抽取方法。该方法继承了统计方法的优点,同时利用正文特征克服了原有基于统计的方法无法抽取多正文体网页的缺陷。源于多正文体在网页的DOM树中对应着正文区域下的多棵具有相似特征的正文子树,该文首先基于统计的方法获取一条正文路径,然后学习该路径的正文特征识别正文区域和子树主干,最后根据区域及该主干具有的正文特征进而得到完整的正文。实验表明该方法抽取单正文和多正文的精确率分别为94%和91%。
2009 Vol. 23 (5): 80-86 [摘要] ( 304 ) [HTML 1KB] [PDF 2148KB] ( 766 )
86 基于改进的LBP的低分辨率车牌汉字识别
王叶,张洪刚,方旭,郭军
低分辩率的车牌汉字识别是字符识别中的一个难题。随着智能交通和模式识别技术的发展,传统的基于二值图的识别方法已不能满足实际要求。该文采用基于灰度图的汉字识别方法,避免了在传统二值化过程中不必要的结构信息丢失。该文将局域二值模式(Local Binary Patterns,LBP)算子运用于字符识别,使得车牌汉字的识别率由过去的74.25%提高到98.80%;并在已有的局域二值模式算子的基础上提出了一种改进的局部二值模式(Advanced Local Binary Pattern, ALBP)算法,使得汉字的识别时间大幅度缩短。实验结果表明,该文提出的方法对于低质量的车牌灰度汉字具有较强的鲁棒性,与传统识别方法相比,识别准确率和识别速度都有了较大的改进。
2009 Vol. 23 (5): 86-92 [摘要] ( 514 ) [HTML 1KB] [PDF 2061KB] ( 599 )
92 一个用于OCR输出的中文文本的拼写校对系统
李蓉
该文描述了一个处理OCR输出的中文文本的拼写校正系统。使用一个大的正负语料库来建立错误模式库;负语料库中包含OCR识别错误,而正语料库中为对错误进行了编改后的正确文本。首先应用句子匹配算法从正负语料库中提取匹配的句子;然后使用比较算法从匹配的两个句子中提取不同的字符;若两个句子存在不同,则使用错词提取算法来获得错误词和对应的校正词,并以如下三元组的形式保存(校正词, 错词, 出现次数)。用上述算法运行整个正负语料库之后,可获得错误模式的集合,由此建立错误模式库。错误模式可看作是校正规则,用于校正文本中和模式中与“错词”相同形式的错误。根据“错词”的长度将错误模式分为两类,一类为“错词”的长度大于两个字符,可直接应用错误模式规则进行校正;另一类为“错词”的长度等于两个字符,需使用验证算法确定是否当前的模式需要被校正。以上方法是为同方光盘公司开发的THOCR中文校对系统的核心算法,其中正负语料库来自公司在期刊网建设中的积累。由于算法所获得的错误模式均来自真实的OCR识别文本,所以校对效果较好。结尾部分给出了本校对系统的实验结果。
2009 Vol. 23 (5): 92-98 [摘要] ( 588 ) [HTML 1KB] [PDF 1500KB] ( 645 )
98 基于视频三音子的汉语双模态语料库的建立
赵晖,林成龙,唐朝京
为实现可视语音合成和双模态语音识别,需要建立符合条件的双模态语料库。该文提出了一种汉语双模态语料库的建立方法。根据视频中唇部发音特征,对已有的三音子模型聚类,形成视频三音子。在视频三音子的基础上,利用评估函数对原始语料中的句子打分,并实现语料的自动选取。与其他双模态语料库相比,该文所建立的语料库在覆盖率、覆盖效率和高频词分布律有了较大改进,能够更加真实反映汉语中的双模态语言现象。
2009 Vol. 23 (5): 98-104 [摘要] ( 321 ) [HTML 1KB] [PDF 798KB] ( 859 )
104 维吾尔语双音节词韵律特征声学分析
祖丽皮亚·阿曼,艾斯卡尔·艾木都拉
该文从文本分析模块入手,利用“维吾尔语语音声学参数库”,选择了以开音节和闭音节结尾的969个双音节词的韵律参数,包括元音时长、音高和音强进行了统计分析,归纳了其元音时长、音高和音强分布模式,探讨了维吾尔语双音节词的韵律节奏模式与双音节词重音之间的关系问题,其目的是为了提高语音合成的自然度。我们相信本项研究对维吾尔语语言乃至整个阿尔泰语系语言的韵律研究具有较高的参考价值。
2009 Vol. 23 (5): 104-108 [摘要] ( 328 ) [HTML 1KB] [PDF 1356KB] ( 366 )
108 一种基于遗传优化和汉字声调的文本水印算法
赵理,崔杜武
该文提出了一种基于遗传算法优化和汉字声调的中文文本水印算法。该算法基于统计特征来动态确定嵌入标志代码。在由标志代码确定的水印插入区,通过改变汉字集合声调的特征值来嵌入文本水印。该方法的水印容量由标志代码的数量动态确定,可自主的提高水印容量。整篇文档可以分割成若干个嵌入部分,各部分可单独进行插入、提取计算,极大的降低了计算的复杂性。
2009 Vol. 23 (5): 108-114 [摘要] ( 294 ) [HTML 1KB] [PDF 799KB] ( 618 )
114 维吾尔语词首音节元音声学分析
孜丽卡木·哈斯木,那斯尔江·吐尔逊,吾守尔·斯拉木
该文利用“维吾尔语语音声学参数数据库”,统计分析和归纳了维吾尔语词首音节元音的共振峰模式及其分布格局。声学元音图有多种画法,该文采用JOOS型声学元音图。这种元音图的特点是以F1为纵坐标,以F2为横坐标。这样绘制成的声学元音图与元音舌位图有很好的对应性。维语标准音词首音节中有[y, i, e, O, u, o, ;, A]等8个元音。舌位前后的分布特点是[u, o, A]为后元音,[y, i, e, O, ;]为前元音;开口度(舌位高低)分布特点是[y, i, u]为高元音,[e, O, o]为次高元音,[;]为次低元音, [A]为低元音.
2009 Vol. 23 (5): 114-119 [摘要] ( 288 ) [HTML 1KB] [PDF 554KB] ( 566 )
119 基于网络机顶盒的维吾尔语输入法研究与实现
程新方,吾守尔·斯拉木,张永才
该文介绍了一种在网络机顶盒遥控器上实现的维吾尔语输入法,输入法采用遥控器上的数字键2~9和5个控制键来实现维吾尔语的字符输入。首先,对网络机顶盒、维吾尔语字母特点进行了分析。然后,对机顶盒遥控器维吾尔语输入法的框架、功能描述、键盘布局、处理流程和移植过程进行了研究。把网络机顶盒作为视频解码终端,利用宽带网的基础设施,以家用电视机为主要显示终端设备,遥控器维吾尔语输入法在网络机顶盒上实现了多文种混合输入显示,并成功地应用于双向有线网的交互业务中。
2009 Vol. 23 (5): 119-123 [摘要] ( 320 ) [HTML 1KB] [PDF 585KB] ( 608 )
123 基于有限状态机的智能手机输入模型设计
刁红军,李培峰,钱培德
该文通过对现有智能手机上的输入方式进行分析,把输入法分解为中文、英文和数字三种不同的输入状态,再结合GOF一书中的状态设计模式,给出了一个基于有限状态机的智能手机输入模型,这种输入模型可以用于Windows mobile系统, Symbian的S60系统等多种智能手机系统上的输入法开发。这样不但能简化智能手机上输入法的开发工作,而且也为多种智能平台上的输入法维护和升级提供了方便。
2009 Vol. 23 (5): 123-128 [摘要] ( 282 ) [HTML 1KB] [PDF 824KB] ( 632 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发