中文信息学报
       ISSN 1003-0077   CN 11-2325/N   CODEN ZXXHAU 设为首页        加入收藏
   RSS  Email Alert     
   
 
引用检索 快速检索 高级检索
 
2008年 22卷 4期
刊出日期:2008-08-15

综述
 
   
综述
3 中心词驱动的汉语统计句法分析模型的改进
何亮,戴新宇,周俊生,陈家骏
在对Dan Bikel基于Collins中心词驱动概率句法分析模型实现的句法分析器进行深入研究分析的基础上,对其进行了两个方面的改进。一是通过提供N-best词性候选序列,改进原模型在词性方面的处理,改善了句法分析的结果;二是在该模型中引进单独的基本名词短语识别,从而降低句法分析的复杂度,提高了效率,其中,针对中文的特点,通过对BaseNP的概念进行一系列的扩展,深入研究了基于不同层次概念的BaseNP对句法分析的影响并探讨更适合中文句法分析的BaseNP定义。利用改进的句法分析模型进行中文句法分析实验,实验结果表明,改进模型可以缩短分析时间26%,提高F值4.4个百分点,交叉括号平均减少18%。
2008 Vol. 22 (4): 3-9 [摘要] ( 338 ) [HTML 1KB] [PDF 539KB] ( 850 )
10 汉语交集型歧义切分字段关于专业领域的统计特性
乔维,孙茂松
交集型分词歧义是汉语自动分词中的主要歧义类型之一。现有的汉语自动分词系统对它的处理能力尚不能完全令人满意。针对交集型分词歧义,基于通用语料库的考察目前已有不少,但还没有基于专业领域语料库的相关考察。根据一个中等规模的汉语通用词表、一个规模约为9亿字的通用语料库和两个涵盖55个专业领域、总规模约为1.4亿字的专业领域语料库,对从通用语料库中抽取的高频交集型歧义切分字段在专业领域语料库中的统计特性,以及从专业领域语料库中抽取的交集型歧义切分字段关于专业领域的统计特性进行了穷尽式、多角度的考察。给出的观察结果对设计面向专业领域的汉语自动分词算法具有一定的参考价值。
2008 Vol. 22 (4): 10-18 [摘要] ( 397 ) [HTML 1KB] [PDF 519KB] ( 801 )
19 汉语篇章修辞结构的标注研究
乐明
汉语篇章修辞结构标注项目CJPL采用大陆主要媒体的财经评论文章为语料,依据修辞结构理论(Rhetorical Structure Theory,RST),定义了以标点符号为边界的篇章修辞分析基本单元和47种区分核心性单元的汉语修辞关系集,并草拟了近60页的篇章结构标注工作守则。这一工作目前完成了对97篇财经评论文章的修辞结构标注,在较大规模数据的基础上检验了修辞结构理论及其形式化方法在汉语篇章分析中的可移用性。树库所带有的修辞关系信息以及三类篇章提示标记的篇章用法特征,可以为篇章层级的中文信息处理提供一些浅层语言形式标记的数据。
2008 Vol. 22 (4): 19-23,42 [摘要] ( 501 ) [HTML 1KB] [PDF 349KB] ( 1378 )
24 中医药古文献语料库设计与开发研究
刘耀,段慧明,王惠临,周扬,王振国,李宏展
专业领域语料库是对专业领域文献进行自然语言处理的重要的不可或缺的基础,是对专业文本内容与意图进行深层把握的必由之路。通过对研究背景的分析,进一步明析了专业文献进行自然语言处理的必要性,并在对专业文献语料库的研究特点进行分析的基础上,深入探讨了专业语料库的设计思想及原理,同时,对语料库词类的标注信息进行了深入研究。成功地开发了针对专业领域语料库的辅助加工系统,为专业领域语料库建设提供了理论指导和技术支撑。
2008 Vol. 22 (4): 24-30 [摘要] ( 298 ) [HTML 1KB] [PDF 3969KB] ( 657 )
31 农业古籍断句标点模式研究
黄建年,侯汉清
农业古籍的整理已经引起了众多学者和专家的注意,但是,对于农业古籍的自动断句、标点模式的研究仍付之阙如。本研究探索并总结出部分农业古籍断句、标点识别模式。首先采用句法特征词断句法、同义语标志词法进行初步断句;进而利用反义复合词、引书标志、时序、数量词、重叠字词、动名结构及比较句法进一步对子句进行断句、标点;最后使用农业用语和禁用模式表进一步提高断句、标点后农业古籍的可读性和准确性。经测试表明,断句、标点的平均准确率分别达到48%和35%,证明本方法具有一定的正确性和可行性。
2008 Vol. 22 (4): 31-38 [摘要] ( 298 ) [HTML 1KB] [PDF 343KB] ( 1153 )
39 语义对立度及其计算模型的研究
麦范金,王挺
人类的思维离不开语言,联想思维主要通过相关、相似和对立三种方式。现阶段有关语义的相关和相似的研究已比较多,而有关对立的研究却比较少。文章把负值引入到相似度计算中,提出对立度等概念和相关的计算模型,将它们运用到语义对立程度的计算中,并通过仿真试验论证了这些概念模型和计算方法的可行性和有效性。
2008 Vol. 22 (4): 39-42 [摘要] ( 278 ) [HTML 1KB] [PDF 229KB] ( 711 )
43 基于词法分析的维吾尔语元音弱化算法研究
米热古丽·艾力,米吉提·阿不力米提,艾斯卡尔·艾木都拉
重点研究维吾尔语中弱化现象及处理算法,并分析了维吾尔语词法结构,音节结构,词干—词缀连接形式等技术。处理弱化问题时,要根据词干库检查弱化属性,并根据语音和谐规律分析是否正确连接。该算法在文本检索、词频统计、文本校对等研究领域得到很好的应用。运行结果表明该算法具有可行性和有效性,并在实践中不断完善。
2008 Vol. 22 (4): 43-47 [摘要] ( 368 ) [HTML 1KB] [PDF 365KB] ( 934 )
48 基于混淆网络解码的机器翻译多系统融合
杜金华,魏玮,徐波,
在对当前几种较流行的统计机器翻译多系统融合方法分析的基础上,提出了一种改进的多系统融合框架,该框架集成了最小贝叶斯风险解码和多特征混淆网络解码两种技术。融合过程如下(1) 从多个翻译系统输出的 -best结果中,利用最小贝叶斯风险解码器选择一个风险最小的假设作为对齐参考;(2) 将其余的 -best假设结果与该参考对齐,从而构建混淆网络。多特征混淆网络基于对数线性模型,引入了更多有效的知识源参与最优路径选择,融合后的BLEU得分比融合前最好的单系统BLEU得分提高了2.19%。在对齐方法上,我们提出了一种改进的翻译错误率(Translation Error Rate, TER)准则——GIZA-TER准则,该准则可以对CN网络进行更有效的短语调序。实验中的显著性检验证明了本文方法的有效性。
2008 Vol. 22 (4): 48-54 [摘要] ( 327 ) [HTML 1KB] [PDF 186KB] ( 1340 )
55 一种命名实体翻译等价对的抽取方法
陈怀兴,尹存燕,陈家骏
有关命名实体的翻译等价对在多语言处理中有着非常重要的意义。在过去的几年里,双语字典查找,音译模型等方法先后被提出。另一种极具价值的方法是从平行语料库中自动抽取有关命名实体的翻译等价对,现有的方法要求预先对双语语料库的两种语言文本进行命名实体标注。提出了一种只要求对语料库中源语言进行命名实体标注,目标语言不需标注,然后利用训练得到的HMM词对齐结果来抽取有关命名实体翻译等价对的方法。在实验中,把中文作为源语言,英文作为目标语言。实验结果表明用该方法,即使在对齐模型只是部分准确的情况下,也得到了较高正确率的命名实体翻译等价对。
2008 Vol. 22 (4): 55-60 [摘要] ( 324 ) [HTML 1KB] [PDF 267KB] ( 689 )
61 双向聚类迭代的协同过滤推荐算法
王明文,陶红亮,熊小勇
协同过滤是电子商务推荐系统中广泛采用的技术,然而数据稀疏性会影响协同过滤的推荐质量。针对数据稀疏问题提出一种双向聚类迭代的协同过滤推荐算法,对初始得到的用户聚类和项目聚类进行交叉迭代调整,使得聚类簇达到较为稳定的状态。调整后聚类簇的内聚性更强,类之间的区分度更大。实验表明,在调整后的聚类簇中查找邻居将更加准确,可以有效解决数据稀疏问题的影响,有利于提高推荐的准确性。
2008 Vol. 22 (4): 61-65,74 [摘要] ( 363 ) [HTML 1KB] [PDF 211KB] ( 873 )
66 文档检索中句法信息的有效利用研究
丁凡,王斌,白硕,刘宜轩,李亚楠,
利用词项依存关系来改进词袋模型,一直是文本检索中一个热门话题。已有的定义词项依存的方法中,有两类主要的方法一类是词汇层次的依存关系,利用统计近邻信息来定义词项依存关系,另一类是句法层次的依存关系,由句法结构来定义词项依存关系。虽然已有的研究表明,相对于词袋模型,利用词项依存关系能够显著地提高检索性能,但这两类词项依存关系却缺乏系统的比较在利用词项依存关系来改进文档和查询的表达上,如何有效地利用句法信息,哪些句法信息对文本检索比较有效,依然是个有待研究的问题。为此,在文档表达上,比较了利用近邻信息和句法信息定义的词项依存关系的性能;在查询表达上,对利用不同层次的句法信息所定义的词项依存关系的性能进行了比较。为了系统地比较这些词项依存关系对检索性能的影响,在语言模型基础上,以平滑为思路,提出了一个能方便融入这两类词项依存关系的检索模型。在TREC语料上的实验表明,对于文档表达来说,句法关系较统计近邻关系没有明显的差别。在查询表达上,基于名词/专有词短语的部分句法信息较其他的句法信息更加有效。
2008 Vol. 22 (4): 66-74 [摘要] ( 316 ) [HTML 1KB] [PDF 236KB] ( 671 )
75 Web检索查询意图分类技术综述
张森,王斌
查询分类是近年来信息检索领域的研究热点,并且在很多领域得到了广泛地关注。主要讨论根据查询的意图进行分类的研究工作,从查询分类的诞生背景、关键技术、所使用的分类方法和评价方法方面进行综述评论,提出了查询意图分类面临的问题和挑战。认为缺乏权威的评测标准、在大规模数据集上的未经全面测试的性能、如何准确地获取查询的特征以及如何证明分类体系的完备性和独立性是目前查询意图分类研究的关键问题。
2008 Vol. 22 (4): 75-82 [摘要] ( 413 ) [HTML 1KB] [PDF 349KB] ( 1361 )
83 一种中文文档的数学公式定位方法
郭育生,谭怒涛,黄磊,刘昌平
为了从中英文混排的中文文档中定位数学公式,提出了一种基于中文字符识别和公式符号识别的数学公式定位方法。该方法主要由中文字符提取、内嵌公式提取和独立公式定位三个部分组成。在中文字符提取中,首先提取字符块信息中文字符识别结果、公式符号识别结果和字符块的几何特征,然后使用决策树的方法区分中文字符和非中文字符。在内嵌公式提取中,使用公式符号的语义信息、符号间的角标关系和公式的语义信息等从非中文字符中定位内嵌公式。在独立数学公式定位中,对包含较多内嵌公式符号且不包含中文字符的文字行提取版式结构特征,并使用高斯混合模型区分独立公式和普通文字行。在148幅文档图像共包含3 690个公式组成的测试集上取得了91.19%的公式定位正确率。
2008 Vol. 22 (4): 83-87 [摘要] ( 390 ) [HTML 1KB] [PDF 446KB] ( 1649 )
88 基于韵律信息的连续语流调型评测研究
潘逸倩,魏思,王仁华
汉语连续语流中的调型评测是汉语语音评测的一个重要环节,利用连续语流中韵律耦合效应和韵律结构紧密相关这一特性,以韵律词为基本建模单元,建立基于多空间概率分布的HMM调型模型(MSD-HMM),使得汉语普通话水平评测系统针对标准连续语流的调型识别率从82.0% 提升至84.6%;针对有方言背景的非标准发音,机器评分与专家评分的相关度绝对提升超过3.0%。
2008 Vol. 22 (4): 88-93 [摘要] ( 410 ) [HTML 1KB] [PDF 1094KB] ( 807 )
94 一种结构受限的异方差线性判别分析
陈思宝,胡郁,王仁华
异方差线性判别分析(HLDA)因在语音识别中起到了巨大的特征去相关作用而被广泛利用。然而在训练数据不足或特征维数较高时,HLDA易出现不稳定性和小样本问题。根据特征的矩阵表示形式,提出了一种结构受限的HLDA。首先用二维线性判别分析(2DLDA)压缩矩阵形式的特征,然后作一维的HLDA。通过分析我们指出,二维的特征变换实际上是一种结构受限的一维特征变换。在RM库上的实验,受限HLDA对常规HLDA的词识别错误相对下降12.39%;在TIMIT库上的实验,受限HLDA对常规HLDA的音素识别错误相对下降4.43%。
2008 Vol. 22 (4): 94-99 [摘要] ( 362 ) [HTML 1KB] [PDF 275KB] ( 743 )
100 基于音素及其特征参数的维吾尔语音合成技术
姑丽加玛丽·麦麦提艾力,艾斯卡尔·艾木都拉
首先建立了由维吾尔语中的单音素、双音素所构成的小规模语音语料库,设计了相应的拼接单元挑选算法,利用参数调整算法对拼接单元语音信号的时长、基频和短时能量等特征参数进行调整,并利用时域平滑算法对拼接点处的语音参数进行调整,从而进一步提高了合成语音的自然度。用C Sharp 编程语言实现了上述算法,试验结果表明研究思路和技术方案的可行性。该系统具有语料库小,合成语音的可懂度和自然度较高等优势。
2008 Vol. 22 (4): 100-104 [摘要] ( 297 ) [HTML 1KB] [PDF 698KB] ( 687 )
105 在通用字符集中藏文编码模式的研究与应用
欧珠
藏文软件开发者在现代计算机系统中处理藏文数据时必须所具备的知识之一是藏文在通用字符集(Universal Character Set, UCS)中是如何进行编码。在设计藏文网页内容时UCS藏文数据的整理、设计藏文应用软件时藏文文本的处理操作或者在设计藏文OpenType或AAT字库时、UCS藏文编码模式应用等都要首先去理解UCS藏文编码模式。因此,理解和掌握UCS藏文编码模式是软件制作商首选目标。详细介绍了UCS藏文编码模式的组织结构和设计方法,以便于使用OpenType来支持复杂藏文文本的显示。
2008 Vol. 22 (4): 105-108 [摘要] ( 266 ) [HTML 1KB] [PDF 315KB] ( 760 )
109 基于DUCET的藏文排序方法
黄鹤鸣,契嘎·德熙嘉措(赵晨星)
DUCET为每个藏文字符规定了排序码,但藏文音节的拼写复杂性使得藏文排序不能直接应用这些排序码,提出了基于DUCET的藏文音节排序方法,主要思想是首先,将二维的藏文音节转化成一维的字母串;其次,从DUCET中查出每个字母的排序码,得到藏文音节对应的排序码串;最后,通过比较排序码串实现藏文音节间的排序。还讨论了藏文音节与一般藏文字母串以及藏文字符串与外文字符串间的比较规则。
2008 Vol. 22 (4): 109-113 [摘要] ( 296 ) [HTML 1KB] [PDF 2034KB] ( 777 )
114 基于Web Service的数字化民俗博物馆的研究与实现
郎丰珍,吐尔根·伊布拉音
为增强世界各族人民对新疆少数民族民俗文化的了解,并实现各个大学数字博物馆之间的无间访问,提出了基于Web Service的英、汉、维三语数字化民俗博物馆的建设方案,文中分析设计了数字化民俗博物馆的总体结构,讨论了Web Service关键技术与ASP.Net技术,并结合Web 服务与ASP.Net技术,初步实现了数字民俗博物馆的建设,利用这两种技术的优点,提高了客户端的浏览速度,为用户提供了更方便、更透明的信息服务,并为不同用户提供了英、汉、维三种语言的选择。
2008 Vol. 22 (4): 114-118 [摘要] ( 285 ) [HTML 1KB] [PDF 1348KB] ( 668 )
119 藏文编码字符集的优化研究
高定国,欧珠
《信息交换用藏文编码字符集 基本集》奠定了研究藏文信息处理技术的基础,非常重要,但随着藏文信息处理技术研究的深入,也逐渐发现了《基本集》没能反映藏文构件的基本特征,增加了研究有关藏文工作的难度,同时,在使用中还存在藏文编码歧义等缺陷。针对上述问题提出了增加三个上加字的编码到BMP中,使得藏文编码能正确地反应藏文的构件特征,还提出用“界定藏文编码的使用方法”来消除《基本集》应用中存在的歧义以及正确理解几个字符的属性等问题。
2008 Vol. 22 (4): 119-122 [摘要] ( 267 ) [HTML 1KB] [PDF 1453KB] ( 620 )
123 基于字形拓扑结构的甲骨文输入编码研究
顾绍通,马小虎,杨亦鸣,
分析了甲骨文字形的拓扑结构特征,考虑了甲骨文字形、读音等因素,制作了甲骨文输入法的字形码表和拼音码表,设计了一种简便、有效的甲骨文输入编码方案,开发了甲骨文输入法程序,利用该程序可以通过两种途径来输入甲骨文字形,即拆分取码方法和现代汉字拼音方法,从而解决了从通用甲骨文字库中调出所需字形的问题。
2008 Vol. 22 (4): 123-128 [摘要] ( 343 ) [HTML 1KB] [PDF 4959KB] ( 1268 )
中文信息学报
·编辑部2022年春节放假通知
·2022年期刊订阅
更多....  
更多....  
更多....  
中国知网
万方数据
更多....  
 
版权所有 © 《中文信息学报》编辑部    
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由北京玛格泰克科技发展有限公司设计开发