“少数民族及周边语言信息处理” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 孙 媛;赵 倩;
    2017, 31(1): 102-111.
    摘要 (767) PDF (4186 KB) (1095)
    Baidu(1)
    如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题。该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题。在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐。
  • 郑亚楠;珠 杰;
    2017, 31(1): 112-117.
    摘要 (942) PDF (1695 KB) (1265)
    藏文词性标注是藏文信息处理的基础,在藏文文本分类、自动检索、机器翻译等领域有广泛的应用。该文针对藏文语料匮乏,人工标注费时费力等问题,提出一种基于词向量模型的词性标注方法和相应算法,该方法首先利用词向量的语义近似计算功能,扩展标注词典;其次结合语义近似计算和标注词典,完成词性标注。实验结果表明,该方法能够快速有效地扩大了标注词典规模,并能取得较好的标注结果。
  • 白双成;
    2017, 31(1): 118-125.
    摘要 (804) PDF (4845 KB) (1022)
    蒙古文字符编码与字形之间的多对多复杂转换关系及录入不规范等众多原因导致原始语料存在严重的拼写多样化现象和字形拼写错误,成为大数据处理瓶颈。该文以蒙古文输入法为例,利用大词库和形码生成器,将原本基于读音正确的词晶格最佳路径搜索问题转换为基于形码词晶格路径搜索问题,很好地解决了原始文本统计建模问题。实验结果证明,该方法及字形归并的模型优化方法可显著提高输入效率,对所有蒙古文“音词转换”和“形词转换”研究都有广泛的参考价值。
  • 玛尔哈巴·艾赛提;艾孜尔古丽;玉素甫·艾白都拉
    2017, 31(1): 126-132.
    摘要 (761) PDF (2863 KB) (937)
    情感词汇的获取是文本倾向性分析的基础。为了解决人工识别方法低效的不足,并为维吾尔语情感词的研究及情感词词典的创建提供一些可供选择的方法和思路,该文首先分析了维吾尔语情感词汇在上下文中表现的特征,并结合维吾尔语本身的语法特征,建立了扩展的维吾尔语新增特征模型,与词频逆文档频率(TF-IDF)算法相结合,实现了维吾尔语情感词汇的识别。实验结果指出该特征模型有效地提高了情感词汇的识别率。
  • 才智杰, 才让卓玛,
    2016, 30(2): 202-206.
    摘要 (895) PDF (1714 KB) (1071)
    Baidu(3)
    藏文字属性分析是藏文信息处理的一项基础性工作,对藏文信息处理的研究和藏语文教学具有重要的参考价值及指导意义。藏文字是一种特殊的拼音文字,由1~7个基本构件横向和纵向拼接而成。因而藏文字符的属性包括其组成的构件及其构件的位置特征,以及藏文字的使用频度、结构、字长等属性特征。该文通过分析藏文字的结构,分别建立了藏文字及藏文字符串的向量模型VMTT、VMTS和藏文字符串的稀疏域模型SLM,并在向量模型和稀疏域模型上研究了藏文字符的构件特征。
  • 木合塔尔·沙地克,布合力齐姑丽·瓦斯力, 李 晓
    2016, 30(2): 207-212.
    摘要 (888) PDF (1522 KB) (954)
    该文提出了面向维吾尔语关键词检索的两种切词算法,并给出MATLAB实现的算法代码及详细说明;在同等条件下对两种算法的切词效果和关键词识别效率进行对比分析;提出两种算法的优化方法和构想。
  • 王斯日古楞 ,王春荣,斯琴图 ,阿 荣 ,玉 霞
    2016, 30(2): 213-216.
    摘要 (952) PDF (1421 KB) (1079)
    蒙古文的形态变化非常丰富,在动词词类上该特点更为明显。我们对蒙古文的动词自动生成方法进行了系统的研究。该文利用生成的蒙古语动词库,给出了对基于层次短语的汉蒙统计机器翻译译文中句尾错误词形动词进行纠正处理的方法。实验表明,该方法可以提高汉蒙机器翻译的性能和流利度。
  • 赛迪亚古丽·艾尼瓦尔,向 露,宗成庆,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉
    2015, 29(5): 204-211.
    摘要 (834) PDF (2366 KB) (851)
    维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。
  • 龙从军,刘汇丹,诺明花,吴 健
    2015, 29(5): 211-216.
    摘要 (905) PDF (3228 KB) (988)
    该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。
  • 古力努尔·艾尔肯,祖丽皮亚·阿曼,地里木拉提·吐尔逊
    2015, 29(4): 199-206.
    摘要 (832) PDF (5607 KB) (931)
    该文从提高语音合成自然度的实际需求出发,首次从实验语音学的角度从《维吾尔语语音声学参数库》中统计出了333个三音节词,其中再筛选了93个全和谐词和半和谐词,并对其元音的宽带共振峰模式、共振峰值、音高、时长和音强等韵律参数进行了统计分析,归纳了其共振峰、音高、时长和音强分布特点来考察元音和谐的基本声学特征,总结出了一些重要的规则和结论,为参数式或波形拼接式语音合成系统中调整合成前的元音和谐问题提供了重要的参考依据。
  • 陈小莹,艾金勇,于洪志
    2015, 29(3): 184-189.
    摘要 (752) PDF (3227 KB) (961)
    该文对藏语拉萨话单音节的嗓音特征进行了实验研究,实验首先对藏语拉萨话单音节进行语音标注,然后根据语音标注的位置信息,利用对应的程序提取音节结构中的元音和辅音的嗓音声学参数,对基频、开商和速度商分别统计分析,并做了显著性分析。实验结果表明不同元音和辅音的嗓音参数与发声方式以及其在音节中位置有关,元音和音节结构的不同会显著影响开商和速度商的值,但对于基频数据的影响并不显著。同时嗓音参数之间也存在一定的关联性,即基频和开商、速度商之间是反比关系,开商和速度商之间是正比的关系。
  • 海银花,那顺乌日图
    2015, 29(3): 190-195.
    摘要 (885) PDF (1185 KB) (745)
    2009年至今,“蒙古语名词语义信息词典”(以下简称为“名词语义词典”)通过几年的开发目前词典基本成形,并且有了显著的新进展。其新进展主要体现在词条的扩充、属性字段的增添及其初步应用。该文概要介绍“名词语义词典”的研发过程,实例说明这部词典的新进展和初步应用情况。
  • 赵维纳,李 琳,刘汇丹,普布顿珠, 吴 健
    2015, 29(3): 196-200.
    摘要 (807) PDF (1389 KB) (798)
    藏语三音节复合动词短语(以下简称三音动词短语)能产性强,使用频率高,结构不稳定,给藏语文本处理带来很多麻烦。针对这些特点,该文提出了一种统计和规则相结合的三音动词短语的自动抽取算法。首先,从三音动词短语的结构出发,以构成三音动词短语的动语素作为标志,获得三音动词短语候选项。然后,利用统计算法和语言规则库对候选项进行过滤,获得三音动词短语。实验结果表明,统计和规则结合的方法可以有效地从未经标注的藏语语料中获取三音动词短语。
  • 米莉万·雪合来提,刘 凯,吐尔根·依布拉音
    2015, 29(3): 201-206.
    摘要 (1077) PDF (3084 KB) (1403)
    汉语到维吾尔语的自动机器翻译有着重要的现实意义。目前对于汉维统计机器翻译方法的研究相对空白。该文提出了一种以维吾尔语为词干词缀粒度的汉维机器翻译方法。该方法利用维吾尔语形态分析后的词干词缀作为翻译的基本单位,并且根据其黏着语特性提出了一种基于有向图的维吾尔语“词干-词缀”语言模型。基于开放语料的实验证明我们的词干词缀翻译模型以及语言模型显著优于之前的基于词粒度的模型。
  • 买买提依明·哈斯木,吾守尔·斯拉木,维尼拉·木沙江,努尔麦麦提·尤鲁瓦斯
    2015, 29(2): 111-117.
    摘要 (692) PDF (1084 KB) (890)
    在Unicode编码方案中维、哈、柯文字符安排在阿拉伯字符区域,三种语言中共享字符比较多,跟阿拉伯字符区域混在一起,没有专用的语言ID。在信息检索和自然语言处理领域对维、哈、柯文的识别、处理带来不便。该文首先分析并总结了维、哈、柯文三种语言中的专用字符、复合字符、某些字符在某种语言中出现形势的独特性等特征,然后在此基础上设计了维、哈、柯文种识别算法。 实验结果表明该文提出的文种识别算法的正确率在文本多于70词时达到96.67%以上。
  • 徐宝龙,努尔麦麦提·尤鲁瓦斯,吾守尔·斯拉木
    2015, 29(2): 118-124.
    摘要 (773) PDF (3056 KB) (921)
    在大词汇量连续语音识别应用中,优质的语音训练语料是所有识别工作的基础和前提, 能否挑选出覆盖更多语音现象的语料是提高语音识别性能的关键。该文在多种维吾尔文口语化传播平台中采集了大量口语句子语料,并考虑协同发音的影响和常用词的适用性,根据评估函数对语料筛选。经过筛选后的语料包含的三音子更加均衡和高效,囊括的语音现象更加全面,为训练准确而牢靠的语音模型打下了稳固的根基。
  • 珠杰,李天瑞
    2015, 29(2): 125-132.
    摘要 (1087) PDF (3405 KB) (1217)
    停用词的处理是文本挖掘中一个关键的预处理步骤。该文结合现有停用词的处理技术,研究了基于统计的藏文停用词选取方法,通过实验分析了词项频率、文档频率、熵等方法的藏文停用词选用情况,提出了藏文虚词、特殊动词和自动处理方法相结合的藏文停用词选取方法。实验结果表明,该方法可以确定一个较合理的藏文停用词表。
  • 田生伟,钟军,禹龙
    2015, 29(2): 133-141.
    摘要 (892) PDF (1853 KB) (932)
    多词领域术语抽取是自然语言处理技术中的一个重点和难点问题, 结合维吾尔语语言特征,该文提出了一种基于规则和统计相结合的维吾尔语多词领域术语的自动抽取方法。该方法分为四个阶段: ①语料预处理, 包括停用词过滤和词性标注; ② 对字串取N元子串, 利用改进的互信息算法和对数似然比率计算子串内部的联合强度, 结合词性构成规则, 构建候选维吾尔语多词领域术语集; ③ 利用相对词频差值, 得到尽可能多的维吾尔语多词领域术语; ④ 结合C_value值获取最终领域术语并作后处理。实验结果准确率为85.08%, 召回率为 73.19%, 验证了该文提出的方法在维吾尔语多词领域术语抽取上的有效性。
  • 刘汇丹,诺明花,马龙龙,吴 健,贺也平
    2015, 29(1): 170-177.
    摘要 (1009) PDF (2523 KB) (1424)
    该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。
  • 飞 龙,高光来,鲍玉来
    2015, 29(1): 178-182.
    摘要 (619) PDF (2198 KB) (1288)
    蒙古语语音识别系统的词表很难覆盖所有的蒙古文单词,并且随着社会的发展,蒙古文的新词和外来词也越来越多。为了解决蒙古语语音关键词检测系统中的集外词检测问题,该文提出了基于音素混淆网络的蒙古语语音关键词检测方法,并采用音素混淆矩阵改进了关键词的置信度计算方法。实验结果表明,基于音素混淆网络的蒙古语语音关键词检测方法可以较好地解决集外词的检测问题。蒙古语语音关键词检测系统采用改进的置信度计算方法后精确率提高了6%,召回率提高了2.69%,性能得到明显的提升。
  • 陈新一,夏建华,杜玉祥,万福成,于洪志
    2015, 29(1): 183-190.
    摘要 (691) PDF (9671 KB) (886)
    该文分析了藏文Web网络的度分布和最大度优先搜索算法存在的问题,提出了搜索效率更高的二分度搜索算法和双遍历器的二分度与最大度同步搜索算法。根据社区划分原理,设计和构建了藏文Web社区环境下的搜索算法,实验结果表明,其平均搜索步数和平均查询信息量都优于实验中其他搜索算法。
  • 边巴旺堆,卓 嘎, 董志诚,武 强,王龙业
    2015, 29(1): 191-196.
    摘要 (945) PDF (3387 KB) (1243)
    为了顺利实现藏文词语的排序算法,在藏文构件元素识别算法的基础上,该文通过建立藏文规则函数和定义藏文构件的优先级,提出了基于笛卡尔积数学模型的现代藏文音节的优先级算法。该方法既遵循藏文构词原则,又符合语法规则,同时为藏文词语排序算法提供了新的研究思路。最后该文用藏文“”系的所有满足语法规则的词语对本算法进行测试,结果表明该算法符合现代藏文词典的排序要求,且排序效率更好。
  • 史建国,侯宏旭,飞 龙
    2015, 29(1): 197-202.
    摘要 (652) PDF (2048 KB) (1165)
    斯拉夫蒙古文是蒙古国现行的文字,又称为西里尔蒙古文或新蒙古文。蒙古文词干和词缀包含着大量信息,斯拉夫蒙古文词切分是斯拉夫蒙古文信息处理众多后续工作的基础。该文尝试了将词典和规则结合的方法对斯拉夫蒙古文进行词切分。首先预处理部分蒙古文词,然后基于词典切分高频和部分不符合规则的词。最后对剩余的词,用切分规则生成多个候选的词切分方案,然后在这些方案中选出最优方案。通过两种方法的有机结合,发挥各自的优点,得到了性能较好的斯拉夫蒙古文词切分系统。
  • 乌 兰,达胡白乙拉,关晓炟,周 强
    2014, 28(5): 162-169.
    摘要 (806) PDF (1639 KB) (874)
    Baidu(6)
    句法分析在自然语言信息处理中处于非常关键的位置。该文在描述蒙古语特点的同时提出蒙古语句子中短语结构分析难点。根据蒙古语自身特点,归纳了短语标注体系,建立了蒙古语短语树库,尝试实现蒙古语句子的自动分析。初次开发的句法分析器的分析准确率达到62%,自动分析器的测试结果表明该分析器能在较大程度上辨别出短语结构类型,能生成句法树结构,但在短语结构内部关系方面的识别效果还有很大改进空间。最后总结了分析器近期能解决的相关问题。
  • 王天航,史树敏,龙从军,黄河燕,李 琳
    2014, 28(5): 170-175.
    摘要 (750) PDF (2574 KB) (966)
    Baidu(3)
    藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。根据藏语的语言特点,该文在藏语句法功能组块描述体系基础上,提出基于错误驱动学习策略的藏语功能组块边界识别方法。具体思路为,首先基于条件随机场(Conditional Random Fields,CRFs)识别组块,然后分别基于转换规则的错误驱动学习(Transformation-based Error-driven Learning,TBL)及基于新特征模板的CRFs错误驱动学习进行二次识别,并对初次结果进行校正,F值分别提高了1.65%、 8.36%。最后通过实验分析,进一步将两种错误驱动学习机制融合,在18073词级的藏语语料上开展实验,识别性能进一步提高,准确率、召回率与F值分别达到94.1%、94.76%与94.43%,充分验证了本文提出方法的有效性。
  • 龙从军,康才畯,李 琳,江 荻
    2014, 28(5): 176-181.
    摘要 (613) PDF (2829 KB) (1047)
    语义角色标注研究对自然语言处理具有十分重要的意义。英汉语语义角色标注研究已经获得了很多成果。然而藏语语义角色标注研究不管是资源建设,还是语义角色标注的技术探讨都鲜有报道。藏语具有比较丰富的句法标记,它们把一个句子天然地分割成功能不同的语义组块,而这些语义组块与语义角色之间存在一定的对应关系。根据这个特点,该文提出规则和统计相结合的、基于语义组块的语义角色标注策略。为了实现语义角色标注,文中首先对藏语语义角色进行分类,得到语义角色标注的分类体系;然后讨论标注规则的获得情况,包括手工编制初始规则集和采用错误驱动学习方法获得扩充规则集;统计技术上,选用了条件随机场模型,并添加了有效的语言特征,最终语义角色标注的结果准确率、召回率和F值分别达到82.78%、85.71%和83.91%。
  • 张力文,努尔麦麦提·尤鲁瓦斯,吾守尔·斯拉木
    2014, 28(5): 182-186.
    摘要 (813) PDF (2147 KB) (954)
    随着大数据时代的到来,各种音频、视频文件日益增多,如何高效地定位关键敏感信息具有非常重要的研究意义。目前研究人员对针对英语和汉语的语音检索技术进行了深入的研究,而针对维吾尔语的语音检索技术还处于起步阶段。该文对维吾尔语语音关键词检索技术进行了研究并采用了大词汇量连续语音识别、利用聚类算法将多候选词图转换为混淆网络、倒排索引、置信度以及相关度的计算等技术和方法,对维吾尔语语音检索系统进行了研究与搭建。最后在测试集上对该系统进行测试,测试结果显示,在语音识别正确率为82.1%的情况下,检索系统的召回率分别达到97.0%和79.1%时,虚警率分别为13.5%和8.5%。
  • 帕提古力·依马木,买合木提·买买提,吐尔根·依布拉音,卡哈尔江·阿比的热西提
    2014, 28(5): 187-191.
    摘要 (922) PDF (730 KB) (897)
    维吾尔语自动标注是维吾尔语信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性是词的重要的语法信息,假如一个词的词性无法确定或一个词给予错误的词性,对后续句法分析造成直接的影响。本文使用感知器训练算法和viterbi算法对维吾尔语进行词性标注,并在词性标注时利用词的上下文信息作为特征。实验结果表明,该方法对维吾尔语词性标注有良好的效果。
  • 艾孜尔古丽,努尔艾合买提,玉素甫·艾白都拉
    2014, 28(5): 192-197.
    摘要 (811) PDF (1522 KB) (900)
    本文研究了构建现代维吾尔语语料库的关键技术与方法,特别是现代维吾尔语语料库的构建,并对现代维吾尔语语料预处理技术,现代维吾尔语语料统计技术,现代维吾尔语词干提取技术,现代维吾尔语数据分析技术进行了研究;研制了现代维吾尔语常用词候选表, 从词语的使用频度和词语的分布两方面对词语进行了基本考察,将维吾尔语词语的“词种数、频次、频率、文本数、词长”作为常用词候选表的依据。
  • 闫丹辉,毕玉德
    2014, 28(5): 198-205.
    摘要 (1015) PDF (1320 KB) (1394)
    命名实体识别是信息抽取的重要研究内容,主要包括对组织机构名、地名和人名的自动识别。针对英语和汉语的命名实体识别研究开始较早,主要采用基于规则和基于统计的方法进行识别,但目前国内还少有针对越南语命名实体识别的研究。该文分析了越南语命名实体的语言学特点,对其分类并进行了形式化表达,提出了一种基于规则的越南语命名实体识别方法,实验结果显示,该方法能够达到较高的识别准确率。