“少数民族语言信息处理” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 飞 龙;高光来;王洪伟;路 敏
    2017, 31(3): 156-162.
    摘要 (927) PDF (2883 KB) (1083)
    Baidu(3)
    西里尔蒙古文与传统蒙古文分别是蒙古国与中国使用的蒙古文,西里尔蒙古文到传统蒙古文的转换工作不仅给两国同胞的交流带来更多的便利,而且对蒙古族的科学、文化和教育发展具有重要意义。本文结合规则与统计模型的优点,研究了西里尔蒙古文到传统蒙古文的转换方法。本文首先采用基于规则的方法对西里尔蒙古文集内词进行转换,其次对集外词的转换采用了基于联合序列模型的方法,并采用N-gram语言模型解决了一个西里尔蒙古文单词对应多个传统蒙古文单词的问题。实验结果表明,该系统单词转换错误率低至4.12%,基本达到了实用要求。
  • 江 涛;袁 斌;于洪志;加羊吉
    2017, 31(3): 163-169.
    摘要 (1001) PDF (1227 KB) (1392)
    Baidu(5)
    中英文微博大都以单一语种来表述,而将近80%的藏文微博都是以藏汉混合文本形式呈现,若只针对藏文内容或中文内容进行情感倾向性分析会造成情感信息丢失,无法达到较好效果。根据藏文微博的表述特点,该文提出了基于多特征的情感倾向性分析算法,算法使用情感词、词性序列、句式信息和表情符号作为特征,并针对藏文微博常出现中文表述的情况,将中文的情感信息也作为特征进行情感计算,利用双语情感特征有效提高了情感倾向性分析的效果。实验显示,该方法对纯藏文表述的微博情感倾向性分析正确率可达到79.8%,针对藏汉双语表述的微博在加入中文情感词、中文标点符号等特征后,正确率能够达到82.8%。
  • 刘双君,金小峰,崔荣一
    2017, 31(2): 55-60.
    摘要 (657) PDF (3870 KB) (1704)
    Baidu(1)
    该文提出了一种基于基音频率特征的中国朝鲜族语言、韩国朝鲜语和朝鲜朝鲜语方言的自动辨识方法。首先,选择具有良好区分度的基频移位差分系数作为三个方言的特征参数;其次,设计和采用了分层支持向量机分类器,并进一步引入投票法确定最佳的分类结果。实验结果表明该文提取的特征参数具有良好的区分性和较强的稳定性,该文提出的方言辨识方法比传统的移位差分倒谱系数特征方法识别率高,可以有效解决朝鲜朝鲜语、韩国朝鲜语和中国朝鲜族语言的方言辨识问题。
  • 刘汇丹,洪锦玲,诺明花,吴 健
    2017, 31(2): 61-70.
    摘要 (738) PDF (2315 KB) (1574)
    针对从互联网获取的一份包含19万藏文网页,总计427万句、9 328万音节字的藏文文本语料,该文按照预定的规则对其中的藏文音节拼写错误情况进行了统计与分析。数据显示,在语料中出现的共计20 743个藏文音节中,含有拼写错误的音节共有9 700个,占藏文音节总数的46.762 8%,错误音节在语料中共出现27 427次,仅占0.030 8%,说明这份语料的文本质量是相当高的。文中还详细统计了各种不同表现形式的错误音节所占比重,并分析了导致拼写错误的四个主要原因: 一是输入了多余的元音符号;二是音节点或句尾空格缺失;三是同一字丁/字符存在多种表达形式;四是错误地使用了相似字符。
  • 李亚超,加羊吉,江 静,何向真,于洪志
    2017, 31(2): 71-75.
    摘要 (851) PDF (1363 KB) (1809)
    Baidu(3)
    藏文分词是藏文信息处理的基础性关键问题,目前基于序列标注的藏文分词方法大都采用音节位置特征和类别特征等。该文从无标注语料中抽取边界熵特征、邻接变化数特征、无监督间隔标注等无监督特征,并将之融合到基于序列标注的分词系统中。从实验结果可以看出,与基线藏文分词系统相比,分词F值提高了0.97%,并且未登录词识别结果也有较大的提高。说明,该文从无标注数据中提取出的无监督特征较为有效,和有监督的分词模型融合到一起显著提高了基线分词系统的效果。
  • 完么扎西,尼玛扎西
    2014, 28(4): 132-139.
    摘要 (636) PDF (6692 KB) (1239)
    Baidu(5)
    在分析现有的藏语自动分词方法基础上,该文通过分析藏文构词规则、句法结构、词的前后词性关系、后加字的添接法和格助词的用法等来重点研究了未登录词、紧缩词和交集型歧义的识别及处理方法,并提出了“重组法”,“排除—还原法”和“词性规则法”三种方法。经测试,在文学类、诗歌类、医学类和新闻类等大小为1M的藏语语料中未登录词、紧缩词和交集型歧义的识别准确率分别达到99.84%、99.95%和92.02%。
  • 吐尔地·托合提, 艾克白尔·帕塔尔, 艾斯卡尔·艾木都拉
    2014, 28(4): 140-144.
    摘要 (971) PDF (1910 KB) (1091)
    基于机器学习的文本分类中,维吾尔文传统分词方法表现出非常明显的不足和局限性。该文使用另外一种维吾尔文自动分词方法dme-TS。dme-TS中,不再以词间空格作为切分标记提取词特征,而是用一种组合统计量(dme)来度量文本中相邻单词之间的关联程度,并以dme度量的弱关联的词间位置作为切分点,提取对学习算法真正有意义的语义词特征。实验结果表明,用dme-TS提取文本特征可以降低特征空间的维度,同时也能有效的提高传统以单词为特征的分类算法的性能。
  • 珠 杰, 李天瑞,刘胜久
    2014, 28(3): 92-98.
    摘要 (706) PDF (5331 KB) (869)
    拼写检查作为文本处理中的重要内容,在字处理软件、文字识别、语音识别、搜索引擎等领域具有广泛的应用。该文以藏文语音特性建立的字组织法为依据,以藏文音节规则为模型,提出了藏文音节规则模型(TSRM)的藏文音节拼写检查算法,并通过2组实验验证了算法的有效性。在没有考虑梵音转写藏文的情况下,拼写错误检查的准确率可以达到99.8%。
  • 扎西加, 多 拉
    2014, 28(3): 99-103.
    摘要 (582) PDF (569 KB) (868)
    针对藏语自然语言形式化的实际需求,分析了用复杂特征描述藏语句子的必要性,引入了复杂特征集和合一运算的概念。以形式化为出发点,以现代语言学理论为后盾,以实例举证的方式对藏语词汇、句法、语义的规则及句子合一运算提出了探索性的研究思路,并且采用框式表示的方法,力求从形式化的角度为藏语自然语言处理提供便利。
  • 边巴旺堆,卓 嘎,陈延利, 武 强
    2014, 28(3): 104-111.
    摘要 (688) PDF (7974 KB) (604)
    要实现藏文排序算法,必须解决组成藏文音节的构件元素识别,然后由构件元素的优先级进行排序。本文通过对藏文的文字结构、书写规律以及文法规则的研究,设计了符合现代藏文的构件元素识别算法。在该算法中对藏文特殊音节的二义性、双元音和缩写等问题进行了处理。实验表明该算法能够满足实际藏文构件元素识别的需要。另外,为了在国家编码标准下输入的藏文词语也能利用本算法正确识别其构件元素,在算法中做了相应处理。
  • 热依曼·吐尔逊, 吾守尔·斯拉木
    2014, 28(3): 112-115.
    摘要 (761) PDF (1200 KB) (1087)
    该文介绍一种维吾尔语联机手写体识别系统。其针对维吾尔语词语的书写特点采用了基于多分类器融合的系统和方法,分别使用混合高斯模型模拟整词的静态特征和隐马尔科夫模型模拟书写笔迹的动态特征,有效地提升了识别系统的准确率。在第一期实验中,整词识别率达到97%;第二期的实验中,整词识别率达到99%。
  • 华却才让,刘 群,赵海兴
    2014, 28(2): 56-60.
    摘要 (719) PDF (1895 KB) (1065)
    该文在分析了现有藏文词性标注方法的基础上,提出感知机训练模型的判别式藏语词性标注方法,重点研究了符合藏语词法特性的模型训练特征模板、模型训练和词性标注方法。并且在人工标注的测试集上获得了98.26%的词性标注精确率,可以实际应用到藏语自然语言处理中。
  • 孙 萌,华却才让,才智杰,姜文斌,吕雅娟,刘 群
    2014, 28(2): 61-65.
    摘要 (598) PDF (2913 KB) (917)
    本文提出一种基于判别式模型的藏文分词方法,重点研究最小构词粒度和分词结果重排序对藏文分词效果的影响。在构词粒度方面,分别考察了以基本字丁、基本字丁-音节点、音节为最小构词粒度对分词效果的影响,实验结果表明选定音节为最小构词粒度分词的F值最高,为91.21%;在分词结果重排序方面,提出一种基于词图的最短路径重排序策略,将判别式解码生成的切分结果压缩为加权有向图,图中节点表示音节间隔,而边所覆盖的音节作为候选切分并赋予不同权重,选择一条最短路径从而实现整句切分,最终分词结果的F值达到96.25%。
  • 麦合甫热提,艾山·吾买尔,麦热哈巴·艾力,吐尔根·伊布拉音,张 健
    2014, 28(2): 66-71.
    摘要 (927) PDF (1469 KB) (869)
    该文通过研究国内外相关的拼写错误查错和纠错方法的理论,再结合维吾尔语自身的特点,提出了基于词典和统计相结合的维吾尔语拼写查错方法。首先,提出基于词典的方法进行词库和词干提取的拼写检查;其次,提出基于N元语法的词缀连接有效性判断模型,对未登录词提出基于N元语法的拼写检查模型;最后,结合以上几种方法各自的优点提出基于混合策略的拼写检查方法,该方法在准确性和检查结果可靠性等方面得到了较显著的提高。
  • 王辉,努尔麦麦提·尤鲁瓦斯,吾守尔·斯拉木
    2014, 28(1): 100-106.
    摘要 (609) PDF (3048 KB) (903)
    Baidu(4)
    该文对不同语速下,人工标注的维吾尔语连续语音语料中各音素进行共振峰频率、音长、音强的统计分析,并完成辅-元结构下的塞音、塞擦音的声学特征分析。该文通过美尔频率倒谱系数与共振峰频率等声学特征的融合及模型状态数的修改,对维吾尔语音素识别的声学模型进行了改进,并验证了不同声学特征对音素识别的影响。相比于基线系统,改进后声学模型的识别率取得一定提升。同时,利用语音学知识分析维吾尔语易混淆音素产生原因,为音素识别声学模型的进一步改进提供参考依据。
  • 加羊吉,李亚超,宗成庆,于洪志
    2014, 28(1): 107-112.
    摘要 (680) PDF (2186 KB) (925)
    藏文人名识别是藏文信息处理领域研究的难点之一,其识别效果直接影响到藏文自动分词的精度和相关应用系统的性能,包括藏汉翻译、藏文信息检索、文本分类等。该文在分析藏文人名构成规律和特点的基础上,提出了一种最大熵和条件随机场相融合的藏文人名识别方法。实验表明,该方法可以获取较好的识别效果,在我们的测试集上F-测度值到达了93.08%。
  • 高定国,扎西加,赵栋材
    2014, 28(1): 113-117.
    摘要 (658) PDF (1846 KB) (1049)
    藏文虚词的研究是藏文信息处理技术中词、句及语义研究的基础,而计算机自动识别藏文虚词又是藏语虚词研究的前提。该文在论述藏语虚词在藏语文本中的作用和使用方法的基础上,分析了计算机识别藏语虚词的难度,提出了一个计算机识别藏语虚词的方法,并用2525句典型藏文句子进行了验证,对结果进行分析发现藏文虚词识别的正确率高达97.0768%。
  • 邓俊,吾守尔·斯拉木,艾尼宛尔·托乎提,袁廷磊,赵志成
    2014, 28(1): 118-124.
    摘要 (793) PDF (6398 KB) (790)
    通过二次修改WebKit内核来定制浏览器功能是当前嵌入式应用开发的热点。在研究Android平台浏览器引擎WebKit的基础上,综合分析多款浏览器在访问维吾尔文网站时出现的显示问题,找出访问维文网页时显示异常的原因。最后根据维吾尔文文字特点进行研究、设计维文浏览器架构,提出在应用层开发维文网页渲染引擎,实现Android平台的维吾尔文浏览器。