中文信息学报

Select

才让卓玛,才智杰

2017, 31(5): 59-63.

摘要 (726) PDF (1285 KB) (1227)

在基于语料库的语音合成方法中,语音合成单元选择的优劣直接影响合成语音的自然度和流畅性。该文针对藏语言文字的特点,提出以基本构件、组合构件、字、词及句单元相融合的混合单元语音合成策略,并提出了藏语语音合成混合单元选择算法。主观评价与客观评测数据表明该策略与算法有效和合理,各类合成单元在开放语料上的覆盖率与语音合成效果均达到预期的目标。

Select

基于部件组合的联机手写“藏文—梵文”样本生成

王维兰,卢小宝,蔡正琦,沈文韬,付吉,才科扎西

2017, 31(5): 64-73.

摘要 (804) PDF (7971 KB) (706)

“藏文—梵文”包括500多个现代藏文、6 000多个梵音藏文,在文字识别领域属于大类别的字符集,所以联机手写样本采集是庞大而复杂的工程。鉴于此,提供了一种基于部件组合的“藏文—梵文”手写样本生成方法,主要包括: (1)确定“藏文—梵文”字符集和部件集;(2)获取“藏文—梵文”字丁的部件位置信息;(3)采集联机手写“藏文—梵文”部件的样本;(4)生成联机手写“藏文—梵文”字符集样本库。该文为联机手写“藏文—梵文”识别的研究提供字符训练样本库和测试样本库,提高了手写梵音藏文样本采集效率,解决了样本数量及多样性问题,降低了样本采集成本,为进一步联机手写梵音藏文识别的研究与系统开发奠定了基础。

Select

基于字素分割的蒙古文手写识别研究

范道尔吉,高光来,武彗娟

2017, 31(5): 74-80.

摘要 (927) PDF (2652 KB) (1322)

隐马尔科夫模型(HMM)对序列数据有很强的建模能力,在语音和手写识别中都得到了广泛的应用。利用HMM研究蒙古文手写识别,首先需要解决的问题是手写文字的序列化。从蒙古文的构词和书写特点看,蒙古文由多个字素从上到下串联构成。选择字素集合和词的字素分割是手写识别的基础,也是影响识别效果的关键因素。该文根据蒙古文音节和编码知识确定了蒙古文字母集合,共包括1 171个字母。通过相关性处理、HMM排序筛选等手段得到长字素集合,共包括378个字素。对长字素经过人工分解,获得了50个短字素。最后利用两层映射给出了词转字素序列的算法。为了验证长短字素在手写识别中的效果,我们在HTK(hidden Markov model toolkit)环境下利用小规模字库实现了手写识别系统,实验结果表明短字素比长字素有更好的性能。文中给出的字素集合和词转字素序列的算法为后续基于HMM的蒙古文手写识别研究奠定了基础。

Select

齐普夫定律对朝鲜语适用性的测定

崔荣一,赵雪

2017, 31(5): 81-84,91.

摘要 (911) PDF (2012 KB) (1043)

该文目的在于验证齐普夫定律对朝鲜语的适用性。首先统计了朝鲜语大规模语料中的文字及字母两种语言单位的频率分布,然后利用最小二乘法对文字频率分布曲线进行了拟合,最后计算了文字字频齐普夫定律的参数估计值。实验结果表明,朝鲜语的文字和字母的频率与频级关系都近似符合齐普夫定律,验证了齐普夫定律对朝鲜语的适用性,这对朝鲜语的信息处理与研究具有重要的现实意义。

Select

蒙古语固定短语识别算法的设计与实现

斯·劳格劳

2017, 31(5): 85-91.

摘要 (665) PDF (3478 KB) (995)

固定短语的自动识别和标注是进行蒙古语文本处理的基础和前提条件。词类标注、短语标注、句法分析、语义分类及语义角色标注等基础研究和机器翻译、文本校对等应用系统的开发均以正确标注固定短语的文本为处理对象。该文在“蒙古语固定短语语法信息词典”的基础上采用基于有限状态自动机和规则的方法设计实现了固定短语识别和标注算法。经实验,其识别率已达到90%以上,在处理中,词均用时与基于字符串匹配的算法相比提高较多,达到0.005 0ms。

Select

维吾尔语名词短语待消解项识别

陶豆豆,禹龙,田生伟,赵建国,吐尔根·依布拉音,艾斯卡尔·艾木都拉

2017, 31(5): 92-98,113.

摘要 (775) PDF (1851 KB) (1121)

针对维吾尔语名词短语待消解项识别任务,该文提出一种利用栈式非负约束自编码器(Stacked Nonnegative Constrained Autoencoder,SNCAE)完成基于语义特征的待消解项识别方法。为了提高自动编码器隐藏层激活度的稀疏性和重构数据的质量,利用NCAE非负约束算法,为连接权值施加非负性约束。通过分析维吾尔语名词短语语言指代现象,提取出15个特征,利用SNCAE提取出深层语义特征,引入Softmax分类器,进而完成待消解项识别任务。该方法在维吾尔语名词短语待消解项识别中,正例准确率和负例准确率分别比SVM高出8.259%和4.158%,比栈式自编码(SAE)高出1.884%和1.590%,表明基于SNCAE的维吾尔语名词短语待消解项识别方法比SVM和SAE更适合维吾尔文的待消解项识别任务。

Select

基于语义串特征提取及融合评价的维吾尔文文本聚类

吐尔地·托合提,维尼拉·木沙江,艾斯卡尔·艾木都拉

2017, 31(5): 99-107.

摘要 (736) PDF (5329 KB) (1535)

该文研究一种改进的n元递增算法来抽取文本中表达关键信息的语义串,然后用多特征融合的评价方法为每一个文本选取最重要的语义串,并用这些语义串作为特征表示文本。通过K_means聚类分析的实验结果表明,以语义串作为特征可以构造比单词特征集更紧凑的文本模型,不仅可以大大降低特征空间的维度,对于提高聚类算法性能也是非常有效的。

Select

维吾尔文初中数学教材词干分析研究

艾孜尔古丽,艾孜海尔江,玉素甫·艾白都拉,祖力克尔江,米尔夏提

2017, 31(5): 108-113.

摘要 (904) PDF (1365 KB) (967)

该文将初中数学维吾尔文教材作为研究对象,根据维吾尔语的特点和统计学原理理论,从计算语言学角度调查初中数学维吾尔文教材用词干情况。该文主要研究维吾尔语词干、教材概貌、数据处理技术相关概念及其算法及现代维吾尔语语料处理工具,获取教材中词干基本情况、新增词干、初中数学教材高频词干,开展了初中数学维吾尔文教材词干调查,为维吾尔语研究、维吾尔文数学教学与教材编纂等提供参考依据,从而更加积极有效地促进维吾尔语语言本身研究及其信息处理的发展。

“民族语言与周边语言信息处理” 栏目所有文章列表

选择文件类型/文献管理软件名称

选择包含的内容