现代维吾尔语常用词统计关键技术研究

艾孜尔古丽,努尔艾合买提,玉素甫·艾白都拉

PDF(1522 KB)
PDF(1522 KB)
中文信息学报 ›› 2014, Vol. 28 ›› Issue (5) : 192-197.
少数民族及周边语言信息处理

现代维吾尔语常用词统计关键技术研究

  • 艾孜尔古丽,努尔艾合买提,玉素甫·艾白都拉
作者信息 +

Research on Key Technology for Statistics of Modern Uyghur Language

  • Azragul, Nurahmat, Yusup Abaydula
Author information +
History +

摘要

本文研究了构建现代维吾尔语语料库的关键技术与方法,特别是现代维吾尔语语料库的构建,并对现代维吾尔语语料预处理技术,现代维吾尔语语料统计技术,现代维吾尔语词干提取技术,现代维吾尔语数据分析技术进行了研究;研制了现代维吾尔语常用词候选表, 从词语的使用频度和词语的分布两方面对词语进行了基本考察,将维吾尔语词语的“词种数、频次、频率、文本数、词长”作为常用词候选表的依据。

Abstract

This paper studies key technologies for the modern Uyghur language corpus construction, in particular the collection of modern Uyghur language corpus, and the pre-processing of modern Uyghur corpus, the statistical technique in modern Uyghur corpus, the stemming of modern Uyghur and the analysis of modern Uyghur data. To develope a candidate list for modern Uyghur common words, this paper examines the words in two aspects: the frequency and distribution, specifically including the word species, frequency , frequency rate, document coverage word length.

关键词

现代维吾尔语 / 语料库 / 常用词候选表 / 计量分析

Key words

modern Uyghur language / corpus / common words lexicon / quantitative analysis

引用本文

导出引用
艾孜尔古丽,努尔艾合买提,玉素甫·艾白都拉. 现代维吾尔语常用词统计关键技术研究. 中文信息学报. 2014, 28(5): 192-197
Azragul, Nurahmat, Yusup Abaydula. Research on Key Technology for Statistics of Modern Uyghur Language. Journal of Chinese Information Processing. 2014, 28(5): 192-197

参考文献

[1] 艾孜尔古丽,李晓,玉素甫·艾白都拉.中小学维吾尔语文教材用词数据分析方法与应用研究[J].计算机工程与应用,2014,2: 108-111.
[2] 艾孜尔古丽,艾山江·阿不力孜,玉素甫·艾白都拉.现代维吾尔文网络媒体用词研究[J].计算机应用与软件,2012,2: 67-68.
[3] 艾孜尔古丽等.基于网站用词调查的现代维吾尔语词干提取和应用[J].计算机应用与软件,2012,3: 32-34.
[4] 艾孜尔古丽,齐向伟,玉素甫·艾白都拉.现代维吾尔语语言资源监测中数据分析技术研究[J].计算机应用与软件, 2013,4: 36-39.
[5] 玉素甫,艾孜尔古丽.基于网站用词调查的现代维吾尔语词尾切分和应用研究[J].计算机应用与软件,2012,4: 13-15.
[6] 玉素甫,艾孜尔古丽,祖力皮亚.基于网站用词调查的现代维吾尔语词长研究[J].计算机应用与软件,2012,5: 32-34.
[7] 玉素甫.信息处理用现代维吾尔语词干类标记集研究[J].信息技术与标准化,2011,6: 45-48.
[8] 苏新春.汉语词汇计量研究[M].厦门大学出版社,2001.
[9] 苏新春,杨尔弘.2005年度汉语词汇大规模统计的分析与思考[J].厦门大学学报,2006年6月.
[10] 赵小兵.基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D].博士学位论文,2007年6月.

基金

新疆维吾尔自治区自然科学基金(2014211A045);教育部人文社会科学一般项目(14YJC740001);新疆维吾尔自治区高校科研计划青年教师科研启动基金(20140706213103147);国家自然科学基金(61132009);国家自然科学基金项目(61262066);国家语委“十二五”科研规划项目(YB125-45)。
PDF(1522 KB)

700

Accesses

0

Citation

Detail

段落导航
相关文章

/