本文研究了构建现代维吾尔语语料库的关键技术与方法,特别是现代维吾尔语语料库的构建,并对现代维吾尔语语料预处理技术,现代维吾尔语语料统计技术,现代维吾尔语词干提取技术,现代维吾尔语数据分析技术进行了研究;研制了现代维吾尔语常用词候选表, 从词语的使用频度和词语的分布两方面对词语进行了基本考察,将维吾尔语词语的“词种数、频次、频率、文本数、词长”作为常用词候选表的依据。
Abstract
This paper studies key technologies for the modern Uyghur language corpus construction, in particular the collection of modern Uyghur language corpus, and the pre-processing of modern Uyghur corpus, the statistical technique in modern Uyghur corpus, the stemming of modern Uyghur and the analysis of modern Uyghur data. To develope a candidate list for modern Uyghur common words, this paper examines the words in two aspects: the frequency and distribution, specifically including the word species, frequency , frequency rate, document coverage word length.
关键词
现代维吾尔语 /
语料库 /
常用词候选表 /
计量分析
{{custom_keyword}} /
Key words
modern Uyghur language /
corpus /
common words lexicon /
quantitative analysis
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] 艾孜尔古丽,李晓,玉素甫·艾白都拉.中小学维吾尔语文教材用词数据分析方法与应用研究[J].计算机工程与应用,2014,2: 108-111.
[2] 艾孜尔古丽,艾山江·阿不力孜,玉素甫·艾白都拉.现代维吾尔文网络媒体用词研究[J].计算机应用与软件,2012,2: 67-68.
[3] 艾孜尔古丽等.基于网站用词调查的现代维吾尔语词干提取和应用[J].计算机应用与软件,2012,3: 32-34.
[4] 艾孜尔古丽,齐向伟,玉素甫·艾白都拉.现代维吾尔语语言资源监测中数据分析技术研究[J].计算机应用与软件, 2013,4: 36-39.
[5] 玉素甫,艾孜尔古丽.基于网站用词调查的现代维吾尔语词尾切分和应用研究[J].计算机应用与软件,2012,4: 13-15.
[6] 玉素甫,艾孜尔古丽,祖力皮亚.基于网站用词调查的现代维吾尔语词长研究[J].计算机应用与软件,2012,5: 32-34.
[7] 玉素甫.信息处理用现代维吾尔语词干类标记集研究[J].信息技术与标准化,2011,6: 45-48.
[8] 苏新春.汉语词汇计量研究[M].厦门大学出版社,2001.
[9] 苏新春,杨尔弘.2005年度汉语词汇大规模统计的分析与思考[J].厦门大学学报,2006年6月.
[10] 赵小兵.基于动态流通语料库的现代汉语基本词汇自动识别与提取方法研究[D].博士学位论文,2007年6月.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
新疆维吾尔自治区自然科学基金(2014211A045);教育部人文社会科学一般项目(14YJC740001);新疆维吾尔自治区高校科研计划青年教师科研启动基金(20140706213103147);国家自然科学基金(61132009);国家自然科学基金项目(61262066);国家语委“十二五”科研规划项目(YB125-45)。
{{custom_fund}}