藏文文本分类特征基元选择

才智杰, 道吉扎西

PDF(1403 KB)
PDF(1403 KB)
中文信息学报 ›› 2023, Vol. 37 ›› Issue (1) : 64-70.
民族、跨境及周边语言信息处理

藏文文本分类特征基元选择

  • 才智杰1,2,道吉扎西1,2,3
作者信息 +

Feature Primitives Selection for Tibetan Text Classification

  • CAI Zhijie1,2, DAO Jizhaxi1,2,3
Author information +
History +

摘要

文本分类是指根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文档按内容自动确定某种类别的技术,是自然语言处理中最基本、最重要的研究内容之一,在信息检索、智能推荐、舆情分析、新闻分类等领域具有极高的应用价值。现阶段,藏文文本分类的主要研究集中在借用英汉等语言文本分类技术构建分类器,英汉等语言以词做分类特征基元构建分类器。由于受藏文分词技术制约,直接以词做藏文文本分类特征基元,其性能有较大的影响。该文在分析文本分类流程及藏文文本构成的基础上,研究了藏文文本分类特征基元选择方法,提出了一种融合词和音节的藏文文本分类特征基元选择方法,并以CNN模型构建的分类器验证了该方法的有效性。

Abstract

Text classification refers to automatically determining a document for its category according to the predefined topic categories. At present, the most existing researches on Tibetan text classification are focused on using English and Chinese text classification technology to build classifiers, which are usually based on word features. Due to the restriction of Tibetan word segmentation technology, the performance of Tibetan text classification is greatly affected by using word features. This paper proposes a feature primitives selection method for Tibetan text classification by combining words and syllables, and the classifier constructed by CNN model verifies the effectiveness of the method.

关键词

自然语言处理 / 藏文 / 基元 / 文本分类

Key words

natural language processing / Tibetan / primitives / text classification

引用本文

导出引用
才智杰, 道吉扎西. 藏文文本分类特征基元选择. 中文信息学报. 2023, 37(1): 64-70
CAI Zhijie, DAO Jizhaxi. Feature Primitives Selection for Tibetan Text Classification. Journal of Chinese Information Processing. 2023, 37(1): 64-70

参考文献

[1] 才智杰.藏文自动切分系统中紧缩词的识别[J].中文信息学报,2009,23(1): 35-37.
[2] 才智杰.班智达藏文自动分词系统的设计与实现[J].青海师范大学民族师范学院学报,2010, 21(2): 75- 77.
[3] 才智杰,才让卓玛.藏文自动分词系统设计[J].计算机工程与科学,2011,33(5): 151-154.
[4] 才智杰,才让卓玛.班智达藏文标注词典库设计[J].中文信息学报,2010, 24(5): 46-49.
[5] 孙媛,罗桑强巴,杨锐,等.藏语自动分词方案的设计[C]. 中国少数民族语言文字信息处理研究与进展,2009: 228-237.
[6] 史晓东,卢亚军.央金藏文分词系统[J].中文信息学报,2011,25(04): 54-56.
[7] 李亚超,加羊吉,宗成庆,等.基于条件随机场的藏语自动分词方法研究与实现[J].中文信息学报,2013,27(4): 51-58.
[8] 李亚超,江静,加羊吉,等.TIP-LAS: 一个开源的藏文分词词性标注系统[J].中文信息学报,2015,29(06): 204-207.
[9] 李亚超,加羊吉,江静,等.融合无监督特征的藏文分词方法研究[J]. 中文信息学报,2017,31(02): 72-75.
[10] 才让卓玛, 才智杰.基于词性约束的藏文分词策略与算法[J].中文信息学报,2020,34(2): 33-3
[11] 才智杰.藏文词向量表示关键技术研究[D].西宁: 青海师范大学博士学位论文,2018.
[12] MARON M E.Automatic indexing: an experimental inquiry[J].Journal of the ACM,1961,8(3): 404-417.
[13] MOHAMED G,MOULOUD K,MOULDI B,et al. A novel active learning method using SVM for text classification[J].International Journal of Automation and Computing,2018,15(3): 290-298.
[14] HAN E H, KARYPIS G, KUMAR V. Text categorization using weight adjusted k-nearest neighbor classification[C]//Proceedings of the Pacific-Asia Conference on Knowledge Discovery and Data Mining. Springer, Berlin, Heidelberg, 2001: 53-65.
[15] SHARMA N, SINGH M. Modifying Naive Bayes classifier for multinomial text classification[C]//Proceedings of the International Conference on Recent Advances and Innovations in Engineering. IEEE, 2016: 1-7.
[16] 林荣华.基于卷积神经网络的句子分类算法[D].杭州: 浙江大学硕士学位论文,2015.
[17] ARVIAN G. Recurrent neural networks for robust real-world text classification[C]//Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence. IEEE,2007: 326-329.
[18] ZHOU C, SUN C, LIU Z, et al. A C-LSTM neural network for text classification[J]. Computer Science, 2015, 1(4): 39-44.
[19] 贾会强.基于KNN算法的藏文文本分类关键技术研究[J].西北民族大学学报(自然科学版),2011,32(03): 24-29.
[20] 王勇.基于朴素贝叶斯的藏文文本分类研究[D].兰州: 西北民族大学硕士学位论文,2013.
[21] 贾宏云,群诺,苏慧婧,等.基于SVM藏文文本分类的研究与实现[J].电子技术与软件工程,2018(09): 144-146.
[22] 包晗,西热旦增,郭龙银,等.基于随机森林的藏文文本分类[J].电脑知识与技术,2019,15(34): 178-180.
[23] 苏慧婧,群诺,贾宏云.基于Gaussian NB模型的藏文文本分类研究与实现[J].青海师范大学学报(自然科学版),2019,35(04): 1-4.
[24] 王莉莉,杨鸿武,宋志蒙.基于多分类器的藏文文本分类方法[J].南京邮电大学学报(自然科学版),2020,40(01): 102-110.
[25] 苏慧婧,索朗拉姆,尼玛扎西,等.基于MLP和SepCNN神经网络模型的藏文文本分类研究[J].软件,2020,41(12): 11-17.
[26] 才智杰,才让卓玛,孙茂松.一种多基元联合训练的藏文词向量表示方法[J].中文信息学报,2020,34(05): 44-49.

基金

国家自然科学基金(61866032,61966031);青海省科技厅资助项目(2019-SF-129);“长江学者和创新团队发展计划”创新团队资助项目(IRT1068);藏文信息处理教育部重点实验室项目(2013-Z-Y17,2014-Z-Y32,2015-Z-Y03);青海省藏文信息处理与机器翻译重点实验室项目(2020-ZJ-Y05)
PDF(1403 KB)

Accesses

Citation

Detail

段落导航
相关文章

/