老挝语属于低资源语言,在有限的语料中获取更多的语义信息可以有效解决汉语和老挝语短文本相似度计算不准确的问题。多任务学习是有效获取语义信息的一种方法,该文对汉语和老挝语短文本特点进行研究后,提出一种融合词性位置特征的多任务汉老双语短文本相似度计算方法: 首先,通过词性位置特征权重和TF-IDF权重加权表征双语短文本的同时,使用改进后的TextRank算法获取双语短文本的核心句;然后,通过带有自注意力机制的双向长短时记忆网络分别计算双语短文本的相似度与双语短文本对应核心句的相似度;最后,使用多任务学习方法,将双语短文本的核心句相似度计算作为辅助任务,获取更多的语义信息进行共享以提升汉老双语短文本相似度计算模型的性能。实验结果表明,该文提出的方法在有限的训练语料下取得了更好的效果,F1值达76.16%。
Abstract
To acquire more semantic information from short texts in both Chinese and Lao, this paper studies the characteristics of short texts in Chinese and Lao and proposed to employ part-of-speech and position information is characteristics in a multi-task short text similarity computation method. Firstly, part-of-speech and position weights are augmented to the TF-IDF weight presentation of short texts in both languages, and then the improved TextRank algorithm is applied to obtain the core sentences of short texts in both languages. Subsequently, bi-directional long-short-term memory network with self-attention mechanism is applied to compute the similarity of short texts in both languages and similarity of corresponding core sentences, respectively. Finally, the multi-task learning method is applied for the similarity computing model of short texts in both Chinese and Lao, with the core sentence similarity computing of short texts in both languages as the auxiliary task,. The test results indicated that the method proposed in this paper achieved good performances with limited training linguistic materials (76.16%).
关键词
汉语-老挝语 /
词性位置特征 /
多任务学习 /
短文本相似度计算
{{custom_keyword}} /
Key words
Chinese-Lao /
part of speech and position characteristics /
multi-task learning /
short text similarity computation
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] SAHAMI M, TIMOTHY D H. A web-based kernel unction for measuring the similarity of short text snippets[C]//Proceedings of the 15th International Conference on World Wide Web, 2006: 377-386.
[2] 刘令强. 短文本相似度的关键技术研究[D]. 南宁: 广西师范大学硕士学位论文,2016.
[3] 翟延冬, 王康平, 张东娜, 等. 一种基于WordNet的短文本语义相似性算法[J]. 电子学报, 2012, 40(3): 617-620.
[4] ATOUM I, OTOOM A. Efficient hybrid semantic text similarity using WordNet and a corpus[J]. International Journal of Advanced Computer Ence & Applications, 2016, 7(9):124-130.
[5] 霍文杰. 汉老双语文本及句子相似度计算研究[D]. 昆明: 昆明理工大学硕士学位论文,2018.
[6] 王振振, 何明, 杜永萍. 基于LDA主题模型的文本相似度计算[J]. 计算机科学, 2013, 40(012): 229-232.
[7] HE X B, ZHONG N, CHEN J H.Weighted-LDA-TVM: Using a weighted topic vector model for measuring short text similarity[C]//Proceedings of the International Conference on Brain Informatics. Springer, Cham, 2019: 212-219.
[8] 张小川, 余林峰, 张宜浩. 基于LDA的多特征融合的短文本相似度计算[J]. 计算机科学, 2018, 45(9): 266-270.
[9] 赵谦, 荆琪, 李爱萍, 等. 一种基于语义与句法结构的短文本相似度计算方法[J].计算机工程与科学, 2018,40(07): 1287-1294.
[10] 詹志建, 杨小平. 一种基于复杂网络的短文本语义相似度计算[J]. 中文信息学报, 2016, 30(4): 71-80.
[11] 徐鑫鑫, 刘彦隆, 宋明. 利用加权词句向量的文本相似度计算方法[J]. 小型微型计算机系统, 2019, 40(10).
[12] YAO L, PAN Z, NING H. Unlabeled short text similarity with LSTM encoder[J]. IEEE Access, 2018, 7: 3430-3437.
[13] KENTER, T, MAARTEN DE R. Short text similarity with word embeddings[C]//Proceedings of the 24th ACM International on Conference on Information and Knowledge Management, 2015: 1411-1420.
[14] BOOM C D, CANNEYT S V, BOHEZ S, et al. Learning semantic similarity for very short texts[C]//Proceedings of the 15th IEEE International Conference on Data Mining Workshops, 2016: 1229-1234.
[15] 郭浩, 许伟, 卢凯,等. 基于CNN和BiLSTM的短文本相似度计算方法[J]. 信息技术与网络安全, 2019,38(6): 61-64,68.
[16] 吴建明. 印欧语与汉语的非人称句对比研究[J]. 长沙大学学报, 2013, 27(004): 112-114.
[17] 林立. 汉语复句与印欧语复句的异同[J]. 山东外语教学, 1986(01): 37-42.
[18] 翁帕松.汉语和老挝语句法比较研究[J].汉字文化,2018,(3): 13-15.
[19] 罗芳玲. 汉语和老挝语主谓宾成分的特点及比较[J]. 出国与就业(就业版), 2011, 000(016): 220-221.
[20] 李卫疆, 李涛, 漆芳. 基于多特征自注意力BiLSTM的中文实体关系抽取[J]. 中文信息学报, 2019,33(10): 47-56,72.
[21] 何力, 周兰江, 周枫, 等. 基于双向长短期记忆神经网络的老挝语分词方法[J]. 计算机工程与科学, 2019,41(7): 1312-1317.
[22] 王兴金, 周兰江, 张金鹏, 等. 融合词预测的半监督老挝语词性标注研究[J]. 小型微型计算机系统, 2019,40(12): 2500-2505.
[23] 王兴金, 周兰江, 张建安, 等. 融合词结构特征的多任务老挝语词性标注方法[J]. 中文信息学报, 2019,33(11): 39-45.
[24] LUONG M T, LE Q V, SUTSKEVER I, et al. Multi-task sequence to sequence learning[C]//Proceedings of IcLR, 2017: 1-10.
[25] 张莉婧, 李业丽, 曾庆涛, 等.基于改进TextRank的关键词抽取算法[J].北京印刷学院学报,2016,24(4): 51-55.
[26] 王子璇, 乐小虬, 何远标. 基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究[J]. 数据分析与知识发现, 2017, 1(4): 1-8.
[27] 徐馨韬, 柴小丽, 谢彬, 等. 基于改进TextRank算法的中文文本摘要提取[J]. 计算机工程, 2019, 045(003): 273-277.
[28] ARTETXE M, LABAKA G, AGIRRE E. Learning bilingual word embeddings with (almost) no bilingual data[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, 2017: 451-462.
[29] 李霞, 刘承标, 章友豪, 等. 基于局部和全局语义融合的跨语言句子语义相似度计算模型[J].中文信息学报,2019,33(06): 18-26.
[30] LI S, ZHAO Z, HU R, et al. Analogical reasoning on Chinese morphological and semantic relations[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics,2018: 138-143.
[31] GRGOIRE F, LANGLAIS P. Extracting parallel sentences with bi-directional recurrent neural networks to improve machine translation[C]//Proceedings of the 27th International Conference on Computational Linguistics, 2018: 1442-1453.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金(61662040)
{{custom_fund}}