古汉语通假字资源库的构建及应用研究

王兆基,张诗睿,胡韧奋,张学涛

PDF(1363 KB)
PDF(1363 KB)
中文信息学报 ›› 2024, Vol. 38 ›› Issue (3) : 152-162.
CCL会议优秀论文

古汉语通假字资源库的构建及应用研究

  • 王兆基,张诗睿,胡韧奋,张学涛
作者信息 +

Ancient Chinese Language Resource on Tongjiazi: Construction and Application

  • WANG Zhaoji, ZHANG Shirui, HU Renfen, ZHANG Xuetao
Author information +
History +

摘要

古籍文本中的文字通假现象较为常见,这不仅为人理解文意造成了困难,也是古汉语信息处理面临的一项重要挑战。为了服务于通假字的人工判别和机器处理,该文构建并开源了一个多维度的通假字资源库,包括语料库、知识库和评测数据集三个子库。其中,语料库收录11 000余条包含通假现象详细标注的语料;知识库以汉字为节点,通假和形声关系为边,从字音、字形、字义多个角度对通假字与正字的属性进行加工,共包含4 185个字节点和8 350对关联信息;评测数据集面向古汉语信息处理需求,支持通假字检测和正字识别两个子任务的评测,收录评测数据19 678条。在此基础上,该文搭建了通假字自动识别的系列基线模型,并结合实验结果分析了影响通假字自动识别的因素与改进方法。进一步地,该文探讨了该资源库在古籍整理、人文研究和文言文教学中的应用。

Abstract

In ancient Chinese texts, it is common to use Tongjiazi, i.e. characters with the same sound or similar sounds instead of the original characters. To facilitate the manual analysis and machine processing of Tongjiazi, this paper builds a multi-dimensional resource for Tongjiazi, including three sub-datasets of the corpus, the knowledge base and the evaluation dataset. The corpus contains more than 11 000 sentences with detailed annotations of Tongjia usages. The knowledge base is presented in graph data with 4 185 characters as the nodes and 8 350 edges describing relations of pronunciation, glyph and meaning. The evaluation dataset includes testing data of 19 678 entries for two subtasks: Tongjiazi detection and the original character identification. This paper also builds a series of baseline models for the automatic recognition of Tongjiazi and analyzes the factors affecting the performance.

关键词

古代汉语 / 资源库 / 通假字 / 自动识别

Key words

ancient Chinese / resource / database / Tongjiazi / automatic recognition

引用本文

导出引用
王兆基,张诗睿,胡韧奋,张学涛. 古汉语通假字资源库的构建及应用研究. 中文信息学报. 2024, 38(3): 152-162
WANG Zhaoji, ZHANG Shirui, HU Renfen, ZHANG Xuetao. Ancient Chinese Language Resource on Tongjiazi: Construction and Application. Journal of Chinese Information Processing. 2024, 38(3): 152-162

参考文献

[1] 孔德明.通假字概说[M].北京: 北京广播学院出版社,1993.
[2] 王宁.古代汉语[M].北京: 高等教育出版社,2012.
[3] 钱玄.秦汉帛书简牍中的通借字[J].南京师大学报(社会科学版),1980,(03):44-48.
[4] 由明智.谈人教版中学语文教材的通假字注释[J].课程·教材·教法,2013,33(09):46-50.
[5] 张儒.关于竹书、帛书通假字的考察[J].山西大学学报(哲学社会科学版),1988,(02):37-43,113-114.
[6] 党怀兴.通假成因说略[J].陕西师范大学学报(哲学社会科学版),1998,(01):61-65.
[7] 孙建伟.假借和通假研究综论[J].宁夏大学学报(人文社会科学版),2015,37(02):29-33.
[8] 柳建钰,周晓文.计算机辅助古籍版本校勘资源库建设浅议[J].图书馆理论与实践,2017,(03):54-58.
[9] 邓三鸿,胡昊天,王昊,等.古文自动处理研究现状与新时代发展趋势展望[J].科技情报研究,2021,3(01):1-20.
[10] 胡韧奋,李绅,诸雨辰.基于深层语言模型的古汉语知识表示及自动断句研究[J].中文信息学报,2021,35(04):8-15.
[11] LIU D, YANG K, QU Q, et al. Ancient-modern Chinese translation with a new large training dataset [J]. ACM Transactions on Asian and Low-resource Language Information Processing, 2019, 19(1): 1-13.
[12] 苏祺,胡韧奋,诸雨辰,等.古籍数字化关键技术评述[J].数字人文研究,2021,1(03):83-88.
[13] 舒蕾,郭懿鸾,王慧萍,等.古汉语词义标注语料库的构建及应用研究[J].中文信息学报,2022,36(05):21-30.
[14] YANG Z, CHEN K, CHEN J. Guwen-UNILM: Machine translation between ancient and modern Chinese based on pre-trained models[C]//Proceedings of the 10th CCF International Conference, 2021: 116-128.
[15] YI X, SUN M, LI R, et al. Automatic poetry generation with mutual reinforcement learning[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2018: 3143-3153.
[16] 胡韧奋,曹冰,杜健一.现代汉字形声字声符在普通话中的表音度测查[J].中文信息学报,2013,27(03):41-47.
[17] YAN X, FAN Y, DI Z, et al. Efficient learning strategy of Chinese characters based on network approach [J]. PlOS One, 2013, 8(8): e69745.

基金

国家语委重大项目(ZDA145-9);国家自然科学基金(62006021);北京市社会科学重点项目(21DTR037);“古文字与中华文明传承发展工程”规划项目(G1930)
PDF(1363 KB)

1737

Accesses

0

Citation

Detail

段落导航
相关文章

/