古籍版本异文的自动发现

肖 磊,陈小荷

PDF(684 KB)
PDF(684 KB)
中文信息学报 ›› 2010, Vol. 24 ›› Issue (5) : 50-56.
综述

古籍版本异文的自动发现

  • 肖 磊,陈小荷
作者信息 +

Automatic Detection of Version Differences Among Ancient Chinese Texts

  • XIAO Lei,CHEN Xiaohe
Author information +
History +

摘要

该文提出了古籍版本异文自动发现方法 首先由bigram计算得到句珠相似度,根据相似度发现最有可能的句珠配对,然后在异文句珠中不断地去掉最长“同文”并输出异文。研究个案是三传春秋经,结果表明,句珠配对全部正确,异文配对算法也能够正确发现全部符合定义的异文。

Abstract

An automatic approach to find the version differences among ancient Chinese text is proposed . First, we try to find sentence beads with the highest similarity by comparing the bigrams in the pair of sentences. Second, we iteratively remove the longest common substrings in the pair of different sentences and output differences remained. We take three versions of CHUNQIU as a running case. The results of the experiment indicate that our approach succeeds in finding all sentence beads and identifying all text differences definedas the version differences in this paper.
Key wordsancient Chinese text; version difference; sentence bead; similarity

关键词

古籍 / 版本异文 / 句珠 / 相似度

Key words

ancient Chinese text / version difference / sentence bead / similarity

引用本文

导出引用
肖 磊,陈小荷. 古籍版本异文的自动发现. 中文信息学报. 2010, 24(5): 50-56
XIAO Lei,CHEN Xiaohe. Automatic Detection of Version Differences Among Ancient Chinese Texts. Journal of Chinese Information Processing. 2010, 24(5): 50-56

参考文献

[1] 李富孙.春秋三传异文释[M]. 上海商务印书馆,1935.
[2] 李索.敦煌写卷〈春秋经传集解〉异文研究[M]. 中国社会科学出版社,2005.
[3] 张普. 计算机在古籍整理研究领域中的应用(综述)[M]//张普.汉语信息处理研究.北京语言学院出版社,1992:80-103.
[4] 常娥,侯汉清,曹玲. 古籍自动校勘的研究和实现[J]. 中文信息学报,2007, 21(2):83-88.
[5] 姜哲,马少平,夏莹.大型中文古籍《四库全书》自动版面分析系统[J]. 中文信息学报,2000,14(2):14-20.
[6] 赵作鹏,尹志民,王潜平,等. 一种改进的编辑距离算法及其在数据处理中的应用[J]. 计算机应用,2009,29(2):424-426.

基金

国家211工程三期重点学科建设项目“语言科技创新及工作平台建设”子课题“先秦汉语词汇统计与知识检索系统”。
PDF(684 KB)

639

Accesses

0

Citation

Detail

段落导航
相关文章

/