古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349 740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14%,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果。
Abstract
The classical Chinese word segmentation is an important step to analyze existing ancient documents. In this paper, we first collect unstructured classical Chinese online corpus and accumate a basic dictionary. Then the candidate new words are discovered by a multi-feature fusion strategy, including mutual information, information entropy, and position word probability. Finally, a CCIDict of 349,740 words is applied with the forward maximum matching to segment the words in classical Chinese texts, achieving 14% improvements in F-value compared with the open-source Jiayan.
关键词
古汉语分词 /
大数据 /
语料库
{{custom_keyword}} /
Key words
classical Chinese word segmentation /
big data /
corpus
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] Amrani A, Abajian V, Kodratoff Y, et al. A chain of text-mining to extract information in archaeology[C]//Proceedings of the 3rd International Conference on Information and Communication Technologies: From Theory to Applications, 2008:1-5.
[2] 严顺. 基于CRF的古汉语分词标注模型研究[J]. 江苏科技信息,2016,(8):14-16.
[3] 王晓玉, 李斌. 基于CRFs和词典信息的中古汉语自动分词[J]. 数据分析与知识发现, 2017, 1(5):62-70.
[4] 钱智勇, 周建忠, 童国平, 等. 基于HMM的楚辞自动分词标注研究[J]. 图书情报工作,2014,58(4):105-110.
[5] 李筱瑜. 基于新词发现与词典信息的古籍文本分词研究[J]. 软件导刊,2019,18(4):66-69.
[6] 张梅山, 邓知龙, 车万翔, 等. 统计与词典相结合的领域自适应中文分词[J]. 中文信息学报,2012,26(2):8-13.
[7] 刘永楠, 李建中, 高宏. 海量不完整数据的核心数据选择问题的研究[J]. 计算机学报,2018,40(4):915-930.
[8] 夭荣朋, 许国艳, 宋健. 基于改进互信息和邻接熵的微博新词发现方法[J]. 计算机应用, 2016,36(10):2772-2776.
[9] 林自芳, 蒋秀凤. 基于改进位置成词概率的新词识别[J]. 福州大学学报(自然科学版),2011,39(1):43-48.
[10] Voit A, Stankus A, Magomedov S, et al. Big data processing for full-text search and visualization with elasticsearch[J]. International Journal of Advanced Computer Science and Applications, 2017, 8(12):76-83.
[11] 王思丽,祝忠明,刘巍,等.领域本体学习语料的自动获取与预处理方法研究[J].图书馆学研究,2019,(20):54-64.
[12] 鲁一冰, 刘驰. Skip-ngram模型解决数据稀疏问题的研究[J]. 自动化技术与应用,2015,34(3):35-37,46.
[13] 王思力, 张华平, 王斌. 双数组Trie树算法优化及其应用研究[J]. 中文信息学报,2006,20(5):26-32.
[14] Hou J, Zhu Y, Du S, et al. Design and implementation of reconfigurable acceleration for in-memory distributed big data computing[J]. Future Generation Computer Systems, 2019, 92(3): 68-75.
[15] 刘鹏, 滕家雨, 丁恩杰, 等. 基于Spark的大规模文本k-means并行聚类算法[J]. 中文信息学报,2017,31(4):145-153.
[16] Aziz K, Zaidouni D, Bellafkih M. Big data optimisation among RDDs persistence in apache spark[M].Communications in Computer and Information Science, 2018: 29-40.
[17] 刘风成, 黄德根, 姜鹏. 基于AdaBoost.MH算法的汉语多义词消歧[J]. 中文信息学报,2006,20(3):8-15.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家社会科学基金(17AZD041)
{{custom_fund}}