藏汉跨语言话题模型构建及对齐方法研究

孙 媛;赵 倩;

PDF(4186 KB)
PDF(4186 KB)
中文信息学报 ›› 2017, Vol. 31 ›› Issue (1) : 102-111.
少数民族及周边语言信息处理

藏汉跨语言话题模型构建及对齐方法研究

  • 孙 媛1,2,赵 倩1,2
作者信息 +

Research on the Extraction and Alignment of Tibetan-Chinese Cross-language Topics

  • SUN Yuan1,2, ZHAO Qian1,2
Author information +
History +

摘要

如何获取藏文话题在其他语种中的相关信息,对于促进少数民族地区的社会管理科学化水平、维护民族团结和国家统一、构建和谐社会具有重要意义。目前大多数研究集中在英汉跨语言信息处理方面,针对藏汉跨语言研究较少。如何根据藏语、汉语的特点,并结合目前藏语信息处理的研究现状,实现藏汉多角度的社会网络关系关联,同步发现关注话题并进行数据比较,是迫切需要解决的问题。该文在藏汉可比语料的基础上,利用词向量对文本词语进行语义扩展,进而构建LDA话题模型,并利用Gibbs sampling进行模型参数的估计,抽取出藏语和汉语话题。在LDA话题模型生成的文档-话题分布的基础上,提出一种基于余弦相似度、欧氏距离、Hellinger距离和KL距离四种相似度算法的投票方法,来实现藏汉话题的对齐。

Abstract

In contrast to the, To discover synchronication topics associated in Tibetan and Chinese social networking, we build LDA topic model on the basis of Tibetan-Chinese comparable corpus, with word2vec as the input and Gibbs sampling to estimate model parameters. To align Tibetan topics and Chinese topics, we calculate the similarity between Tibetan and Chinese topics according to the distribution of text-topic disctrbution via a voting method based on cosine distance, Euclidean distance, Hellinger distance and KL distance.

关键词

藏汉跨语言 / 话题抽取 / LDA / 话题对齐

Key words

topic extraction / LDA model / topic alignment

引用本文

导出引用
孙 媛;赵 倩;. 藏汉跨语言话题模型构建及对齐方法研究. 中文信息学报. 2017, 31(1): 102-111
SUN Yuan; ZHAO Qian;. Research on the Extraction and Alignment of Tibetan-Chinese Cross-language Topics. Journal of Chinese Information Processing. 2017, 31(1): 102-111

参考文献

[1] 高定国, 关白. 回顾藏文信息处理技术的发展[J]. 西藏大学学报: 社会科学版, 2009(3): 18-27.
[2] 何明华. 当代藏文信息处理的现状与展望[J]. 科技资讯, 2014, 12(23): 249-249.
[3] J Allan, J Carbonell, G Doddington, et al. Topic Detection and Tracking Pilot Study: Final Report[C]//Proceedings of the DARPA Broadcast News Transcription and Understanding Workshop, Virginia: Lansdowne, 1998: 194-218.
[4] Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis[J]. JASIS, 1990, 41(6): 391-407.
[5] Hofmann T. Probabilistic latent semantic indexing[C]//Proceedings of SIGIR. ACM, 1999: 50-57.
[6] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. The Journal of machine learning research, 2003(3): 993-1022.
[7] Connell M, Feng A, Kumaran G, et al. UMass at TDT 2004[C]//Proceedings of the Topic Detection and Tracking Workshop Report. 2004.
[8] Allan J, Papka R, Lavrenko V. On-line New Event Detection and Tracking[C]//Proceedings of SIGIR, 1998: 37-45.
[9] 洪宇,张宇,刘挺,等.话题检测与跟踪的评测及研究综述[J].中文信息学报,2007,21(6): 71-87.
[10] Yang Y, Pierce T, Carbonell J. A Study of Retrospective and On-line Event Detection[C]//Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 1998: 28-36.
[11] Wei X, Croft W B. LDA-based document models for ad-hoc retrieval[C]//Proceedings of the SIGIR. ACM, 2006: 178-185.
[12] 徐戈, 王厚峰. 自然语言处理中主题模型的发展[J]. 计算机学报, 2011, 34(8): 1423-1436.
[13] 陆前. 英、汉跨语言话题检测与跟踪技术研究[D].中央民族大学博士学位论文,2013.
[14] 石杰. 中泰跨语言话题检测方法与技术研究[D].昆明理工大学硕士学位论文,2015.

基金

国家自然科学基金(61501529,61331013);国家语委项目(ZDI125-36,YB125-139)
PDF(4186 KB)

Accesses

Citation

Detail

段落导航
相关文章

/