|
|
引用本文: |
俞士汶,段慧明,朱学锋,孙斌. 北京大学现代汉语语料库基本加工规范[J]. 中文信息学报, 2002, 16(5): 51-66.
|
|
北京大学现代汉语语料库基本加工规范 |
俞士汶,段慧明,朱学锋,孙斌 |
北京大学计算机系,北京大学计算语言学研究所 |
|
|
摘要 北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外, 还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库墓本加工规范》是为了抛砖引玉, 更广泛地向专家、同行征询意见, 以便进一步修订。
|
|
关键词 :
现代汉语,
语料库,
词语切分,
词性标注,
规范
|
收稿日期: 2002-02-20
|
|
基金资助:国家自然基金(69483003);973项目(G1998030507-4);863项目(2001AA1140) |
作者简介: 俞士汝,男,1938年12月生,教授.段慧明,1957年12月生,女,高工.朱学锋,1937年12月生,女,副教授.孙斌,1968年12月生,博士后.4人的主要研究方向为计算语言学. |
[1] |
郑亚楠;珠 杰;. 基于词向量的藏文词性标注方法研究[J]. 中文信息学报, 2017, 31(1): 112-117. |
[2] |
孙世昶;林鸿飞;孟佳娜;刘洪波. 利用源域结构的粒迁移学习及词性标注应用[J]. 中文信息学报, 2017, 31(1): 66-74. |
[3] |
王 敬;杨丽姣;蒋宏飞;苏靖杰;付静玲. 汉语二语教学领域词义标注语料库的研究及构建[J]. 中文信息学报, 2017, 31(1): 221-229. |
[4] |
邱立坤;黄 焜;何保荣;亢世勇. 面向深层语义表示的否定义表达规律探析[J]. 中文信息学报, 2016, 30(6): 40-48. |
[5] |
饶高琦;李宇明. 基于70年报刊语料的现代汉语历时稳态词抽取与考察[J]. 中文信息学报, 2016, 30(6): 49-58. |
[6] |
潘华山,严 馨,周 枫,余正涛,郭剑毅. 基于层叠条件随机场的高棉语分词及词性标注方法[J]. 中文信息学报, 2016, 30(4): 110-116. |
[7] |
张春菊,张雪英,王曙,廖建平 ,陈晓丹. 中文文本的事件时空信息标注[J]. 中文信息学报, 2016, 30(3): 213-222. |
[8] |
王成平. 彝语言语料资源数据库的设计与共享的实现[J]. 中文信息学报, 2016, 30(1): 129-133. |
[9] |
谭晓平,杨丽姣,苏靖杰. 面向汉语(二语)教学的语法点知识库构建及语法点标注研究[J]. 中文信息学报, 2015, 29(6): 54-61. |
[10] |
胡韧奋,朱 琦,杨丽姣. 对外汉语教学领域话题语料库的研究与构建[J]. 中文信息学报, 2015, 29(6): 62-68. |
[11] |
周惠巍,杨 欢,张 静,亢世勇,黄德根. 中文模糊限制语语料库的研究与构建[J]. 中文信息学报, 2015, 29(6): 83-89. |
[12] |
李亚超,江 静,加羊吉,于洪志. TIP-LAS:一个开源的藏文分词词性标注系统[J]. 中文信息学报, 2015, 29(6): 203-207. |
[13] |
宋亚军,于中华,陈 黎,丁革建,罗 谦. 一种改进的社交媒体文本规范化方法[J]. 中文信息学报, 2015, 29(5): 104-112. |
[14] |
龙从军,刘汇丹,诺明花,吴 健. 基于藏语字性标注的词性预测研究[J]. 中文信息学报, 2015, 29(5): 211-216. |
[15] |
戴 敏,朱 珠,李寿山,周国栋. 面向中文文本的情感信息抽取语料库构建[J]. 中文信息学报, 2015, 29(4): 67-73. |
|
|
|
|