|
|
引用本文: |
吴安迪. 有关“理解和分词孰先孰后”的反思[J]. 中文信息学报, 2007, 21(3): 20-20.
|
|
有关“理解和分词孰先孰后”的反思 |
吴安迪 |
美国葡萄城信息技术有限公司 |
|
|
摘要 “中文分词十年回顾”一文中有“理解和分词孰先孰后”这一节,专门讨论NLPwin中文系统的分词。作为该系统的开发者之一,我觉得有必要对这个问题作一反省。 作为一门科学,语言学的目标之一是了解人类语言处理的机制。对我而言,计算语言学的最高境界是做出一套能反映人脑语言机制真实状况的, 具有心理学价值的电脑系统。从心理语言学的角度看,“理解和分词孰先孰后”这个问题是不存在的。人脑分析句子的过程显然是一个分词和理解互动的过程,理解依赖于分词,分词也依赖于理解。NLPwin中文系统的设计理念就是要反映人脑的这一分析过程。我们没有做一个专用于分词的系统,因为孤立的分词不是一种自然的人类语言行为。 从工程的角度看,分词和理解是完全可以分开的。对于工程来说,切分一个汉语的字串和切分任何其他字串没有太大的区别。我们可以把最好的、具有通用性的切分技术用于汉语分词。在此过程中我们不需要知道所切汉语字串所表达的意义。这里所要解决的主要是一个数学问题,而不是语言理解问题。把理解插入分词过程会大大增加计算的复杂度,其结果往往是得不偿失。所以如果我们的目的仅仅是分词,理解是没有必要的。
|
|
|
[1] |
李丽双;蒋振超;万 佳;黄德根. 利用词表示和深层神经网络抽取蛋白质关系[J]. 中文信息学报, 2017, 31(1): 31-40. |
[2] |
谢 珺;郝 洁;苏婧琼;邹雪君;李思宇. 一种针对短文本的主题情感混合模型[J]. 中文信息学报, 2017, 31(1): 162-168. |
[3] |
玛尔哈巴·艾赛提;艾孜尔古丽;玉素甫·艾白都拉. 基于语法的维吾尔语情感词汇自动获取[J]. 中文信息学报, 2017, 31(1): 126-132. |
[4] |
胡韧奋. 汉语词汇测试自动命题研究[J]. 中文信息学报, 2017, 31(1): 41-49. |
[5] |
张 栋;李寿山;王晶晶. 基于问题与答案联合表示学习的半监督问题分类方法[J]. 中文信息学报, 2017, 31(1): 1-7. |
[6] |
于 东;赵 艳;韦林煊;荀恩东;. 基于点关联测度矩阵分解的中英跨语言词嵌入方法[J]. 中文信息学报, 2017, 31(1): 58-65. |
[7] |
白双成;. 蒙古文原始语料统计建模研究[J]. 中文信息学报, 2017, 31(1): 118-125. |
[8] |
谭红叶; 赵红红; 李 茹;. 面向阅读理解复杂问题的句子融合[J]. 中文信息学报, 2017, 31(1): 8-16. |
[9] |
叶 雷;高盛祥;余正涛;秦广顺;洪旭东. 基于事件元素无向图的查询扩展方法[J]. 中文信息学报, 2017, 31(1): 17-22. |
[10] |
李 斌;闻 媛;卜丽君;曲维光;薛念文. 英汉《小王子》抽象语义图结构的对比分析[J]. 中文信息学报, 2017, 31(1): 50-57. |
[11] |
孙 媛;赵 倩;. 藏汉跨语言话题模型构建及对齐方法研究[J]. 中文信息学报, 2017, 31(1): 102-111. |
[12] |
孙世昶;林鸿飞;孟佳娜;刘洪波. 利用源域结构的粒迁移学习及词性标注应用[J]. 中文信息学报, 2017, 31(1): 66-74. |
[13] |
康司辰;刘 扬;. 基于语义构词的汉语词语语义相似度计算[J]. 中文信息学报, 2017, 31(1): 94-101. |
[14] |
陈振宁;陈振宇. 基于偏向相似性的自然语言关联和聚类研究[J]. 中文信息学报, 2017, 31(1): 205-211. |
[15] |
阿力木·木拉提;艾孜尔古丽;杨雅婷;李 晓;. 基于多策略的维吾尔文网页识别方法[J]. 中文信息学报, 2017, 31(1): 133-139. |
|
|
|
|