摘要
汉语词频统计是一件耗资费力、旷以时日的工作, 其困难主要来自统计单位—词难以确定。由于汉语分词方面本身的困难, 加之统计者的目的和出发点各不相同, 分词标准在现阶段很难求得一致, 这就使得汉语词频统计成果在应用上带有较大的局限性。#br#为了使词频统计成果尽量能适应不同研究领域人员的需要, 本文建议采用分层统计的办法, 即首先对语料抽样作宽式的切分和统计, 得出中间结果, 再由不同专业的用户在此墓袖上进行再统计, 得出直接应用于专项研究的数据和成果。文章论述了分层统计模式的作法、依据和优点, 提出了制定宽式切分标准的一般原则。
刘杰.
汉语词汇的分层统计模式. 中文信息学报. 1988, 2(3): 36-41
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}