“语言文字信息处理技术及其应用” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 张小衡
    2015, 29(4): 144-150.
    摘要 (973) PDF (1179 KB) (1096)
    同一个字符拥有不同的计算机内部代码,这意味着有两个或两个以上字形在人的眼中是同一个字,而计算机却认为是不同的字。这种“人机看法不一致”会给语言信息处理带来混乱,导致信息检索不全,统计数字不准,字词分类排序不一致等情况。该文结合Unicode实例专题讨论当前计算机上存在的中文同形异码字问题,包括 (a) 私人造字公有化所形成的同形异码字,(b) 兼容编码所形成的同形异码字,(c) 建立专门的笔画部首表而形成的同形异码字,(d) 半宽和全宽字形分别编码而造成的同形异码字等,并探讨解决问题的方法。
  • 林新建,唐向宏,王 静
    2015, 29(4): 151-158.
    摘要 (1461) PDF (12100 KB) (1245)
    从通信编码的角度,该文探讨一种利用编码方法和同义词替换相结合的可逆文本篡改检测水印算法。以可替换同义词为标志对文本进行分组,提取分组文本特征生成认证水印信息;利用霍夫曼编码和纠错编码对同义词库各词进行编码,利用同义词替换技术完成水印的嵌入。在接收端,利用分组文本特征和霍夫曼编码,实现水印文本的篡改定位,利用纠错码实现可替换同义词的还原恢复。仿真实验表明,算法嵌入的水印具有良好的不可见性和较强的鲁棒性,在实现对文本篡改定位的同时,较好地实现了可替换同义词无损还原。
  • 邓晓健,李 彬,张俊松
    2015, 29(4): 159-165.
    摘要 (1030) PDF (3079 KB) (1464)
    该文提出了一种汉字字形视觉重心的计算方法。首先收集常用汉字图像样本,通过图像预处理,提取出样本汉字的连通区域视觉平衡中心;然后招集被试对样本汉字进行视觉重心标注;再利用统计建模的方法,构建出连通区域视觉平衡中心和汉字整体视觉重心之间的关系模型。与相关方法比较,文中方法考虑了汉字视觉重心依赖于人的主观体验这一因素。该方法能广泛应用于汉字特征提取、汉字结构设计与优化等应用领域。