“CCL会议优秀论文” 栏目所有文章列表

(按年度、期号倒序)

  • 一年内发表的文章
  • 两年内
  • 三年内
  • 全部
Please wait a minute...
  • 全选
    |
  • 王兆基,张诗睿,胡韧奋,张学涛
    2024, 38(3): 152-162.
    摘要 (81) PDF (1363 KB) (53)
    古籍文本中的文字通假现象较为常见,这不仅为人理解文意造成了困难,也是古汉语信息处理面临的一项重要挑战。为了服务于通假字的人工判别和机器处理,该文构建并开源了一个多维度的通假字资源库,包括语料库、知识库和评测数据集三个子库。其中,语料库收录11 000余条包含通假现象详细标注的语料;知识库以汉字为节点,通假和形声关系为边,从字音、字形、字义多个角度对通假字与正字的属性进行加工,共包含4 185个字节点和8 350对关联信息;评测数据集面向古汉语信息处理需求,支持通假字检测和正字识别两个子任务的评测,收录评测数据19 678条。在此基础上,该文搭建了通假字自动识别的系列基线模型,并结合实验结果分析了影响通假字自动识别的因素与改进方法。进一步地,该文探讨了该资源库在古籍整理、人文研究和文言文教学中的应用。
  • 吐妮可·吐尔逊,闵昶榮,林鸿飞,张冬瑜,杨亮
    2024, 38(3): 163-172.
    摘要 (123) PDF (1343 KB) (80)
    随着社交媒体的飞速发展,幽默识别任务受到研究者广泛关注。其目标是判断给定文本是否具有幽默表达。现有方法主要基于幽默产生理论,采用规则或神经网络模型提取多种幽默相关特征,如不一致性、情感和语音等。然而,这些方法未充分捕捉文本内部的情感特征,忽视了隐含在幽默文本中的情感表达,影响了幽默识别的准确性。为解决此问题,该文提出了CMSOR方法,以动态常识和多维语义特征为驱动。首先,利用外部常识信息从文本中动态推理说话者的隐式情感表达;然后,引入WordNet词典计算词级语义距离,捕捉不一致性,并计算模糊性特征;最后,基于这三个特征维度构建幽默语义,实现幽默识别。实验证明,CMSOR模型相对于当前基准模型在三个公开数据集上的识别性能均有显著提升。