中文信息学报

Select

罗文兵,罗凯威,黄琪,王明文

2024, 38(4): 143-155.

摘要 (155) PDF (6420 KB) (147)

习题知识点标注是构建结构化题库和实现个性化学习的关键任务。对于数学习题,由于其存在公式化、表达精炼化等特殊性,现有的标注模型无法很好地捕获关键信息,进而难以深入理解文本中蕴含的深层语义。此外,结合领域知识的知识点标注模型普遍存在引入的知识不够关键、融合的方式过于直接的问题,缺乏对信息的有效筛选,从而导致在特征融合时产生大量噪声,干扰模型最终的标注结果。为此,该文提出了一种融合学科知识的数学习题知识点自动标注模型MKA_Gated。该模型首先利用预训练模型对原始习题和两种细化的学科知识文本进行初步的语义编码表示,然后利用注意力机制实现习题与两种学科知识的信息交互以获取两种学科知识的深层语义表征,最后通过门控机制连续地、隐式地融合两种深层语义表征的平均池化表示以保留原始习题表示中有利于最终分类的语义特征。模型在自建的初中数学习题知识点标注数据集上测试的三种指标micro-F₁、macro-F₁、weighted-F₁相较于基准模型分别提升了1.99%、2.99%、2.12%,实验结果表明,该文所提方法能有效提升数学习题知识点的标注。

Select

融入法因层次结构的法因预测IHLCP模型

黄思嘉,彭艳兵

2024, 38(1): 146-155.

摘要 (141) PDF (4355 KB) (43)

该文针对当前法律智能体系可解释性差、低频易混淆法因预测效果不佳、民事纠纷研究过少的问题,设计了一种可解释性层次法因预测IHLCP模型,并将法因之间的层次依赖关系作为模型可解释性的来源进行了研究。模型首先基于案件的语义差异性对事实描述进行编码,然后通过改进的seq2seq-attention模块来预测法因路径,并利用法因内部的文本信息过滤事实描述中的噪声信息,以获得可靠的预测效果。该文设计的IHLCP模型在CIVIL、FSC和CAIL这三个大规模公开数据集上分别达到了当前最好的效果(CIVIL数据集: ACC-91.0%,PRE-67.5%,RECALL-57.9%,F1-62.3%。FSC数据集: ACC-94.9%,PRE-78.8%,RECALL-75.9%,F1-77.3%。CAIL数据集: ACC-92.3%,PRE-90.9%,RECALL-89.7%,F1-90.3%),其中ACC和F1值分别最高提升了6.6%和13.4%。实验结果表明,该设计能够帮助系统理解法因,弥补了当前法律智能体系在低频、易混淆法因预测上的不足,同时提升了模型的可解释性。

Select

非结构化数据表征增强的术后风险预测模型

王亚强,杨潇,朱涛,郝学超,舒红平,陈果

2024, 38(1): 156-165.

摘要 (238) PDF (2890 KB) (39)

准确的术后风险预测对临床资源的规划、应急方案的准备以及患者术后风险和死亡率的降低具有积极的作用。目前,术后风险预测主要基于患者的基本信息、术前的实验室检查及术中的生命体征等结构化数据,蕴含着丰富语义信息的非结构化术前诊断的价值尚待验证。针对上述问题,该文提出一种非结构化数据表征增强的术后风险预测模型,利用自注意力机制,将结构化数据与术前诊断进行信息加权融合。基于临床数据,该文将所提出的模型与术后风险预测常用的统计机器学习模型以及最新的深度神经网络进行对比,在肺部并发症风险预测、ICU入室风险预测和心血管不良风险预测任务上的F1值平均提升了9.533%,同时预测模型还具有良好的可解释性。

Select

一种求解数学应用题的多粒度图神经网络编码器

黄林嘉,肖菁,曹阳

2023, 37(2): 148-157.

摘要 (334) PDF (2054 KB) (185)

近几年,数学应用题自动解答(Math Word Problems, MWP)的研究受到越来越多学者关注,大多数研究的重点是对编码器的改进。然而目前的研究在编码器的改进方面还存在以下问题: ①输入文本的颗粒度一般是字级别,这会导致泛化能力不足; ②大多数模型对文本信息的挖掘没有充分利用文本内实体、词性等信息,只是停留在时序信息层面。该文针对以上问题,在双向GRU(Gated Recurrent Unit)的基础上提出了一种新颖的基于多粒度分词和图卷积网络的编码器结构(Multi-grained Graph Neural Networks, MGNet)。多粒度分词是通过对文本的每个词进行不同颗粒度的分词,增加了样本容量,并且通过引入一些噪声样本,提高了模型的泛化能力。图卷积神经网络通过构建文本内实体、数字、日期之间的不同的属性图,对它们之间隐含的关系进行建模。在Math23K和Ape210K数据集的实验显示,该文提出的模型MGNet准确率分别达到77.73%和80.8%。

Select

基于神经网络模型的汉语文本难度分级

李文彪,吴云芳

2023, 37(2): 158-168.

摘要 (483) PDF (8133 KB) (282)

文本难度分级是自然语言处理在教育领域的一个基础性研究课题,用于自动判定一篇文章的阅读难度。该文基于深度神经网络模型对汉语文本阅读难度进行了探索,提出了一种CNN+LSTM的难度分级模型,并结合分级语料的特点采用了变长卷积层和块结构。在教材测试集和人工构建的测试集上进行了详细的实验分析,该文的神经网络模型超越了传统机器学习方法和主流神经网络方法,在根据学段划分的5级数据上分级系统的正确率达到了75.4%。

Select

基于名词掩盖的跨领域作者识别研究

郭旭,祁瑞华

2023, 37(1): 160-168.

摘要 (312) PDF (2345 KB) (144)

为了提高作者识别的跨领域鲁棒性,解决作者写作规律在不同领域间的迁移问题,该文首先通过分析和实验发现: 名词具有较高的领域相关性。然后,采用文本变形算法将名词掩盖掉,以此来降低相关特征的权重,从而迫使机器学习算法选择领域关联度更低的特征拟合样本,进而提高模型的泛化能力。在由21 953个样本组成的跨领域作者识别的实验中,该文分别采用了基于字N-gram、基于BERT和基于集成学习的三种典型作者识别方法,对比了无掩盖和掩盖名词、形容词、动词、副词、功能词的作者识别,其中掩盖名词后的作者识别方法获得了较高的评价指标。实验结果表明,掩盖名词的方法可以提高作者识别的跨领域鲁棒性。

Select

眼动记录与主旨结构标注的关联性分析研究

单昊聪, 周强

2023, 37(1): 169-178.

摘要 (384) PDF (2599 KB) (185)

给定包含主旨概括句的汉语句群,针对该句群的内部结构标注是基于语言学的分析结果,而阅读句群时的眼动轨迹则蕴含着人的心理认知,两者的信息融合和内在关联性分析是该文主要工作。该文使用基于径向基函数支持向量机和递归特征消除的分类模型,根据标点小句片段对应的眼动指标数据预测该片段是否为包含主旨内容的关键信息,达到了0.76的准确率,并通过分析关键片段上眼动数据的分布特点,提取出对句群主旨概括信息区分度较好的眼动指标。

Select

用计量风格学方法考察《水浒传》的作者争议问题——以罗贯中《平妖传》为参照

宋丽,刘颖,马艳军

2022, 36(8): 163-174.

摘要 (543) PDF (6971 KB) (515)

《水浒传》是独著还是合著、施耐庵和罗贯中是何关系一直存在争议。该文将其作者争议粗略归纳为施耐庵作、罗贯中作、施作罗续、罗作他续、施作罗改五种情况,以罗贯中的《平妖传》为参照,用假设检验、文本聚类、文本分类、波动风格计量等方法,结合对文本内容的分析,考察《水浒传》的写作风格,试图为其作者身份认定提供参考。结果显示,只有罗作他续的可能性大,即前70回为罗贯中所作,后由他人续写,其他四种情况可能性都较小。

Select

基于词语聚类的汉语口语自动推送素材研究

杨冰冰,赵慧周,王治敏

2022, 36(6): 155-161.

摘要 (406) PDF (3345 KB) (567)

新冠肺炎的蔓延使得线上移动教学成为教育发展的必然趋势,该文以适合为学习者自动推送的汉语口语素材为研究对象,抽取10 341条生活类口语语料,对词汇的整体特点进行计量分析,在此基础上采用腾讯AL LAB 公开的中文词向量数据,使用K-means算法对口语词汇进行词语聚类。参考词语聚类结果及对口语语料话题和场景的考察,该文构建了一个包含15个一级话题、102个二级话题及81个交际场景的汉语口语话题—场景素材库,同时对各级话题常用词进行了总结。该文可为教材自动定制的素材库提供资源支持。

Select

诗人密码:唐诗作者身份识别

周爱,桑晨,张益嘉,鲁明羽

2022, 36(6): 162-170.

摘要 (609) PDF (5136 KB) (881)

作者身份识别是对作者个人写作风格的分析。虽然这一任务在多种语言中都得到了广泛的研究,但对中文而言,研究还没有涉及古典诗歌领域。唐诗同时具有跳跃性和整体性,为了兼顾这两种特点,该文提出了一种双通道的Cap-Transformer集成模型。上通道Capsule模型可以在提取特征的同时降低信息损失,能够更好地捕获唐诗各个意象的语义特征;下通道Transformer模型通过多头自注意力机制充分学习唐诗所有意象共同反映的深层语义信息。实验表明,该文提出的模型适用于唐诗作者身份识别任务,并通过错误分析,针对唐诗文本的特殊性,讨论了唐诗作者身份识别任务目前存在的问题及未来的研究方向和面临的挑战。

Select

基于多源知识图谱融合的智能导诊算法

刘道文,阮彤,张晨童,邱家辉,翟洁,何萍,葛小玲

2021, 35(1): 125-134.

摘要 (842) PDF (3918 KB) (3798)

患者网上挂号时常有挂错科室的现象,因此需要科室推荐应用,功能类似线下医院的护士台预诊。然而,由于医院科室设置不尽相同,患者各项特征和科室之间的关系也不明确,给自动科室推荐带来挑战。因此,该文首先定义了带权重的知识图谱,用于描述症状、疾病以及性别等特征与科室和医院之间复杂的量化关系。其次,利用区域信息平台的电子健康档案(electronic health records,EHR)数据,获取多家医院的疾病—科室信息。在融合国际疾病编码(international classification of diseases,ICD)、医疗网站中的症状—疾病数据后,用搜索引擎结果补充权重关系,形成可用的知识图谱。图谱目前包含了38家医院,6 110个科室,6 220个症状,60 736个症状相关疾病关系。当患者输入基于自然语言描述的症状与疾病后,通过该文设计的预滤噪的BERT实体识别模型与部位制导的医疗实体归一化算法,识别并归一化患者主诉中的症状词、疾病词和部位词。最后,基于该文设计的基于权重的联合症状预测疾病概率算法(weight-based disease prediction algorithm based on multiple symptoms,WBDPMS),联合多个症状预测可能的相关疾病,以此来实现通过主诉推荐最合适的医院及科室。实验结果表明,准确率达到0.88。

Select

基于Transformer网络的中文单字词检错方法研究

曹阳,曹存根,王石

2021, 35(1): 135-142.

摘要 (523) PDF (1137 KB) (3062)

错别字自动识别是自然语言处理中一项重要的研究任务, 在搜索引擎、自动问答等应用中具有重要价值。尽管传统方法在识别文本中多字词错误方面的准确率较高,但由于中文单字词错误具有特殊性,传统方法对中文单字词检错准确率较低。该文提出了一种基于Transformer网络的中文单字词检错方法。首先,该文通过充分利用汉字混淆集和Web网页构建中文单字词错误训练语料库。其次,在实际测试过程中,该文对实际的待识别语句采用滑动窗口方法,对每个滑动窗口中的句子片段分别进行单字词检错,并且综合考虑不同窗口的识别结果。实验表明,该方法具有较好的实用性。在自动生成的测试集上,识别准确率和召回率分别达到83.6% 和65.7%;在真实测试集上,识别准确率和召回率分别达到82.8%和61.4%。

Select

基于深度神经网络的诗词检索

梁健楠,孙茂松,矣晓沅

2020, 34(12): 82-91.

摘要 (638) PDF (1939 KB) (1191)

中国古典诗词是中国古典文学的代表之一,是中华传统文化的宝藏,源远流长。中国古典诗词研究是自然语言处理方向的一项重要且富有意义的工作。随着人工智能的发展,人工神经网络在图像、文本等领域得到广泛的应用,取得了显著的突破,给人工智能与中国古典诗词相结合提供了新的思路和方法。让机器去理解中国古典诗词的韵律和意境是一项极具挑战的工作,其中,通过研究诗词的相似性来提升机器对诗词的理解这一研究课题被赋予了更为重要的意义。诗词检索是对诗词内容做对比,查找出在语义和意境上相接近的诗词,这要求对整首诗词的内容和意境有深入的理解。该文模型以数十万首古诗作为基础,利用循环神经网络(RNN)自动学习古诗句的语义表示,并设计了多种方法自动计算两首诗之间的关联性,以此计算两首诗词之间的语义距离,实现诗词的推荐。自动评测和人工评测的实验结果都表明,该文模型能够生成质量较好的诗词检索结果。

Select

小说人物的分布表示及其应用研究

贾玉祥,王璐,刘鹏程,王钤,张岳,昝红英

2020, 34(12): 92-99.

摘要 (520) PDF (1374 KB) (993)

小说是以刻画人物为中心,通过完整的故事情节和具体的环境描写反映社会生活的一种文学体裁。对小说人物进行建模,是小说文本理解和小说文本挖掘的基础性工作。该文构建了大规模的小说语料库,抽取人物及其依存特征,提出基于skip-gram的人物向量训练方法,以人物为目标,以依存特征为上下文,基于训练出的人物向量,探索了小说人物相似度计算、小说人物聚类分析及小说人物画像等应用。实验结果表明,小说人物的分布表示有较好的应用效果。

Select

临床检验指标术语库的构建与病历挖掘应用

张知行,张佳影,高大启,阮彤,王俊,何萍,姚华彦

2020, 34(12): 100-110.

摘要 (442) PDF (5482 KB) (1067)

由于上海市区域医疗健康平台整合了38家三级医院的电子病历,各医院表述同一临床检验指标的多样性和歧义性已严重影响病历挖掘研究。然而现有术语库理论性强,难以覆盖实际临床用语,需要构建融合38家医院的临床检验指标术语库。针对该问题,在模式图定义、知识抽取、知识融合和知识校验4个步骤基础上,提出半自动的术语库构建方案,以上海卫健委制定的医保术语为标准,先构建标准指标术语子库,再利用基于BERT的临床检验指标对齐模型,将38家医院的指标作为同义词归入标准术语。最终形成的指标术语库包含23 495个实体和47 746条事实三元组,可用于病历清洗、病历查询等应用。实验表明,所用指标对齐模型的F₁-score可达95.78%,在大肠癌挖掘课题中使用术语库可增加查询记录高达94%。此外,大肠癌相关指标的专病术语库已在dcakb.ecustnlplab.com公开。

Select

基于医疗知识图谱的并发症辅助诊断

刘勘,张雅荃

2020, 34(10): 85-93,104.

摘要 (756) PDF (9599 KB) (1958)

为了实现文本描述中的快速并发症的准确预判,该文结合知识图谱、表示学习、深度神经网络等方法构建了一个并发症辅助诊断模型。该模型首先构建医疗领域的知识图谱,并通过知识表示模型对医疗领域知识进行编码,结合患者主诉文本获取患者症状实体的表示向量,再将患者主诉表示向量和指标表示向量通过CNN-DNN网络对并发症进行辅助诊断。实验选取了糖尿病的3种并发症: 高血压、糖尿病肾病和糖尿病视网膜病变作为测试。该文模型的准确率对比支持向量机、随机森林和单独的深度神经网络在高血压、糖尿病肾病和糖尿病视网膜病变上分别提高了5%、5%、14%和27%、6%、9%,说明该文模型能够充分融合医疗知识图谱和深度学习技术,对提高并发症的诊断起到积极作用。

Select

基于多维度分析法的鲁迅三种文体比较研究

范楚琳,刘颖

2020, 34(10): 94-104.

摘要 (578) PDF (2072 KB) (1869)

该文从鲁迅书信、小说和杂文中提取出376个语言特征,采用随机森林和k-means聚类算法筛选出58个能够对三种文体取得较好区别效果的特征。该文采用比伯的多维度分析法对这些语言特征进行因子分析,得到7个比较重要的因子。根据每个因子中具有显著负荷值的语言特征,该文将7个因子解释为4个能够体现文体在写作角度、叙述视角、形式、语言系统等方面差异的维度,以及3个能够体现文体存在某种特点的特征组合。书信和小说在互动性上相似,然而书信更具议论性、文言性和详细的写作特征,小说更具描写性、白话性和简短的写作特征;书信和杂文在议论性和详细的写作特征上相似,而书信互动性较强,杂文互动性较弱;小说和杂文则没有相似的维度。

Select

基于主成分分析和循环神经网络的入侵检测模型

刘敬浩,孙晓伟,金杰

2020, 34(10): 105-112.

摘要 (560) PDF (2102 KB) (1852)

针对网络数据特征维度高、现有的入侵检测方法准确率低的问题,该文提出了一种基于主成分分析(PCA)和循环神经网络(RNN)的入侵检测方法PCA-RNN。该方法先对网络数据进行预处理,通过主成分分析法对数据进行特征降维和降噪,找出含有最大信息的主成分特征子集,然后对处理后的数据使用循环神经网络进行分类训练。实验使用基于Python的TensorFlow平台,并采用NSL-KDD作为实验数据集。实验结果表明,与常用的基于机器学习和深度学习方法的入侵检测技术相比较,该文提出的入侵检测方法可有效地提高检测的准确性。

Select

基于最优文档嵌入的《红楼梦》作者辨析

薛扬,梁循,谢华伦,杜玮

2020, 34(9): 97-110.

摘要 (734) PDF (7923 KB) (3926)

该文以包括《红楼梦》在内的51部当代及明清文学作品为语料集,利用文档嵌入算法,根据文档嵌入向量的酉不变性定义了不同作者作品文档嵌入矩阵及文档嵌入损失函数,构建了文档嵌入模型中最优维度及最优窗口的选择模型,并根据文本用词和文档主题语义特征构建了高维空间中的文档嵌入向量。通过无监督的流形学习降维映射以及有监督的分类算法多组实验,验证了通过文档嵌入得到的向量空间模型可以有效区分不同作者的写作风格,对于已知确定作者的作品分类准确率达99.6%,对于风格较为接近的作者也可以有效识别,例如,文风相似的路遥和陈忠实。并在此分类模型的基础上,构建了变尺度滑动窗口分类模型对《红楼梦》进行深入分析,印证了“红楼梦”前80回与后40回可能来自不同作者,还发现了前100回与后20回也存在着较大的风格差异,不排除有再次更换作者的可能。该文在计算机技术层面上为《红楼梦》的作者辨析问题提供了一种支持意见和新的见解。

Select

基于门控化上下文感知网络的词语释义生成方法

张海同,孔存良,杨麟儿,何姗,杜永萍,杨尔弘

2020, 34(7): 105-112.

摘要 (691) PDF (2193 KB) (2340)

传统的词典编纂工作主要采用人工编纂的方式,效率较低且耗费大量的资源。为减少人工编纂的时间和经济成本,该文提出一种基于门控化上下文感知网络的词语释义生成方法,利用门控循环神经网络(GRU)对词语释义生成过程进行建模,自动为目标词生成词语释义。该模型基于编码器—解码器架构。编码器首先利用双向GRU对目标词的上下文进行编码,并采用不同的匹配策略进行目标词与上下文的交互,结合注意力机制分别从粗粒度和细粒度两个层次将上下文信息融合到目标词的向量表示中,最终获得目标词在特定语境中的编码向量。解码器则同时基于目标词的语境与语义信息为目标词生成上下文相关的词语释义。此外,通过向模型提供目标词字符级特征信息,进一步提高了生成释义的质量。在英文牛津词典数据集上进行的实验表明,该文提出的方法能够生成易于阅读和理解的词语释义,在释义建模的困惑度和生成释义的BLEU值上分别超出此前模型4.45和2.19,性能有显著提升。

Select

基于Transformer增强架构的中文语法纠错方法

王辰成,杨麟儿,王莹莹,杜永萍,杨尔弘

2020, 34(6): 106-114.

摘要 (1502) PDF (5647 KB) (4744)

语法纠错任务是自然语言处理领域的一项重要任务,近年来受到了学术界广泛关注。该任务旨在自动识别并纠正文本中所包含的语法、拼写以及语序错误等。该文将语法纠错任务看作是翻译任务,即将带有错误表达的文本翻译成正确的文本,采用基于多头注意力机制的Transformer模型作为纠错模型,并提出了一种动态残差结构,动态结合不同神经模块的输出来增强模型捕获语义信息的能力。受限于目前训练语料不足的情况,该文提出了一种数据增强方法,通过对单语语料的腐化从而生成更多的纠错数据,进一步提高模型的性能。实验结果表明,该文所提出的基于动态残差的模型增强以及腐化语料的数据增强方法对纠错性能有着较大的提升,在NLPCC 2018中文语法纠错共享评测数据上达到了最优性能。

Select

基于非对称孪生网络的新闻与案件相关性分析

赵承鼎,郭军军,余正涛,黄于欣,刘权,宋燃

2020, 34(3): 99-106.

摘要 (589) PDF (1627 KB) (680)

新闻与案件的相关性分析是法律领域新闻舆情分析的重要环节,可转化为新闻文本与案件文本的相似度计算任务。借助孪生网络计算文本相似度是一种有效途径,其对平衡样本具有良好的学习能力,但在新闻与案件的相关性计算中面临文本不平衡和新闻文本冗余的问题,因此,该文提出了基于非对称孪生网络的新闻与案件相关性计算方法。通过计算文本中句子与标题的相似度选取与新闻标题最相关的句子表征文档,去除新闻文本中的冗余句子,利用非对称孪生网络建模,考虑到案件要素蕴含案件的关键语义信息,将案件要素作为监督信息融入到非对称孪生网络中对新闻文档和案件描述进行编码,解决新闻和案件在结构和语义上不平衡的问题,最终实现新闻与案件的相关性判断。实验表明该模型相比基线模型准确率提升了2.52%。

Select

面向法律文书的量刑预测方法研究

谭红叶,张博文,张虎,李茹

2020, 34(3): 107-114.

摘要 (888) PDF (2687 KB) (1373)

大规模法律文书数据为智能司法审判研究提供了重要的数据基础。量刑预测是智能司法审判中的一个关键环节,对维护司法审判的公平与公正具有重要意义。该文首先基于区间划分和多模型投票方法进行了量刑预测初探,发现区间划分策略可以有效缓解刑期类别众多和数据不平衡问题;在此基础上,又采用基于量刑属性的预测方法来充分理解量刑情节。在CAIL2018评测数据上的实验表明: 该文所提出的两种方法,性能明显超过其他基线系统。

Select

先秦诸家学派的相关系数与特征词研究

马创新,梁社会,陈小荷

2019, 33(12): 129-134.

摘要 (602) PDF (711 KB) (918)

为了发现先秦诸家学派之间的相关度,找出能够代表各学派主题特征的特征词,该文首次对诸家学派之间的相关关系作量化考察,对诸家思想的主题特征作统计分析。通过研究发现,儒家与道家之间的相关度最高,兵家与墨家之间的相关度最低,道家与其他各学派之间的相关系数的均值最大。该文还通过分析特定学派中各个词型与其他各学派中相同词型的等级之间差额大小,筛选出能够代表学派主题的特征词。

Select

基于词语语义差异性的多标签罪名预测

王加伟,张虎,谭红叶,王元龙,赵红燕,李茹

2019, 33(10): 127-134.

摘要 (911) PDF (2722 KB) (960)

罪名预测是智慧司法领域中的一项重要研究内容,其旨在依据犯罪事实自动预测出犯罪主体触犯的罪名。犯罪事实是案件的真实客观描述,犯罪事实中各词语的语义重要性在不同罪名的判决中有所差异,而现有方法在对犯罪事实建模的过程中往往忽略了这种语义差异性,且缺乏对数罪并罚情形的处理。为此,该文在对犯罪事实的建模过程中将词语的语义差异融入注意力机制;并将数罪并罚情形下的多标签罪名预测转化为多个独立的单标签罪名预测。实验结果表明,该文基于词语语义差异性建模和多标签转化策略均有利于提升罪名预测的效果,在“中国法研杯”2018司法人工智能挑战赛公布的数据集上达到了88.0%的F1值。

Select

短语音及易混淆语种识别改进系统

李卓茜,高镇,王化,刘俊南,朱光旭

2019, 33(10): 135-142.

摘要 (620) PDF (3748 KB) (757)

该文针对短语音(语段时长小于等于1s)和易混淆语音的语种识别进行研究。选取东方多语种识别竞赛数据集为实验数据集,对比了音素对数似然比特征、梅尔频率倒谱系数特征、深度瓶颈层特征(DBF)在短语音及易混淆语种识别中的性能,证明DBF在两种识别任务中均具有较好的性能。为提升识别准确率提出DBF-I-VECTOR语种识别改进系统,该系统分别将基线DBF-I-VECTOR系统的短语音识别等错误率最优结果从12.26%降低为10.55%,易混淆语音识别等错误率(EER)最优结果从5.53%降低为2.86%。在对比改进系统后端的余弦距离(CDS)、概率线性判别分析(PLDA)、支持向量机(SVM)、极端梯度提升(XGBoost)、随机森林(RF)分类性能时发现RF在短语音任务中分类效果最好,SVM在易混淆任务中分类效果最好。

Select

长文本武侠小说外号识别研究

唐锋,梁循,赵晓磊,张旋,程恒超

2019, 33(8): 132-142.

摘要 (646) PDF (5242 KB) (1149)

长文本武侠小说中主人公以侠客和义士为主,人物个性鲜明,外号可以概括人物最显著的特征。传统命名实体识别主要集中在人名、地名、机构名等领域,对于识别外号尚未有相关研究,但作为武侠小说中不可或缺的元素,外号识别对于同义词识别等研究方向具有借鉴意义。鉴于此,该文提出对武侠小说中武侠人名对应的外号的未登录词扩展识别筛选并辅以固定句式法则的识别方法。未登录词扩展识别筛选方法融合了对于左邻字符串的拓展和筛选同时定义了竞争外号子串和候选外号子串等概念,固定句式法则方法是通过外号指示词对观察窗口的候选外号子串进行筛选。经过统计和分类提出了武侠小说高频词表和低频指示字典,用于对竞争外号子串进行筛选。实验证明该文方法可行有效。

Select

联机汉字篇章书写质量评价研究

许明月,姜杰,李艺,仇宏斌

2019, 33(4): 135-142.

摘要 (583) PDF (3311 KB) (809)

该文的研究工作针对硬笔汉字篇章书写练习的智能评价与指导需求展开。在PAD等数字录入设备支持的联机书写状态下,以记录书写笔迹的时序点集为依据,先实现分行割字,再进行行水平、行间距稳定性、行间距均匀性、字间距均匀性和左对齐等的计算并获得特征参量。最终通过专家经验赋权法给出直观的书写质量评价结果。实验表明,该系统可以对篇章书写质量给出较符合主观习惯的评价,能够用于指导书写者进行汉字篇章书写练习。

Select

余华与莫言长篇小说的计量统计和分析

涂梦纯,刘颖

2019, 33(2): 131-142.

摘要 (877) PDF (3376 KB) (1040)

该文以余华和莫言的各5部长篇小说作为语料,选用段落、句子和分句的长度,标点及其n元,词类及其n元,词汇及其n元和颜色词作为特征,使用层次聚类、k-s检验从整体上判断两位作者的作品是否有差异,再使用秩和检验判断两位作者的某一具体特征是否有差异。该文对余华和莫言用词上的特征进行了详尽的分析,发现了莫言用词丰富、情感充沛及文言化、乡土化的特征,而余华与之相比白话、冷静、讽刺的风格。

Select

从高频词等级相关角度探析《红楼梦》作者

马创新,陈小荷

2018, 32(11): 97-102.

摘要 (697) PDF (1052 KB) (1195)

该文提出一种“基于高频词等级相关度的方法”来探析存疑文献的作者信息,把各份语料中的词型均按照出现频次递减排列并确定等级,然后通过计算出语料之间高频词等级的相关度,来推断语料之间语言风格的相似度,并且把这种方法与“基于词型共现率的方法”和“基于词例共现率的方法”相比较。把《红楼梦》的120回均分为12份语料,使用“基于高频词等级相关度的方法”计算这12份语料两两之间的相关度。研究发现《红楼梦》的前8份语料两两之间相关度高,后4份语料两两之间相关度也高,而前8份语料与后4份语料这两部分语料之间相关度低。推断《红楼梦》前80回应是同一人所写,后40回应是另一人所写。

“自然语言处理应用” 栏目所有文章列表

选择文件类型/文献管理软件名称

选择包含的内容