中文信息学报
ISSN 1003-0077 CN 11-2325/N CODEN ZXXHAU
设为首页
加入收藏
RSS
|
Email Alert
引用检索
快速检索
高级检索
首页
期刊介绍
刊物介绍
编委会
数据库收录
读者中心
当期目录
在线预览
高被引文章
下载排行
过刊浏览
读者注册
读者登陆
作者中心
作者投稿
作者查稿
作者须知
审稿中心
专家审稿
主编办公
编委办公
编辑部办公
自荐审稿
下载中心
联系我们
联系方式
留言板
征订启示
常见问题(Q&A)
Email Alert
English
2017年 31卷 5期
刊出日期:2017-10-16
机器翻译
信息抽取与文本挖掘
情感分析与社会计算
信息检索与问答系统
语言分析与计算
民族语言与周边语言信息处理
语言分析与计算
1
《现汉》与《语法信息词典》词类对应分析
Hot!
邱立坤,赵慧,俞士汶,朱学锋
词类标注问题历来受到中文信息处理、汉语语法和词汇学界的共同关注,学者们已提出多种词类标记体系,彼此间存在较大差异,但迄今尚无人对大规模词类标注工程进行系统比较。该文以《现代汉语词典》第5版和《现代汉语语法信息词典》两个大型词典词类标注工程为比较对象,基于所提出的词类对应算法,自动找出两部词典词类标注上的差异,进而对形成差异的原因进行分析。分析结果表明,两部词典词类标注一致性较高(83.5%完全相同),而存在差异的地方可归结为三类主要原因: 词类迁移;词类判断标准不一致;收录义项不同。
2017 Vol. 31 (5): 1-7,20 [
摘要
] (
715
) [
HTML
1KB] [
PDF
1081KB] (
1222
)
8
词语序差的分布特点与文本间词汇异同
刘锐,孙碧泽,龙云飞,王珊
该文在已有关于“频级”“频序”研究的基础上,结合两种不同类型的语料,采用词汇计量分析方法,考察词语的“序差”所具有的分布特点。该研究发现,对于两种文本的共有词集,词的序差呈对称分布,且集中分布于中位数附近,存在离群值序差。这一特点在序差图上表现为“中段平直,双尾翘曲”的“双尾分布”形态。根据词语序差的分布规律,可以将文本共有词划分为“中段”“下尾”“上尾”三个层次。“中段”词语反映两个文本的共性特征,“下尾”及“上尾”词语反映两个文本的差异性特征,这些特征具有反映文本的主题内容和文体风格的语言学意义。
2017 Vol. 31 (5): 8-13 [
摘要
] (
447
) [
HTML
1KB] [
PDF
1463KB] (
1135
)
14
基于规则的汉语疑问词“什么”的语义识别模型构建
牛长伟,程邦雄
汉语疑问词具有多义性,至少有三种通用解读: 疑问解读、存在解读(虚指)和全称解读(任指)。该文从汉语疑问词的词义排歧角度出发,通过总结汉语疑问词三种解读所处的句法环境的共同特征,确立其在复杂句法环境中的强势解读,进而构建一个基于规则的汉语疑问词的语义识别模型,为制订词义排歧决策表提供依据。该文以词义最多的疑问词“什么”为例,尝试通过这一思路,来构建基于规则的“什么”的语义识别模型和词义排歧决策表,并通过实验来验证,然后将其改进。
2017 Vol. 31 (5): 14-20 [
摘要
] (
589
) [
HTML
1KB] [
PDF
1275KB] (
1471
)
21
基于概念知识树的双宾短语分析
林子琦,倪晚成,赵美静,杨一平
双宾短语是一种特殊的语言现象,为了使计算机能够理解并处理双宾短语,该文从语法和语义两个层面对双宾短语进行了分析,基于概念知识树知识表示模型建立了双宾短语的语义表达模型;并提出一种双宾短语分析算法,实现了从双宾短语到其语义表达模型的自动转换。双宾短语分析算法采用自顶向下和自底向上相结合的方法,自顶向下用于对双宾短语的语法成分进行划分,获得构成双宾短语的双宾动词成分、间接宾语成分和直接宾语成分;自底向上用于使用基于概念知识树的短语分析推理算法对双宾短语中的这三种成分分别进行分析,获得对应的语义表达;最后,利用三种成分的语义分析结果构建双宾短语完整的语义表达。该文从权威文献和语法词典中选取了122个双宾动词,对这些双宾动词构成的209个短语进行了分析,分析的正确率为90.43%,证明了该文提出的双宾短语分析算法和语义表达模型的有效性。
2017 Vol. 31 (5): 21-31,49 [
摘要
] (
500
) [
HTML
1KB] [
PDF
3886KB] (
1114
)
32
基于句本位图解树库的汉语句式实例获取
朱淑琴,彭炜明,宋继华,郭冬冬
为了将中文树库更好地服务于国际汉语教学,考虑到语法教学中句式框架的整体性,该文引入基于句式结构的句本位图解树库,深入分析其结构特征,并基于句式结构的分层抽取思路,提取了蕴含在每个标注句中的句式实例,构建了汉语句式实例库,具体分为基础句式实例库和复杂句式实例库两部分。该项工作使得小规模标注树库可以获取较大规模的句式实例库,为句本位图解树库在国际汉语教学中的应用提供了一种有效的数据解决方案。
2017 Vol. 31 (5): 32-39 [
摘要
] (
563
) [
HTML
1KB] [
PDF
5012KB] (
856
)
40
基于CFN的汉语篇章连贯性研究
吕国英,苏娜,李茹,王智强
篇章连贯性研究是篇章分析领域的重要课题之一。基于Chinese FrameNet(CFN),该文构建了汉语篇章连贯性描述体系,该描述体系研究了框架语义与篇章单元的关系,探讨了篇章如何通过框架与框架之间的语义关系实现篇章的连贯,为篇章连贯提供了合适的描写机制和计算基础。从《人民日报》选取了160篇文章进行标注实践,在篇章结构和篇章关系两方面均取得了大于0.8的kappa值,验证了描述体系具有较高的人工标注一致性,可作为进一步进行大规模篇章标注语料构建的依据。
2017 Vol. 31 (5): 40-49 [
摘要
] (
668
) [
HTML
1KB] [
PDF
3850KB] (
1149
)
机器翻译
50
译文语序的领域性思考:一种融合主题信息的领域自适应调序模型
刘梦眙,姚亮,洪宇,刘昊,姚建民
领域自适应研究的目标是建立一种动态调整翻译模型,使翻译模型对目标领域的语言特征具备较强的学习和处理能力,借以保证翻译系统在不同领域获得平衡可靠的翻译能力。现有翻译模型的自适应研究已经取得显著进展,但调序过程的领域适应性研究相对较少。在该文前期工作中通过对大规模源语言和目标语言的真实互译样本统计发现,在语义等价的短语级互译对子中,36.17%的样本在不同领域中的语序存在显著差异。针对这一问题,该文从主题角度出发,探索不同主题分布下的短语调序差异,提出一种融合主题信息的领域自适应调序模型。实验结果显示,嵌入调序适应性模型的翻译系统取得了较为明显的性能优势。
2017 Vol. 31 (5): 50-58 [
摘要
] (
557
) [
HTML
1KB] [
PDF
1878KB] (
800
)
民族语言与周边语言信息处理
59
基于语料库的藏语语音合成单元选择算法
才让卓玛,才智杰
在基于语料库的语音合成方法中,语音合成单元选择的优劣直接影响合成语音的自然度和流畅性。该文针对藏语言文字的特点,提出以基本构件、组合构件、字、词及句单元相融合的混合单元语音合成策略,并提出了藏语语音合成混合单元选择算法。主观评价与客观评测数据表明该策略与算法有效和合理,各类合成单元在开放语料上的覆盖率与语音合成效果均达到预期的目标。
2017 Vol. 31 (5): 59-63 [
摘要
] (
433
) [
HTML
1KB] [
PDF
1285KB] (
1049
)
64
基于部件组合的联机手写“藏文—梵文”样本生成
王维兰,卢小宝,蔡正琦,沈文韬,付吉,才科扎西
“藏文—梵文”包括500多个现代藏文、6 000多个梵音藏文,在文字识别领域属于大类别的字符集,所以联机手写样本采集是庞大而复杂的工程。鉴于此,提供了一种基于部件组合的“藏文—梵文”手写样本生成方法,主要包括: (1)确定“藏文—梵文”字符集和部件集;(2)获取“藏文—梵文”字丁的部件位置信息;(3)采集联机手写“藏文—梵文”部件的样本;(4)生成联机手写“藏文—梵文”字符集样本库。该文为联机手写“藏文—梵文”识别的研究提供字符训练样本库和测试样本库,提高了手写梵音藏文样本采集效率,解决了样本数量及多样性问题,降低了样本采集成本,为进一步联机手写梵音藏文识别的研究与系统开发奠定了基础。
2017 Vol. 31 (5): 64-73 [
摘要
] (
481
) [
HTML
1KB] [
PDF
7971KB] (
571
)
74
基于字素分割的蒙古文手写识别研究
范道尔吉,高光来,武彗娟
隐马尔科夫模型(HMM)对序列数据有很强的建模能力,在语音和手写识别中都得到了广泛的应用。利用HMM研究蒙古文手写识别,首先需要解决的问题是手写文字的序列化。从蒙古文的构词和书写特点看,蒙古文由多个字素从上到下串联构成。选择字素集合和词的字素分割是手写识别的基础,也是影响识别效果的关键因素。该文根据蒙古文音节和编码知识确定了蒙古文字母集合,共包括1 171个字母。通过相关性处理、HMM排序筛选等手段得到长字素集合,共包括378个字素。对长字素经过人工分解,获得了50个短字素。最后利用两层映射给出了词转字素序列的算法。为了验证长短字素在手写识别中的效果,我们在HTK(hidden Markov model toolkit)环境下利用小规模字库实现了手写识别系统,实验结果表明短字素比长字素有更好的性能。文中给出的字素集合和词转字素序列的算法为后续基于HMM的蒙古文手写识别研究奠定了基础。
2017 Vol. 31 (5): 74-80 [
摘要
] (
588
) [
HTML
1KB] [
PDF
2652KB] (
1098
)
81
齐普夫定律对朝鲜语适用性的测定
崔荣一,赵雪
该文目的在于验证齐普夫定律对朝鲜语的适用性。首先统计了朝鲜语大规模语料中的文字及字母两种语言单位的频率分布,然后利用最小二乘法对文字频率分布曲线进行了拟合,最后计算了文字字频齐普夫定律的参数估计值。实验结果表明,朝鲜语的文字和字母的频率与频级关系都近似符合齐普夫定律,验证了齐普夫定律对朝鲜语的适用性,这对朝鲜语的信息处理与研究具有重要的现实意义。
2017 Vol. 31 (5): 81-84,91 [
摘要
] (
576
) [
HTML
1KB] [
PDF
2012KB] (
859
)
85
蒙古语固定短语识别算法的设计与实现
斯·劳格劳
固定短语的自动识别和标注是进行蒙古语文本处理的基础和前提条件。词类标注、短语标注、句法分析、语义分类及语义角色标注等基础研究和机器翻译、文本校对等应用系统的开发均以正确标注固定短语的文本为处理对象。该文在“蒙古语固定短语语法信息词典”的基础上采用基于有限状态自动机和规则的方法设计实现了固定短语识别和标注算法。经实验,其识别率已达到90%以上,在处理中,词均用时与基于字符串匹配的算法相比提高较多,达到0.005 0ms。
2017 Vol. 31 (5): 85-91 [
摘要
] (
359
) [
HTML
1KB] [
PDF
3478KB] (
798
)
92
维吾尔语名词短语待消解项识别
陶豆豆,禹龙,田生伟,赵建国,吐尔根·依布拉音,艾斯卡尔·艾木都拉
针对维吾尔语名词短语待消解项识别任务,该文提出一种利用栈式非负约束自编码器(Stacked Nonnegative Constrained Autoencoder,SNCAE)完成基于语义特征的待消解项识别方法。为了提高自动编码器隐藏层激活度的稀疏性和重构数据的质量,利用NCAE非负约束算法,为连接权值施加非负性约束。通过分析维吾尔语名词短语语言指代现象,提取出15个特征,利用SNCAE提取出深层语义特征,引入Softmax分类器,进而完成待消解项识别任务。该方法在维吾尔语名词短语待消解项识别中,正例准确率和负例准确率分别比SVM高出8.259%和4.158%,比栈式自编码(SAE)高出1.884%和1.590%,表明基于SNCAE的维吾尔语名词短语待消解项识别方法比SVM和SAE更适合维吾尔文的待消解项识别任务。
2017 Vol. 31 (5): 92-98,113 [
摘要
] (
473
) [
HTML
1KB] [
PDF
1851KB] (
927
)
99
基于语义串特征提取及融合评价的维吾尔文文本聚类
吐尔地·托合提,维尼拉·木沙江,艾斯卡尔·艾木都拉
该文研究一种改进的
n
元递增算法来抽取文本中表达关键信息的语义串,然后用多特征融合的评价方法为每一个文本选取最重要的语义串,并用这些语义串作为特征表示文本。通过K_means聚类分析的实验结果表明,以语义串作为特征可以构造比单词特征集更紧凑的文本模型,不仅可以大大降低特征空间的维度,对于提高聚类算法性能也是非常有效的。
2017 Vol. 31 (5): 99-107 [
摘要
] (
464
) [
HTML
1KB] [
PDF
5329KB] (
1293
)
108
维吾尔文初中数学教材词干分析研究
艾孜尔古丽,艾孜海尔江,玉素甫·艾白都拉,祖力克尔江,米尔夏提
该文将初中数学维吾尔文教材作为研究对象,根据维吾尔语的特点和统计学原理理论,从计算语言学角度调查初中数学维吾尔文教材用词干情况。该文主要研究维吾尔语词干、教材概貌、数据处理技术相关概念及其算法及现代维吾尔语语料处理工具,获取教材中词干基本情况、新增词干、初中数学教材高频词干,开展了初中数学维吾尔文教材词干调查,为维吾尔语研究、维吾尔文数学教学与教材编纂等提供参考依据,从而更加积极有效地促进维吾尔语语言本身研究及其信息处理的发展。
2017 Vol. 31 (5): 108-113 [
摘要
] (
588
) [
HTML
1KB] [
PDF
1365KB] (
797
)
信息抽取与文本挖掘
114
基于弱监督和半自动方法的中文关系抽取数据集构建
Hot!
马超义,徐蔚然
关系抽取是信息抽取中的一项基础任务,对信息检索、问答系统、知识图谱等有非常重要的意义。现有的关系抽取数据集存在包含类别太少、句子标注困难、不易扩展等缺陷,且只有英文数据集,不能很好地解决中文关系抽取任务。该文采用弱监督和半自动的方法,构建了一份中文关系抽取数据集,弥补了上述不足。首先借助维基百科抽取出丰富的关系对,从百度搜索返回结果及搜狗新闻语料中抽取包含实体对的句子,完成弱监督句子抽取过程。将句子放入RNN关系抽取系统进行打分,选取标注价值高的句子提交人工标注,对标注结果进行处理,最终得到中文关系抽取数据集。
2017 Vol. 31 (5): 114-119 [
摘要
] (
985
) [
HTML
1KB] [
PDF
1803KB] (
1415
)
120
基于特征加权的新闻主题句抽取
万国,张桂平,白宇,朱耀辉
根据新闻文本的特点,分别对新闻标题与正文进行分析,该文提出了一种针对新闻文本的特征加权的主题句抽取方法。首先对新闻主题句在文本中的分布情况进行分析,选取了位置特征;然后根据新闻标题对于新闻主旨的提示作用,选取了标题句子重合度与关联度的特征,且在关联度特征中将基于加权二部图的最大匹配算法融入其中;最后依据句子的得分排名,进行主题句抽取。实验显示,利用该方法进行主题句抽取的P@1为75.9%,P@3 达到92.4%。
2017 Vol. 31 (5): 120-126 [
摘要
] (
476
) [
HTML
1KB] [
PDF
5259KB] (
922
)
127
任意网页的主题信息抽取研究
张儒清,郭岩,刘悦,俞晓明,程学旗
目前大部分的网页信息抽取方法都局限于某一类网页的提取,并没有进一步深入到适用于任意网页的抽取。针对这一问题,该文提出了一种基于融合机制的任意网页主题信息抽取框架,特点是通过“模板库匹配—基于模板抽取—网页分类—全自动抽取”四个步骤实现对模板无关的全自动抽取算法和基于模板的抽取算法的融合。实验显示,这种融合机制能促进抽取准确率的有效提高,从而最终建立起一个适用于任意网页的、具有实用价值的信息抽取框架。
2017 Vol. 31 (5): 127-137 [
摘要
] (
560
) [
HTML
1KB] [
PDF
7297KB] (
709
)
138
基于TF-IDF和余弦相似度的文本分类方法
武永亮,赵书良,李长镜,魏娜娣,王子晏
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤: 基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。
2017 Vol. 31 (5): 138-145 [
摘要
] (
863
) [
HTML
1KB] [
PDF
3223KB] (
1969
)
信息检索与问答系统
146
基于深度神经网络的搜索引擎点击模型构建
谢晓晖,王超,刘奕群,张敏,马少平
随着富媒体展现形式被越来越多地引入搜索交互界面,搜索引擎的结果页面呈异质化和二维模块展现形式,这对传统的点击预测模型提出了巨大的挑战。针对这一情况,我们对实际搜索引擎结果页面的多模态结果进行了分析,构建了一个结合深度神经网络和点击模型的框架,该框架既包含了神经网络的特性,又利用了点击模型的预测能力。我们希望利用这个框架挖掘出多模态信息与文本信息之间的相关性,使之具有描述异质化结果和二维模块展示形式的能力。实验表明,我们的框架相较于传统的点击模型在点击预测性能上有显著提升,但由于搜索引擎的多模态结果内容复杂,仅利用多模态结果的底层特征,即使使用深度神经网络,从中能够挖据出的语义相关性较弱。
2017 Vol. 31 (5): 146-155 [
摘要
] (
644
) [
HTML
1KB] [
PDF
4186KB] (
1082
)
156
基于上下文的深度语义句子检索模型
范意兴,郭嘉丰,兰艳艳,徐君,程学旗
传统的信息检索的研究多集中在文档级的检索场景中,然而,句子级的检索在如移动应用以及信息需求更加明确的检索场景下具有非常重要的意义。在句子级的检索场景下,我们认为句子的上下文能够提供更加丰富的语义信息来支撑句子与查询的匹配,基于此,该文提出了一个基于句子上下文的深度语义句子检索模型(context-aware deep sentence matching model, CDSMM)。具体的,我们使用双向循环神经网络来建模句子内部以及句子上下文的语义信息,基于句子和查询的语义信息得到它们的匹配程度,在WebAP句子检索数据集上的实验表明,我们的模型性能显著地优于其他的方法,并取得了目前最好的效果。
2017 Vol. 31 (5): 156-162 [
摘要
] (
619
) [
HTML
1KB] [
PDF
1912KB] (
1093
)
163
基于阈值的快速启动Top-k查询处理算法
江宇,宋省身,杨岳湘,姜琨
Top-k查询是搜索引擎领域广泛应用的技术之一,该算法从海量数据中返回最符合用户需求的前
k
个结果,在执行时能避免对大部分无关文档的打分处理。Top-k 查询虽然极大提升了查询性能,但其存在的慢启动问题并未得到有效解决。为此,该文首先提取倒排索引的静态Top-k信息,再动态计算针对具体查询词项的初始阈值,在此基础上,结合MaxScore和WAND算法,提出了快速启动的Top-k查询处理算法。实验结果表明,该方法能够有效解决上述问题,具有良好的性能。
2017 Vol. 31 (5): 163-170 [
摘要
] (
661
) [
HTML
1KB] [
PDF
2204KB] (
892
)
171
基于双语信息的问题分类方法研究
徐健,张栋,李寿山,王红玲
问题分类是问答系统研究的一项基本任务。先前的研究仅仅是在单语语料上训练得到问题分类模型,存在语料不足和问题文本较短的问题。为了解决这些问题,该文提出了融合双语语料的双通道LSTM问题分类方法。首先,利用翻译语料分别扩充中文和英文语料;其次,将两种语言语料中的样本都分别用问题文本和翻译文本表示;最后,提出了双通道LSTM分类方法用于充分利用这两组特征,构建问题分类器。实验结果表明,该文提出的方法能有效提高问题分类的性能。
2017 Vol. 31 (5): 171-177 [
摘要
] (
554
) [
HTML
1KB] [
PDF
5062KB] (
836
)
情感分析与社会计算
178
一种级联式微博情感分类器的构建方法
张仰森,孙旷怡,杜翠兰,王建,佟玲玲
该文从统计学方法与机器学习的分类思想出发,对中文微博文本的情感类别进行研究。针对微博文本的特点,提出了一种级联式微博情感分类器模型,该模型首先构建基于情感词典和新浪表情符号词典的微博情感初级分类模型;然后根据基准词构建基于类别倾向相似度的二级分类模型,对初级模型未能确定情感类别的微博进行再次分类,并对初级模型的词典进行更新;最后采用朴素贝叶斯分类器构建三级分类模型,对以上还未确定情感类别的微博进行三级分类。通过与NLPCC2014微博情感分类评测参赛结果进行比较,说明了所提方法的有效性。
2017 Vol. 31 (5): 178-184 [
摘要
] (
559
) [
HTML
1KB] [
PDF
1700KB] (
935
)
185
基于迭代回归树模型的跨平台长尾商品购买行为预测
白婷,文继荣,赵鑫,杨伯华
长尾商品是指单种商品销量较低,但是由于种类繁多,形成的累计销售总量较大,能够增加企业盈利空间的商品。在电子商务网站中,用户信息量较少且购买长尾商品数量较少、数据稀疏,因此对用户购买长尾商品的行为预测具有一定的挑战性。该文提出预测用户购买长尾商品的比例,研究单一用户购买长尾商品的整体偏好程度。利用社交媒体网站上海量的文本信息和丰富的用户个人信息,提取用户的个人属性、文本语义、关注关系、活跃时间等多个种类的特征;采用改进的迭代回归树模型MART(Multiple Additive Regression Tree),对用户购买长尾商品的行为进行预测分析;分别选取京东商城和新浪微博作为电子商务网站和社交媒体网站,使用真实数据构建回归预测实验,得到了一些有意义的发现。该文从社交媒体网站抽取用户特征,对于预测用户购买长尾商品的行为给出一个新颖的思路,可以更好地理解用户个性化需求,挖掘长尾市场潜在的经济价值,改进电子商务网站的服务。
2017 Vol. 31 (5): 185-193 [
摘要
] (
556
) [
HTML
1KB] [
PDF
2497KB] (
5279
)
194
面向社交网络的潜在药物不良反应发现
赵明珍,林鸿飞,徐博,郝辉辉
随着互联网的发展,社交网络中积累了大量的医疗健康领域的文本数据。该文利用基于信息熵的方法,从健康社交网络中的用药者评论数据中识别药物的潜在不良反应;同时,对于潜在药物不良反应,该文提出了基于Word2vec和Skip-gram模型的蛋白质关联紧密度函数,尽最大努力发现药物引起其“潜在”不良反应的证据链。实验证明,该方法用来寻求潜在药物不良反应证据链是有效的。
2017 Vol. 31 (5): 194-202 [
摘要
] (
547
) [
HTML
1KB] [
PDF
1614KB] (
940
)
203
基于WMD距离与近邻传播的新闻评论聚类
官赛萍,靳小龙,徐学可,伍大勇,贾岩涛,王元卓,刘悦
随着新闻网站的快速发展,网络新闻和评论数据激增,给人们带来了大量有价值的信息。新闻让人们了解发生在国内外的时事,而评论则体现了人们对事件的观点和看法,这对舆情分析和新闻评论推荐等应用很重要。然而,新闻评论数据又多又杂,而且通常比较简短,因此难以快速直观地从中发现评论者的关注点所在。为此,该文提出一种面向新闻评论的聚类方法EWMD-AP,用以自动挖掘社会大众对事件的关注点。该方法利用强化了权重向量的Word Movers Distance(WMD)计算评论之间的距离,进而用Affinity Propagation(AP)对评论进行聚类,从杂乱的新闻评论中得到关注点簇及其代表性评论。特别地,该文提出利用强化权重向量替代传统WMD中的词频权重向量。而强化权重由三部分组成,包括结合词性特征与文本表达特征的词重要度系数、新闻正文作为评论背景的去背景化系数和TFIDF系数。在24个新闻评论数据集上的对比实验表明,EWMD-AP相比Kmeans和Mean Shift等传统聚类算法以及Density Peaks等当前最新算法都具有更好的新闻评论聚类效果。
2017 Vol. 31 (5): 203-214 [
摘要
] (
560
) [
HTML
1KB] [
PDF
4229KB] (
1169
)
215
基于用户隐性反馈行为的下一个购物篮推荐
李裕礞,练绪宝,徐博,王健,林鸿飞
下一个购物篮推荐是当前电子商务领域中极其重要的一项任务,传统的下一个购物篮推荐方法主要分为时序推荐模型和总体推荐模型。这些方法对点击、收藏、加入购物车等用户的隐性反馈行为利用得不够,并且没有考虑用户行为偏好的时间敏感性。该文提出了一种基于用户隐性反馈行为的下一个购物篮推荐方法,将用户行为按照一定的时间窗口进行划分,对于每个窗口从多个维度抽取用户对商品的时序偏好特征,运用深度学习领域的卷积神经网络模型进行分类器训练。在真实数据集中的实验结果表明,与传统的线性模型和树模型等分类器相比,该文提出的卷积神经网络框架具有较强的特征萃取能力和泛化能力,提高了推荐系统的用户满意度。
2017 Vol. 31 (5): 215-222 [
摘要
] (
585
) [
HTML
1KB] [
PDF
2569KB] (
1041
)
中文信息学报
·
编辑部2023年春节放假通知
·
2023年期刊订阅
更多....
更多....
更多....
中国知网
万方数据
更多....
版权所有 © 《
中文信息学报
》编辑部
地址:北京市海淀区中关村南四街4号 邮编:100190 电话:010-62562916 E-mail:cips@iscas.ac.cn
本系统由
北京玛格泰克科技发展有限公司
设计开发