对文本中人物进行性别识别时除了利用其人名本身的用字特征外,可以从整个篇章出发,考虑篇章中描述不同性别时的两性特征差异。该文根据描述男女人物不同方面时存在的两性差异自动获取大量具有明显性别差异的性别倾向性特征词:性别倾向性描述词和性别倾向性称谓词。通过性别识别实验发现,性别倾向性描述词相对于性别倾向性称谓词具有更好的性别指示作用。另外,性别倾向性描述词结合性别倾向性称谓词和姓名的用字特征相对于仅利用人名进行性别识别的效果更好。
Abstract
In addition to the word features of a character’s name, we can recognize a character’ gender according to the differences of the words when a man or a woman is described in the text. In the paper, based on the different description of men or women of various aspects, we obtain a large number of significant words with gender differences, gender bias feature words and gender bias personal appellations. The experiment shows that gender bias feature words have a better description of different gender roles than gender bias personal appellations. Besides, the method of gender bias feature words combined with gender bias personal appellations and the word features of a character’s name has a better effect than using only the person names’ features.
Key wordscomputer application; Chinese information processing;gender bias feature words; gender bias personal appellations; gender recognition
关键词
计算机应用 /
中文信息处理 /
性别倾向性特征词 /
性别倾向性描述词 /
性别倾向性称谓词 /
性别识别
{{custom_keyword}} /
Key words
computer application /
Chinese information processing /
gender bias feature words /
gender bias personal appellations /
gender recognition
{{custom_keyword}} /
{{custom_sec.title}}
{{custom_sec.title}}
{{custom_sec.content}}
参考文献
[1] John Hale, Eugene Charniak, Getting Useful Gender Statistics from English Text, Tech Report cs-98-06[EB/OL],Brown University, Providence, RI, 1998.
[2] 王厚峰.指代消解的方法和实现技术[J].中文信息学报,2000,14(6):9-17.
[3] 梁茂成,李刚. 英汉机器翻译中人称代词的处理[J]. 中文信息学报1999,13 (4):1-6.
[4] 陆春艳.语言里的性别差异[J].安徽文学(下半月),2008(04).
[5] 钱进.语言性别差异研究综述[J]. 甘肃社会科学, 2004 (6): 47-50.
[6] 董银秀. 语言中的性别因素[J]. 兰州工业高等专科学校学报, 2004,11 (1).
[7] 樊斌.基于汉语语料库的性别词汇研究[D].武汉理工大学,硕士学位论文.
[8] 段新焕.汉语动作动词的性别编码及对认知的影响[D].华南师范大学,硕士学位论文.
[9] 钱进.姓名用字的性别差异统计分析[J].常州工学院学报, 2004, 17 (5): 60-62.
[10] 郎君,秦兵,刘挺,李生. 中国人名性别自动识别[C]//第三届学生计算语言学研讨会.
[11] 王厚峰,梅铮. 鲁棒性的汉语人称代词消解[J]. 软件学报, 2005, 16(5):700-707.
[12] 张莉萍.称谓语性别差异研究[D].中央民族大学,硕士学位论文.
[13] 李新光.浅谈小说教学中的人物形象分析[J].科教文汇, 2007,(2):.
[14] Tseng Y H. Automatic Thesaurus Generation for Chinese Documents. Journal of the American Society for Information Science and Technology[J].2002, 53(13):1130-1138.
[15] http://www.t351.com/name/changyongzi.htm[EB/OL].
[16] 唐琴,宋锐,林鸿飞.基于CHUNK-CRF的情感问答系统[J]. 智能系统学报,2008, 3(6):504-510.
[17] 徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100.
{{custom_fnGroup.title_cn}}
脚注
{{custom_fn.content}}
基金
国家自然科学基金资助项目(60673039,60973068);国家863高科技计划资助项目(2006AA01Z151);教育部留学人员归国启动基金项目;教育部博士点基金资助项目(20090041110002)
{{custom_fund}}