文章作者是男还是女 软件告诉你
  • 萧萧
  • 2011年06月24日 21:10
  • 0

美国新泽西州霍波肯(Hoboken)史蒂文斯理工学院(Stevens Institute of Technology )的程娜(Na Cheng)及同事合作开发了一款在线性别测定软件,可以通过分析文本判断作者的性别。 该软件还在不断升级完善,不久的将来,我们也许可以就用这款软件测出在网上给自己暧昧留言的人是男还是女了。开发小组表示,该软件有助于保护儿童,使他们远离网络上掩盖性别的掠食者的引诱。

软件的使用方法很简单:用户上传一个文本文件,或粘贴一段不少于50词的段落到软件里,文字输入几分钟过后,该程序即做出性别判断:男性,女性,或是中性。判断为中性说明文本中有些文字已经过滤掉可以显示性别的部分。研究人员表示,这种现象在科技文本中尤为常见。

为了编写这套性别识别程序,研究小组查阅了海量路透社新闻档案的署名新闻稿,并参考了已破产的安然( Enron)能源公司的大量电子邮件数据,然后在这些文件中搜集 “ 心理语言(psycho-linguistic)” 因素,包括某些特定词语、标点符号的使用风格等。先前的研究已经确认了这些因素。研究人员总共发现了545个“心理语言” 因素,从中选出了157个具有显著性别特征的因素,包括男性和女性使用标点符号的风格、文章段落长度之间的差异等等。

其他有显著性别特征的语言因素还包括使用可以表明作者情绪或情感的文字,以及带有强烈感情色彩的副词和形容词的使用频率,如女性更常用 “真的”、“ 迷人”、“ 可爱” 等词,男性则会更频繁地用 “我” 这个字,而女性经常用问号。最后,软件运用贝叶斯算法(Bayesian algorithm)将所有因素结合起来,综合考虑后得出作者性别的可能结果。

不过,软件的测定结果并非总是正确的。目前在软件中输入一段文字后,性别判断准确率只有85%,但是,随着使用人数增加,准确率会有所提高。因为软件判断错误时,用户会向系统指出错误,这有助于算法提高准确性。下一个版本的软件将对Twitter和Facebook上更新的内容进行分析。

英国牛津互联网学院(Oxford Internet Institute )的社交网络技术专家伯尼·霍根(Bernie Hogan)认为性别鉴定技术十分有用。他表示能够提供一些额外的关于作者性别的线索总归是件好事,有益无害。霍根还表示,判断结果为 “中性” 时,也可能表明有人正在试图用刻意使用违背本人性别的方式发表言论。而软件也许能就此提供强有力的证据。(文/果壳网

文章作者是男还是女 软件告诉你

 

文章纠错

  • 好文点赞
  • 水文反对

此文章为快科技原创文章,快科技网站保留文章图片及文字内容版权,如需转载此文章请注明出处:快科技

观点发布 网站评论、账号管理说明
热门评论
查看全部评论
相关报道

最热文章排行查看排行详情

邮件订阅

评论0 | 点赞0| 分享0 | 收藏0