该算法之所以可以预测用户性别,其中的关键在于女人使用语言的差异性。如果微博中包含感叹号或者笑脸,那么这个用户可能就是一名女性。其它研究这证 明了这种推测,调查发现女性更喜欢使用表情符号、缩写词、重复字母表达情绪。语言学家甚至可以根据用户“我的”(My)词汇使用方式判断用户的真正身份。
女人喜欢谈论购物、巧克力等话题,如果相关词汇出现在Twitter微博中,基本可以判定这名用户是位女士,据称这种算法的准确率在75.8%。
互联网用户身份的确定可以给予营销者更加明确的目标,该算法的另一个功能就是确认用户的假冒身份。(文/新浪科技)