联系我们

深度学习

改进仇恨语音检测算法的新研究尝试

已发表

 on

社交媒体公司,尤其是Twitter,长期以来一直受到批评,因为它们如何标记讲话并决定禁止哪些帐户。根本的问题几乎总是与他们用来监视在线帖子的算法有关。在完成这项任务时,人工智能系统还远远不够完善,但是人们一直在不断地改进它们。 

这项工作包括 新研究 来自南加州大学,试图减少某些可能导致种族偏见的错误。

无法识别上下文

引起人们广泛关注的问题之一与算法有关,该算法旨在阻止仇恨言论的传播,但实际上会加剧种族偏见。当算法无法识别上下文并最终标记或阻止来自少数群体的推文时,就会发生这种情况。

与上下文有关的算法最大的问题是,它们对某些特定的群体识别术语(如“黑色”,“同性恋”和“变性者”)过于敏感。该算法考虑了这些仇恨语音分类器,但是这些组的成员经常使用它们,并且设置很重要。

为了解决上下文盲的问题,研究人员创建了一个对上下文更敏感的仇恨语音分类器。新算法不太可能将帖子误贴为仇恨言论。

算法

研究人员在开发新算法时考虑了两个新因素:与组标识符有关的上下文,以及帖子中是否还存在仇恨言论的其他特征,例如非人性化语言。

Brendan Kennedy是计算机科学博士学位。该研究的学生和共同主要作者,该研究于7月6日在ACL 2020上发表。

“我们希望使仇恨语音检测更接近于为实际应用做好准备,” said Kennedy.

“经常讨厌语音检测模型‘break,’或在引入现实世界的数据(例如社交媒体或其他在线文本数据)时会生成错误的预测,因为它们会受到训练有针对性的数据的偏见,从而使社交识别字词的出现与仇恨言论相关联。”

该算法通常不准确的原因是,它们是在仇恨语音率极高的不平衡数据集上进行训练的。因此,算法无法学习如何处理现实世界中社交媒体的实际外观。 

向教授是 自然语言处理.

“模型的关键是不要忽略标识符,而是将标识符与正确的上下文匹配,” said Ren.

“如果您从不平衡的数据集中讲授模型,则该模型将开始收集奇怪的模式并不适当地阻止用户。”

为了测试该算法,研究人员使用了来自两个社交媒体网站的文本的随机样本,这些网站的仇恨言论率很高。该文本首先被人类人工标记为偏见或非人性化。然后针对研究人员测量了最新模型’自己的模型,通过使用12500篇《纽约时报》的文章(不存在仇恨言论)来适当地标记非仇恨言论。虽然最先进的模型在识别仇恨与非仇恨方面能够达到77%的准确率,但研究人员的模型却高达90%。 

“这项工作本身并不能使仇恨语音检测变得完美,这是许多人正在做的一个巨大的项目,但是却可以取得逐步的进步,” said Kennedy.

“除了防止对受保护团体成员的社交媒体帖子进行不当审查外,我们希望我们的工作将通过加强与社会团体的偏见和非人性化的虚假联系,帮助确保仇恨语音检测不会造成不必要的伤害。”

 

亚历克斯·麦克法兰(Alex McFarland)是一位历史学家和新闻工作者,报道了人工智能的最新发展。