L'unité Jigsaw de Google publie le code d'un outil anti-harcèlement open source appelé Harassment Manager. L'outil, destiné aux journalistes et autres personnalités publiques, utilise l'API Perspective de Jigsaw pour permettre aux utilisateurs de trier les commentaires potentiellement abusifs sur les plateformes de médias sociaux en commençant par Twitter. Il fait ses débuts en tant que code source sur lequel les développeurs peuvent s'appuyer, puis sera lancé en tant qu'application fonctionnelle pour les journalistes de la Fondation Thomson Reuters en juin.
Harassment Manager peut actuellement fonctionner avec l'API de Twitter pour combiner des options de modération – comme masquer les réponses aux tweets et désactiver ou bloquer des comptes – avec un système de filtrage et de rapport en masse. Perspective vérifie le langage des messages pour les niveaux de “toxicité” en fonction d'éléments tels que les menaces, les insultes et les blasphèmes. Il trie les messages dans des files d'attente sur un tableau de bord, où les utilisateurs peuvent les traiter par lots plutôt qu'individuellement via les outils de modération par défaut de Twitter. Ils peuvent choisir de brouiller le texte des messages pendant qu'ils le font, afin qu'ils n'aient pas besoin de lire chacun d'eux, et ils peuvent rechercher des mots-clés en plus d'utiliser les files d'attente générées automatiquement.
:no_upscale()/cdn.vox-cdn.com/uploads /chorus_asset/file/23296479/Harassment_Manager_UI_Home.png)
Harassment Manager permet également aux utilisateurs de télécharger un rapport autonome contenant des messages abusifs ; cela crée une trace écrite pour leur employeur ou, dans le cas de contenu illégal comme des menaces directes, pour les forces de l'ordre. Pour l'instant, cependant, il n'y a pas d'application autonome que les utilisateurs peuvent télécharger. Au lieu de cela, les développeurs peuvent librement créer des applications qui intègrent ses fonctionnalités et les services qui l'utilisent seront lancés par des partenaires comme la Fondation Thomson Reuters.
Jigsaw a annoncé Harassment Manager à l'occasion de la Journée internationale de la femme, et il a qualifié l'outil de particulièrement pertinent pour les femmes journalistes confrontées à des abus sexistes, mettant en évidence les contributions de “journalistes et militants largement présents sur Twitter” ainsi que d'organisations à but non lucratif telles que la Fondation internationale des femmes pour les médias et le Comité pour la protection des journalistes. Dans un article moyen, l'équipe dit qu'elle espère que les développeurs pourront l'adapter aux autres utilisateurs de médias sociaux à risque. “Nous espérons que cette technologie fournira une ressource aux personnes confrontées au harcèlement en ligne, en particulier les femmes journalistes, militantes, politiciennes et autres personnalités publiques, qui font face à une toxicité disproportionnellement élevée en ligne”, indique le message.
:no_upscale()/cdn.vox-cdn.com/uploads /chorus_asset/file/23296755/Harassment_Manager_UI_Edit_Report_Details.png)
Google a déjà exploité Perspective pour la modération automatisée. En 2019, il a publié une extension de navigateur appelée Tune qui permet aux utilisateurs de médias sociaux d'éviter de voir des messages très susceptibles d'être toxiques, et il a été utilisé par de nombreuses plateformes de commentaires (y compris Coral de Vox Media) pour compléter la modération humaine. Mais comme nous l'avons noté autour de la sortie de Perspective et Tune, le modèle d'analyse du langage a toujours été loin d'être parfait. Il classe parfois à tort le contenu satirique ou ne parvient pas à détecter les messages abusifs, et l'IA de type Jigsaw peut associer par inadvertance des termes tels que “aveugle” ou “sourd” – qui ne sont pas nécessairement négatifs – à la toxicité. Jigsaw lui-même a également été critiqué pour une culture de travail toxique, bien que Google ait contesté ces allégations.
Contrairement à la modération alimentée par l'IA sur des services comme Twitter et Instagram, cependant, Harassment Manager n'est pas une fonctionnalité de modération côté plateforme. Il s'agit apparemment d'un outil de tri pour aider à gérer l'ampleur parfois écrasante des retours sur les réseaux sociaux, quelque chose qui pourrait être pertinent pour des personnes éloignées du domaine du journalisme, même si elles ne peuvent pas l'utiliser pour le moment.