Twitter dévoile le fonctionnement de son algorithme de recommandation

C’était une promesse de longue date d’Elon Musk. Alors que la confusion règne entre les comptes toujours autorisés à afficher leurs certifications, entre les utilisateurs historiques et ceux qui ont payé l’abonnement Twitter Blue, le code source de Twitter a été partiellement révélé vendredi 31 mars.
"Pour cette diffusion, nous visions le plus haut degré de transparence, en excluant tout code qui pourrait compromettre la sécurité et la protection de la vie privée ou notre capacité à protéger notre plateforme d’acteurs nuisibles, y compris qui saperait nos efforts pour combattre l’exploitation de mineurs et la manipulation", a précisé le réseau social dans une publication lors de la mise en ligne.
Le mois dernier, Twitter avait annoncé que des extraits de son code avaient partiellement fuité. Une partie du code du réseau social est désormais librement accessible sur la plateforme GitHub, y compris l’algorithme de recommandation des tweets visibles dans la section "Pour vous".
50% de tweets parmi les comptes suivis
Dans un article de blog, Twitter révèle que 1500 tweets sont choisis parmi des centaines de millions pour alimenter cette section pour chaque utilisateur, 50% étant issus des tweets de personnes qu'ils suivent, et l’autre moitié de comptes inconnus, "bien que cela puisse varier en fonction des utilisateurs".
"Le classement [des tweets] est réalisé grâce à un 'réseau neuronal' de 48 millions de paramètres, entraîné en permanence sur les interactions de tweets pour rechercher l’engagement (tels que les 'j’aime', les retweets et les réponses)", précise le réseau social. Les différentes analyses du code partagées jusqu'ici ne parviennent pas un consensus chiffré sur l'effet de chaque action, mais cliquer sur un tweet pour le lire aurait également un effet.
Inclure une image ou vidéo dans un tweet ou être abonné à Twitter Blue démultiplierait la portée d'un message, selon une publication sur le blog du développeur Steven Tey repérée par Numerama.
Sans surprise, plus un tweet a été publié récemment, plus il aurait davantage de chance d'être recommandé. Le développeur indique aussi que Twitter attribue un score entre 0 et 100 à ses utilisateurs, le "Tweepcred", qui correspond à leur réputation sur le réseau social. Par exemple, l'algorithme défavoriserait les comptes qui suivent beaucoup plus de personnes qu'ils n'ont d'abonnés.
Enfin, explique Twitter, les utilisateurs ne voient pas l’entièreté de cette sélection de 1500 tweets, ceux-ci étant filtrés selon d’autres critères et restrictions, par exemple si les publications ont des retours négatifs, si elles proviennent essentiellement du même compte ou d’internautes bloqués ou mis en sourdine.
Triage politique et utilisateurs VIP
Twitter utiliserait aussi les comptes de personnalités catégorisées comme importantes (du sportif LeBron James, à la députée américaine démocrate Alexandria Ocasio-Cortez en passant par l’animateur de radio conservateur Ben Shapiro) pour vérifier les changements de son algorithme de recommandation, en les mettant avant plus que les autres, comme le révélait la semaine dernière le média américain Platformer. Cette liste de comptes "VIP" n’a pas été révélée par le code dévoilé par Twitter, note le site spécialisé Gizmodo.
L’algorithme de recommandation de la plateforme montre par contre qu’il attribue des labels aux utilisateurs, s’il s’agit d’Elon Musk, d’un utilisateur important, ou… d’un Républicain ou d’un Démocrate, comme l’a remarqué la chercheuse Jane Manchun Wong.
Lors d’une session officielle d’échanges audio sur Twitter Space, un des développeurs de la plateforme a affirmé qu’il s’agissait d’un simple moyen de collecte statistique, relève Matt Binder sur le site Mashable.
Le journaliste ajoute cependant qu’une note dans le code affirme que ces mesures sont collectées pour s’assurer que les changements de l’algorithme de Twitter n'ont pas d’influence négative sur les utilisateurs "VIP". Elon Musk a depuis assuré qu’il retirerait la partie du code incriminée, bien que celle-ci n’ait pas été entièrement rendue publique, selon une reporter de Platformer.