BFM Tech

Des chercheurs français ont (presque) trouvé le moyen de prédire l’avenir sur Twitter

Les femmes politiques trouvent avec Twitter un important relais d'influence.

Les femmes politiques trouvent avec Twitter un important relais d'influence. - AFP

Détecter ce que les gens pensent et les événements qui sont en train de se produire sur les réseaux sociaux, c’est l'une des missions des mathématiciens du Nokia Bell Labs de Paris Saclay, qui ont mis au point un nouvel algorithme à cet effet.

13 novembre 2015, 21h25 : une fusillade survient à l'angle de la rue Bichat et de la rue Alibert. C'est le début des attentats de Paris, dans la foulée des explosions du Stade de France. Il faudra 35 minutes pour que la presse en soit informée par la préfecture de police. Entre-temps, de nombreux internautes auront témoigné sur les réseaux sociaux. Une matière qui aurait pu être utile aux journalistes s'ils avaient disposé d'un outil informatique permettant de repérer en temps réel les sujets qui montent. Cette baguette magique, baptisée "Joint Complexity" a été développée sous la forme d'un seul algorithme par les ingénieurs français du Nokia Bell Labs de Paris Saclay. 

Vous me direz qu’il existe déjà une rubrique sur Twitter qui indique les hashtags les plus fréquents sur le réseau social. Mais sa portée est réduite à certaines zones géographiques ou à vos propres centres d'intérêt. Le problème avec Twitter, c'est le volume de données qu'il représente, rendant très difficile son tri et son classement. 

Gérard Burnside et Philippe Jacquet du Nokia Bell Labs.
Gérard Burnside et Philippe Jacquet du Nokia Bell Labs. © 01net.com

Twitter a la complexité du cerveau d'un rat

Avec plus de 300 millions d’utilisateurs mensuels actifs et une vitesse de propagation s’élevant à 500 messages par seconde, Twitter est en effet aussi dense que le cerveau d’un animal. "Si chaque personne connectée sur Twitter était un neurone, le réseau social aurait la complexité du cerveau d’un rat", nous déclare Gérard Burnside, un mathématicien du Nokia Bell Labs qui travaille sur ce sujet avec le directeur de recherche Philippe Jacquet. 

Sans compter que la durée de vie d’un tweet n’excède pas plus d'une à deux heures. Impossible, donc, d'indexer les tweets en temps réel comme le fait Google avec des pages web. "Les algorithmes du moteur de recherche fonctionnent bien pour indexer des pages web mais leur processus est trop long et aboutirait à des résultats déjà dépassés au moment où ils apparaîtraient en ligne", souligne encore Gérard Burnside.

Pour les besoins de leurs recherches, nos chercheurs ont donc recueilli l'équivalent d'une journée de tweets et en ont extrait différents sujets par intervalle de temps. Pas question de prendre en considération le sens des mots, leur contexte ou de procéder à une analyse sémantique qui prendrait trop de temps. Le propre de l’outil du Nokia Bell Labs est de s’inspirer des chaînes de Markov pour établir des probabilités. En 1913, le mathématicien russe Andrei Markov avait étudié les 20 000 premières lettres du roman Eugène Onéguine d’Alexandre Pouchkine. Et s'était rendu compte qu’elles suivaient des motifs très précis, réalisés par l'auteur de façon inconsciente. Par exemple que chaque lettre était conditionnée par celle qui la précède. Il en avait tiré un modèle mathématique de probabilité en chaînes qui porte aujourd’hui son nom. 

Qui a volé les bijoux de Kim Kardashian ?

Sur le même modèle, Joint Complexity identifie des mots clefs dans chaque message, puis classe les tweets dans des groupes en fonction du nombre de facteurs communs et de leur proximité, et ce, même si l'orthographe et la grammaire sont défaillantes. Exemple avec l'élégant message : "C ki ka chourav les millions en bijous de Kim a Paname ?". L’algorithme en déduit automatiquement que les mots clefs principaux sont Kim, vol et Paris et va l'associer à d'autres tweets présentant les mêmes motifs. Après analyse de milliers de réactions sur l’agression Kim Kardashian, il sera possible de ne sortir qu'un panel restreint et représentatif des différents types de réactions à ce fait divers.

L'algorithme fonctionne aussi très bien pour retrouver un ancien tweet avec une interface développée spécialement pour formulée une requête en langage naturel. Là encore, il existe bien une interface de recherche avancée sur Twitter. Mais faites l’expérience : il est impossible de sélectionner un nombre réduit de sujets pertinents, à partir de seulement quelques indicateurs comme "attentat", "Paris, et "novembre 2015".

Joint Complexity s'avère donc un formidable outil pour tailler en pièces un très grand nombre de données. "Nous n'envisageons pas de le développer comme tel pour le mettre à disposition du public", prévient pourtant Gérard Burnside. "Mais il peut constituer une très bonne étape pour faire le tri avant d'utiliser du machine learning, par exemple". Cela pourrait ainsi intéresser des opérateurs désireux de déterminer quelles personnalités ou quels contenus connaissent un enthousiasme grandissant afin de mieux gérer leurs prévisions de trafic, par exemple.

Amélie Charnay