BFM Tech

Des scientifiques ont reconnu des internautes ivres grâce à leurs tweets

Les femmes politiques trouvent avec Twitter un important relais d'influence.

Les femmes politiques trouvent avec Twitter un important relais d'influence. - AFP

Des chercheurs ont mis au point un modèle mathématique permettant de cartographier les émissions de tweets sous l’influence de l’alcool et d’établir des motifs récurrents dans le comportement des internautes concernés.

La star de la chanson Adèle le reconnaît volontiers dans ses interviews : par le passé, elle a beaucoup twitté en état d’ivresse. Des messages scrutés par les journaux people mais aussi peut-être par... des scientifiques.

Nabil Hossain, doctorant à l’Université de Rochester et expert en machine learning (apprentissage automatique des machines), a mis au point un algorithme capable de détecter les messages rédigés sous l’influence de l’alcool. L’enjeu n’est pas anecdotique car ce modèle pourrait apporter des informations nouvelles sur la consommation d'alcool.

D'après la revue du MIT, Nabil Hossain a établi une véritable cartographie des tweets avinés de l'Etat de New-York. Y sont affichés les points de vente d’alcool, le domicile des auteurs, ainsi que la localisation des messages. Au final, son équipe a réussi à montrer que les gens buvaient principalement à la maison, davantage à New-York, et encore plus près d’un lieu de vente d’alcool. Des résultats qui restent encore à interpréter.

La carte des tweets alcoolisés établie par les scientifiques.
La carte des tweets alcoolisés établie par les scientifiques. © MIT Review

Pour parvenir à ce résultat, les chercheurs ont procédé en deux étapes. La première a consisté à repérer les tweets ayant l’air d’avoir été rédigés en état d’ébriété.

Comme base de travail, ce sont des tweets géotaggés de New-York à Monroe County, en passant par Rochester dans l'Etat de New-York qui ont été retenus. A partir de là, n'ont été sélectionnés que les messages dont le champ lexical gravitait autour de l’alcool avec les mots "ivre", "bière", "fête", etc...

Ensuite, l’application de crowdsourcing Mechanical Turk d’Amazon a servi à recruter des internautes pour analyser les tweets dans le détail et ne sélectionner que 11 000 messages qui paraissaient vraiment écrits sous l’influence de l’alcool. Une quantité de données suffisante pour faire fonctionner des algorithmes de machine learning.

L'équipe a enfin mis au point diverses méthodes pour déterminer où et quand les messages en question avaient été envoyés. Sélection de mots comme "maison" ou "canapé", repérage de l’endroit où le premier et le dernier tweet de la journée sont envoyés, pourcentage de tweets envoyés d’un même endroit, et vérification par des collaborateurs de Mechanical Turk, de nombreuses astuces ont permis de localiser le domicile des internautes avec une précision de moins de 100 mètres.

Grâce à Twitter et à peu de frais, ces scientifiques ont prouvé que l'on pouvait mieux connaître les habitudes de consommation de la population. Ils envisagent maintenant de cibler de nouveaux critères comme l’âge, le sexe ou l’origine des internautes et même d'essayer de déterminer la pression de l'entourage dans le fait de boire. Toujours uniquement grâce au réseau social.

Amélie Charnay