BFM Business

Dis-moi ce que tu tweetes, je te dirai ton âge

Tweetgenie détermine, en fonction des tweets, l'âge et le sexe d'un utilisateur.

Tweetgenie détermine, en fonction des tweets, l'âge et le sexe d'un utilisateur. - -

Des chercheurs néerlandais ont lancé lundi sur Internet un programme capable d'évaluer l'âge et le sexe d'un utilisateur en fonction de ses publications sur le réseau social Twitter.

Même la teneur de nos tweets trahit notre âge et notre sexe. Un logiciel en ligne mis au point par l'université de Twente aux Pays-Bas et un institut de langue et culture néerlandaise permet ainsi de déterminer l'âge et le sexe d'un twitto en fonction de ses tweets.

Dommage que l'outil ne fonctionne pour l'instant que pour les tweets en néerlandais.

Sur la base de l'analyse de près de 3.000 comptes Twitter dont les utilisateurs ont été identifiés, les chercheurs ont établi des listes de mots ou suites de mots correspondant à une tranche d'âge ou à un sexe particulier, a expliqué Dong Nguyen, doctorante en informatique à l'université de Twente, qui a participé au projet.

Seul le contenu des tweets a été pris en compte dans l'analyse, et non l'image du profil par exemple, a-t-elle assuré.

"Football" et "bière" pour les hommes, "ongles" et "hihi" pour les femmes

Sur le site, il suffit d'entrer son nom d'utilisateur et le programme évalue ensuite l'âge et le sexe en comparant vos 200 derniers tweets avec la base de données établie précédemment. L'institut Meertens a apporté au projet son expertise linguistique tandis que l'université a apporté la connaissance informatique, notamment en matière de computation.

"Pour ce qui est de distinguer les hommes des femmes, c'est en fait très très stéréotypé", a assuré Dong Nguyen. Sur le site tweetgenie (littéralement "le génie des tweets"), plusieurs exemples sont donnés: les hommes utilisent souvent les mots "football" et "bière" tandis que les femmes utilisent "ongles" et "hihi".

"Quant à l'âge, les jeunes parlent plus souvent d'eux-mêmes et utilisent beaucoup d'émoticônes tandis que les personnes plus âgées utilisent des mots et des phrases plus longues".

Une marge d'erreur de 4 ans

Le programme a une marge d'erreur moyenne de 4 ans, mais celle-ci est beaucoup plus petite pour les jeunes utilisateurs et plus grande pour les utilisateurs plus âgés.

"On remarque que le langage des utilisateurs est plus uniforme à partir d'environ 35 ans", a soutenu Dong Nguyen : "il y a par exemple beaucoup plus de différences entre un utilisateur de 15 ans et un utilisateur de 20 ans qu'entre un utilisateur de 45 ans et un de 55 ans".

Le programme n'est actuellement en mesure d'analyser que les tweets en langue néerlandaise, mais Dong Nguyen a indiqué que l'équipe ayant planché sur le projet souhaite adapter le programme à d'autres langues et à d'autres réseaux sociaux tels que Facebook, notamment.

M.R. avec AFP