BFM Business

Demain, les discours politiques seront-ils écrits par des machines?

-

- - DR

Un étudiant américain a développé une intelligence artificielle capable de produire des discours politiques. Le système reste à perfectionner mais il pourrait un jour être également utilisé pour générer des articles.

Résultats financiers ou performances sportives, des logiciels génèrent déjà automatiquement des articles pour Forbes ou l’agence AP. Mais jusqu’à maintenant, les journalistes se rassuraient sur le fait que seules des données chiffrées précises pouvaient ainsi être exploitées par des robots. Un étudiant en informatique de l’Université du Massachusetts est peut-être en train de leur donner tort.

Il s’appelle Valentin Kassarnig et il vient de publier l’article Génération de discours politique où il explique comment il a développé un système capable d’écrire des discours politiques, en fonction du parti auquel appartient le locuteur et de sa position par rapport à un sujet. Résultat ? Son logiciel est capable d'écrire des textes cohérents au niveau du sens et de la grammaire. Mais des imperfections demeurent, comme on peut le voir ci-dessous avec cet exemple qui comprend des répétitions non voulues et des approximations :

« Je remercie mes collègues du comité des réglementations. Je soutiens la présente résolution et prie instamment mes collègues d’appuyer ce projet de loi et prie instamment mes collègues d’appuyer ce projet de loi. Monsieur le président, soutenir ce texte et ce projet de loi est bon pour les petites entreprises, bon pour les petites entreprises américaines, (..) pour la création d'emplois. »

Pour constituer sa base de données de départ, il a collecté 3857 discours prononcés au cours de 53 débats à la Chambre des représentants en 2005. Il a ensuite extrait plus de 50 000 phrases de ces textes, chacune comptant 23 mots en moyenne. Il les a répartis en catégories, selon le parti politique (démocrate ou républicain) du locuteur et en fonction de la position favorable ou défavorable de ce dernier sur un sujet.

Pour les algorithmes, il s’est inspiré des chaînes de Markov. Ce mathématicien avait prouvé en 1913 que les 20 000 premières lettres du roman Eugène Onéguine de Pouchkine suivaient des motifs très précis. Il en avait tiré un modèle mathématique de probabilité en chaînes qui porte aujourd'hui son nom. Nous avions d’ailleurs rencontré un autre chercheur français, François Pachet, qui avait développé le logiciel Flow Machine pour générer automatiquement de la musique en fonction d’un style d’artiste que l’on souhaite imiter.

La logique est sensiblement la même pour les discours politiques : suivant sa couleur politique et son intention (combattre ou défendre une idée), il sera fait appel à un champ lexical plutôt qu'à un autre. Kassarning a donc établi des probabilités d'apparition de mots à l'intérieur de séquences de six mots, en fonction de la catégorie du discours. A cela, il a ajouté deux modèles de deep learning : le premier pour corriger la grammaire, le second pour assurer la bonne transition entre les phrases. 

Si Valentin Kassarnig reconnaît que son système est perfectible, il a confié à Tech Times qu'il envisageait très sérieusement de pouvoir l'utiliser pour générer automatiquement d'autres types de textes. Comme des posts sur des blogs et même .. des articles d'information.

Amélie Charnay