BFM Tech

Facebook lance un système d’audiodescription pour les non-voyants

-

- - Facebook

En préparation depuis de longs mois, une nouvelle fonctionnalité permet aux déficients visuels d’écouter la description de tout ce qui se trouve sur leur écran. Elle n’est disponible que sur iOS et en anglais dans un premier temps.

Rendre tous les contenus visibles aux aveugles, c’est la promesse de Facebook, qui lance aujourd’hui un système d’audiodescription sur son application mobile. La fonctionnalité est disponible en anglais et uniquement sur iOS dans les pays suivants : Etats-Unis, au Royaume-Uni, au Canada, en Australie et en Nouvelle-Zélande.

Le réseau social appelle cela une "alternative textuelle automatique" (automatic alt text). L'alternative textuelle est une pratique courante utilisée en informatique qui consiste à associer un texte à un contenu graphique afin d'être mieux référencé dans un moteur de recherche. La fonctionnalité est fournie sous la forme d'un attribut HTML compatible avec les logiciels conçus pour guider les aveugles en ligne.

Contrairement à ce qui existe déjà à la télévision, où les dialogues et les détails d’un programme sont transcrits préalablement par des êtres humains, la technologie de Google repose sur une intelligence artificielle et fonctionne instantanément, comme on peut le voir dans la vidéo ci-dessous :

"Si vous êtes aveugle et que vous ne pouvez pas voir une photo, l'intelligence artificielle en fera une description pour vous", avait annoncé Mark Zuckerberg dès le mois d’octobre dernier lors d’une séance de questions-réponses en Inde. Cette annonce vague avait été suivie par la présentation d’une première ébauche reposant sur le système de compréhension du langage naturel Memory Networks, associé à la reconnaissance d’images. Le tout pour répondre à une série de questions de l’utilisateur à propos d’une image. Depuis, le système a été perfectionné et se lance automatiquement si la fonction est activée.

L'intelligence artificielle au secours des aveugles

Automatic alt text repose sur un réseau neuronal d'apprentissage profond, la spécialité de Yann LeCun le patron du labo de recherche en intelligence artificielle de Facebook. La difficulté était de lui faire énoncer, non pas une description complète de l'image, mais les éléments qui intéressent les hommes : "Qui est sur la photo ?", "Combien de personnes voit-on ?", par exemple. Ce qui est intuitif pour nous ne l'est pas forcément pour une machine. Il a donc fallu lui enseigner à reconnaître un contexte social pour hiérarchiser les informations.

Les chercheurs de Facebook l'ont entraîné à détecter une centaine de concepts basés sur l'apparence des personnages (lunettes de soleil, bijoux), le temps qu'il fait (neige, pluie, etc..), la nature ( montagnes, mer), des moyens de transport (avion, voiture), différents types de nourriture et de boissons. Au final, le système est capable de reconnaître l'un de ces concepts dans 50% des cas. Et il continue de s'améliorer pour enrichir ses descriptions.

Mais ce n'est pas tout. Il fallait aussi que la machine soit capable d'organiser ces idées. Après de longues expérimentations, il a été décidé qu'elle décrirait les images toujours dans le même ordre : les gens (combien sont-ils ? sourient-ils ?), les objets et enfin les scènes (dehors, dedans, selfie, meme ?). Comme les résultats ne sont pas irréfutables, l'assistant vocal commencera toujours ses phrases par "Cette image peut contenir .. "

Tous les jours, 2 milliards de photos sont partagées sur Facebook, Instagram, Messenger ou WhatsApp. Or, on compte d'après l'OMS 39 millions d'aveugles et 246 milions de déficients visuels dans le Monde. Ce sera peut-être autant de nouveaux abonnés de gagnés par Facebook grâce à cette nouvelle fonctionnalité, qui sera probablement étendue à tous les sites du groupe. "La mission de Facebook est de rendre le monde plus ouvert et plus connecté. Et ça vaut pour tout le monde", claironne désormais le réseau social.

Amélie Charnay