Passer au contenu

Facebook comprend maintenant le texte glissé dans vos photos et vidéos

Le réseau social a développé un système d’apprentissage automatique baptisé Rosetta, capable d’interpréter en temps réel un message dans une photo ou une vidéo. Une solution pour filtrer les contenus inappropriés.

Une image est rarement postée seule sur Facebook et Instagram. Du texte peut y être superposé, ou intégré directement dans le décor comme une enseigne ou un nom de rue, par exemple. Compte tenu du nombre de langues différentes parlées par les utilisateurs de ces réseaux sociaux et du volume de contenus mis en ligne, le géant américain a dû se doter d’un outil automatique pour analyser ces flux. La solution a été trouvée avec Rosetta, un système d’apprentissage automatique.

Plus d’un milliard d’images traitées en temps réel

« Rosetta extrait du texte de plus d’un milliard d’images et de vidéos publiques sur Facebook et Instagram, exprimé dans une grande variété de langues, quotidiennement, et en temps réel, puis les intègre dans un modèle de reconnaissance de texte basé sur des classificateurs pour comprendre le contexte », explique Facebook dans une note de blog.

Le texte d'une image analysé par Facebook.
Facebook

Les enjeux sont nombreux : améliorer l’expérience utilisateur en proposant un moteur de recherche d’images plus pertinent ou personnalisé, rendre plus accessibles Facebook et Instagram aux malvoyants en leur décrivant les images, et surtout filtrer automatiquement des contenus inappropriés ou qui contreviennent aux règles d’utilisation des deux plate-formes. Un sujet hautement sensible qui vaut continuellement à Facebook d’être mis au banc des accusés. Comme lors du massacre des Rohingya en Birmanie, durant lequel des messages haineux et d’appel au meurtre avaient circulé sur le réseau social.

Le texte des vidéos encore difficile à interpréter

Il existait bien déjà des méthodes de reconnaissance optique de caractères (OCR) mais elles étaient incapables d’associer la compréhension du texte avec la signification de l’image. La particularité de Rosetta est de commencer par détecter des ensembles rectangulaires dans les images qui sont susceptibles de contenir du texte. Elle utilise ensuite un réseau neuronal convolutionnel pour reconnaître et transcrire ce qui est écrit dans chaque rectangle, qu’il s’agisse de mots anglais ou non, d’alphabet latin ou non. Pour entraîner le système, Facebook a mélangé dans se base de données des images publiques annotées à la fois par l’homme et par la machine.

Rosetta est déjà utilisée par de nombreuses équipes de Facebook et Instagram. Mais le groupe est loin de crier victoire, le système ne fonctionnant pas encore de façon optimale avec les vidéos. Or, ces dernières sont en constante augmentation. Et impossible d’extraire du texte image par image comme pour les photos, cela mobiliserait une puissance de calcul phénoménale pour un résultat peu efficient. D’autres méthodes doivent maintenant être explorées.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Amélie Charnay