L'IA de Deepmind est désormais capable de créer... un burger appétissant

Peut-on se fier à un cheeseburger pour évaluer les progrès d’une intelligence artificielle ? Si la question semble étrange, elle est pourtant tout à fait justifiée. Comme l’explique Quartz, l’IA de DeepMind – une société d’Alphabet – sait générer des images bien plus réalistes qu’il y a deux ans, notamment les photos de cheeseburgers.
Insistons au besoin, on ne parle pas ici seulement d’une phase de reconnaissance d’images mais bien de la création quasiment ex-nihilo d’une représentation réaliste d’objet par une IA. L’objectif de Deepmind est qu’à termes son intelligence artificielle soit capable de produire une image à partir d’un mot.

Deepmind – A gauche, l’image de burger générée en 2016, à droite, celle de 2018.

Des IA qui s’entraînent en duo

Pour y arriver, la filiale d’Alphabet recourt à des GAN, pour generative adversarial network (ou réseaux antagonistes génératifs). Ils reposent sur une idée simple en apparence présentée par un chercheur de Google en 2014. Elle consiste en l’occurrence à demander à un algorithme de créer une image, tandis qu’un second réseau neuronal doit juger si le résultat est réaliste. Ainsi, le premier apprend peu à peu à produire des photos réalistes sous la houlette du second.
Les résultats obtenus semblent devenir probants. Comme on peut le voir sur l’exemple ci-dessus, le burger de 2018 paraît bien plus réaliste, voire plus appétissant, que celui de 2016 sur la droite.

Dans leur article scientifique, les chercheurs de Deepmind expliquent plus en détails comment ils entraînent leur IA. Ils détaillent surtout leur apport au principe du GAN. Leurs algorithmes sont en effet capables de gérer plus d’images, 2048 contre 256 précédemment. Cela augmente donc le nombre d’exemples d’objets, de cheeseburgers, soumis à l’intelligence artificielle. En outre, les ingénieurs de Deepmind ont réussi à faire en sorte que les images analysées et produites soient de meilleure qualité.

Augmenter la définition des images sources

Jusqu’à présent, leur intelligence artificielle ImageNet s’entraînait avec des images d’une définition de 128 x 128 pixels. Cela peut paraître faible, mais les intelligences artificielles analysent un nombre innombrables d’images pour apprendre et peinent surtout à générer des photos d’une définition trop élevée.
Augmenter la “taille” de l’image demande encore beaucoup de puissance de traitement et augmente le risque d’erreurs lors de la génération. Sur les images de basse définition, moins de pixels sont en effet nécessaires pour construire une image cohérente.

Toutefois, les trois chercheurs en charge du projet ont testé l’injection d’images de 256 x 256 et 512 x 512 pixels avec des résultats encourageant. L’indice de réalisme des modèles générés par l’IA a ainsi augmenté. Qu’il s’agisse d’un chien, d’un chat, d’un paysage, d’un papillon ou encore d’un cheeseburger, tous sont bien plus réalistes qu’il y a deux ans.

Bien entendu, la route est encore longue pour obtenir des images d’une définition importante et surtout aboutie à chaque fois. ImageNet a par exemple été entraîné à passer d’une image à une autre en générant des images de transition. On obtient alors des résultats très étranges comme ici lors de la transition entre un chien et un chat.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Jean-Sébastien Zanchi