Voici Gemini, l'arme de Google pour battre ChatGPT

Vous connaissez sans doute ChatGPT. On confond souvent l’application ChatGPT, qui est l’interface utilisateur avec laquelle vous pouvez interagir, et GPT 4 et GPT 3.5, qui sont les modèles utilisés en arrière-plan pour traiter les requêtes des utilisateurs.

Pour l’IA de Google, Bard, on connait désormais le nom du modèle qui se trouve derrière : Gemini. Selon Google, il s’agit du « le plus ambitieux et le plus performant de ses modèles d’IA ».

Gemini, un modèle multimodal

En réalité, Gemini est même un peu plus que ça. Il s’agit d’un modèle multimodal. Cela veut concrètement dire qu’il ne s’agit pas d’un modèle d’IA seulement capable de réagir à une demande écrite d’un utilisateur, mais un modèle capable de réagir à différents types de sources. Il est, selon les mots de Google « capable de généraliser, comprendre avec fluidité, traiter et combiner différents supports d’informations, dont le texte, le code, l’audio, l’image et la vidéo ».

Pour bien comprendre, il suffit de regarder la démonstration publiée par le géant de Mountain View sur YouTube :

S'abonner à 01net

On y voit l’IA de Google décrire en direct un dessin réalisé sous ses yeux, inventer un jeu en direct, comprendre immédiatement qu’une énigme lui est posée et la résoudre, établir un lien entre deux objets, proposer des interprétations logiques. Bref, la démonstration se passe de commentaire et démontre une grande polyvalence.

Google détaille dans un communiqué sa démarche pour arriver à un tel résultat. La firme derrière Google y détaille pourquoi Gemini est plus performant, à ses yeux, que de précédents modèles multimodaux. « À ce jour, la démarche habituelle pour la création de modèles multimodaux consiste à entraîner des composants distincts pour chaque usage, puis à les assembler en reconstituant tant bien que mal une fonctionnalité intégrée. » Une démarche qui parvient à des résultats honorables, mais qui peine dès qu’on lui demande des tâches plus complexes, explique-t-on.

« Gemini a été conçu quant à lui pour être nativement multimodal, ajoute le communiqué. Il a été pré-entraîné à traiter des modalités variées. C’est seulement dans un deuxième temps que son efficacité a été renforcée par des données multimodales supplémentaires. Cette approche confère à Gemini une capacité de compréhension et de raisonnement sur tous types d’entrées. C’est pour cela que ses performances dépassent de loin celles des modèles existants, et que ses capacités repoussent les limites de l’état de l’art dans presque tous les domaines. »

Pas un Gemini, pas deux, mais trois Gemini

Il y a en réalité trois Gemini. Gemini Pro, Gemini Nano et Gemini Ultra.

Gemini Pro va être intégré à Google bard dès ce jour (seulement en langue anglaise malheureusement). L’objectif est de rendre l’IA générative de Google « plus compétente pour comprendre, résumer, raisonner, suggérer des idées, écrire ou planifier ».

Gemini Nano pour sa part sera intégré au Pixel 8 Pro. L’objectif : doter le smartphone « de capacités nouvelles comme la fonction “résumer” de l’application Enregistreur, ou les réponses automatiques générées dans Gboard — tout d’abord dans WhatsApp, et dans d’autres applications de messagerie dès l’année prochaine. »

Enfin, Gemini Ultra sera dans un premier temps testé par des clients, développeurs, partenaires, experts en cybersécurité, avant d’alimenter « début 2024 » une version améliorée de Bard, nommée logiquement Bard Advanced.