ChatGPT ouvre les yeux, les oreilles et la bouche

ChatGPT veut devenir plus qu’un bot conversationnel : un véritable assistant virtuel ! OpenAI a commencé à déployer une mise à jour de grande ampleur pour son chatbot, d’abord en lui donnant des oreilles et une voix. Plusieurs mêmes, puisque l’entreprise a planché avec des comédiens de doublage professionnels sur 5 voix : deux féminines, deux masculines, une plus enfantine.

ChatGPT donne de la voix

Ces voix de synthèse, toutes de langues anglaises pour le moment, sont propulsées par un nouveau modèle text-to-speech. Whisper, l’outil open-source de reconnaissance de texte développé par OpenAI, est mis à contribution pour la retranscription en texte des mots de l’utilisateur.

La société reconnait que cette technologie — exploitée par Spotify avec son nouveau service de traduction de podcasts — présente des risques, par exemple la possibilité d’usurper l’identité de personnalités publiques. C’est pourquoi OpenAI circonscrit l’utilisation de cette technologie aux discussions vocales.

L’autre grosse nouveauté, c’est la possibilité pour ChatGPT d’analyser des images. L’utilisateur peut demander au bot des informations sur une photo, par exemple celle de l’intérieur de son frigo, pour que le bot suggère des recettes. Il peut aussi analyser un graphique, un tableau ou une capture d’écran. ChatGPT peut par exemple identifier une clé Allen dans une boîte à outils :

Chatgpt Images Reconnaissance — © OpenAI

Cette identification des images, qui s’appuie à la fois sur GPT-3.5 et GPT-4, a été développée avec l’aide de Be My Eyes, une application destinée aux personnes atteintes de cécité qui leur permet d’obtenir des informations à partir de photos. Là aussi, des mesures de sécurité ont été mises en place. Dans le cas des images, OpenAI a restreint les capacités du bot à analyser les individus. Voilà qui va ajouter une nouvelle corde à l’arc de ChatGPT en matière d’images, puisque le bot va également accueillir Dall-E 3.

Lire ChatGPT va intégrer Dall-E 3, le futur générateur d’images plus puissant et plus précis

Ces fonctionnalités rapprochent de plus en plus ChatGPT des assistants connectés « traditionnels » qui eux aussi, vont intégrer des modèles de langage avancés pour s’améliorer. C’est par exemple le cas de la nouvelle Alexa.

S'abonner à 01net

S’abonner à la chaîne

Ces nouveautés apparaitront dans les deux prochaines semaines chez les abonnés ChatGPT+ et Enterprise ; la fonction voix sera disponible sur iOS et Android, tandis qu’on pourra utiliser la reconnaissance d’images sur toutes les plateformes.