Pour former son IA, Meta exploite vos publications Facebook et Instagram

Il y a quelques jours, Meta a profité de la conférence Connect pour annoncer une pléthore de nouveautés liées à l’intelligence artificielle générative. Le groupe californien, qui espère que l’IA donnera un nouveau souffle à son métavers, a surtout levé le voile sur Meta AI, un chatbot similaire à ChatGPT. Ce robot conversationnel doit venir s’intégrer à Facebook Messenger, WhatsApp et Instagram dans un avenir proche.

Sans grande surprise, Meta s’est notamment appuyé sur les données disponibles sur ses réseaux sociaux pour entraîner le modèle linguistique derrière son chatbot, Llama 2. Celui-ci est accompagné d’Emu, une IA capable de générer des images, à la manière d’Adobe Firefly ou de Midjourney. Et comme toutes les IA génératives, le modèle de Meta a besoin d’une montagne de données pour fonctionner et générer des réponses et des images.

Suivant la même logique que Meta, Amazon a d’ailleurs utilisé les conversations de ses clients avec Alexa pour nourrir son intelligence artificielle. Cette politique, en vigueur depuis des années, autorise l’entreprise à collecter toutes les requêtes vocales des utilisateurs pour alimenter le modèle Alexa Teacher Model. L’approche de Meta n’a rien de surprenant.

À lire aussi : Après un Meta Connect 2023 décevant, Mark Zuckerberg trouve le moyen de rebondir

Meta s’impose des limites

Interrogé par nos confrères de Reuters, Nick Clegg, vice-président en charge des affaires mondiales et des communications de Meta, précise que seules les publications publiques sur Facebook et Instagram ont été collectées pour entraîner l’intelligence artificielle. Les données comprennent à la fois du texte et des images, indique le responsable.

Fort heureusement, les messages privés échangés avec la famille et les amis n’ont pas été aspirés par Meta. De même, les chats privés sur Messenger, WhatsApp ou Instagram ont été exclus du corpus de données. Les messages échangés sur les messageries sont de toute façon intégralement chiffrés. En clair, Meta ne peut pas accéder au contenu des messages.

« Nous avons essayé d’exclure les ensembles de données qui ont une forte prépondérance d’informations personnelles », explique Nick Clegg, précisant que l’essentiel des données ayant nourri l’IA est accessible au public.

De plus, Meta explique avoir pris soin de filtrer les données privées des corpus d’informations publiques absorbées par son modèle d’IA. Le groupe californien a en effet pioché dans des données en dehors de ses plateformes, comme tous les géants ayant mis au point des modèles d’IA.

Pas touche à Linkedin

Par exemple, le titan de Menlo Park n’a pas touché aux données visibles sur Linkedin, le réseau social professionnel de Microsoft. Meta a estimé qu’il y avait trop de données sensibles sur le site, ce qui représente un risque en matière de confidentialité et de respect de la vie privée. On y trouve en effet des informations sur le parcours professionnel des internautes et leurs compétences. Il s’agit de données potentiellement dangereuses entre les mains d’un individu malveillant.

Enfin, Meta s’octroie le droit d’utiliser les futures interactions de son chatbot avec ses utilisateurs pour améliorer le modèle. Comme OpenAI, Google et consorts, Meta va se servir des requêtes pour affiner la précision du chatbot.