ChatGPT : pourquoi l'IA d'OpenAI ne respecte pas votre vie privée

Mission impossible ? OpenAI, la société à l’origine de ChatGPT, n’a plus que 10 jours pour se conformer aux décisions de la Garante, la Cnil italienne qui a suspendu l’agent conversationnel dans le pays. L’autorité, qui a donné en mars dernier le coup d’envoi d’un début de règlementation de l’IA générative dans l’Union européenne (UE) et dans le monde, a exigé d’OpenAI qu’elle respecte les normes européennes en matière de données personnelles. La société américaine a jusqu’au 30 avril pour montrer patte blanche. Et pour certains experts cités par la MIT Technology Review le 19 avril dernier, c’est simple : OpenAI fonce droit dans le mur.

Il lui sera impossible de répondre favorablement aux questions soulevées par cette autorité en charge de la protection de la vie privée. Comme il lui sera impossible de rendre ses activités conformes au RGPD, le règlement européen qui protège nos données personnelles. Les prochaines semaines pourraient même changer la façon dont les IA génératives – comme les chats conversationnels – s’entraînent, estiment des experts cités par nos confrères.

En s’entraînant, l’IA aspire des données personnelles

Car ce que remet en question la Garante, suivie par d’autres autorités européennes et canadienne, c’est la façon dont ce type d’IA fonctionne, en aspirant des quantités astronomiques de données sur Internet pour s’entraîner. Le principe est simple, plus il y a de données, plus l’IA est performante. Or, ce fonctionnement pose trois problèmes. Parmi ces data se sont d’abord glissées des données personnelles comme des noms ou des adresses électroniques recueillies sans que les conditions prévues par le RGPD aient été respectées. Le recueil de ces données doit normalement se faire avec le consentement des personnes concernées, ou avec « l’exception d’intérêt légitime » – une disposition qui permet normalement de se passer de l’autorisation expresse d’un utilisateur.

Problème : toutes les plateformes qui ont essayé de se servir de cette exception pour justifier le traitement des données se sont toutes fait retoquer par les cours de justice européennes. Il est fort probable qu’il en soit de même pour OpenAI.

À lire aussi : L’Europe se dote d’une task force pour décider si elle doit bannir ChatGPT

En fonctionnant, l’IA ingurgite puis régurgite des données personnelles

Deuxième problème : quand vous utilisez ChatGPT, ne donnez surtout aucune information personnelle, préconisaient des experts. On peut en effet avoir tendance à partager des informations intimes et privées avec le chatbot – comme son état mental, des opinions politiques, des questions de santé. Or, là aussi, ces data vont alimenter la machine. Ce qui signifie qu’elles pourraient ressortir à n’importe quel moment. Et il serait pour l’instant quasi impossible d’effacer ces données et de s’opposer à ce qu’elles soient réutilisées – là aussi, deux points normalement prévus par le RGPD. Pour Margaret Mitchell, chercheuse en IA et ancienne coresponsable de l’éthique de l’IA de Google citée par nos confrères, OpenAI va se trouver dans l’impossibilité d’identifier les données des individus et de les supprimer de ses modèles.

Ce serait comme chercher une aiguille dans une botte de foin, explique-t-elle. Et même si OpenAI parvenait à supprimer les données des utilisateurs, il n’est pas certain que cette mesure soit permanente. Des données supprimées peuvent continuer à circuler sur Internet, même longtemps après avoir été « effacées ».

Elle ne respecte pas l’obligation de traiter des données exactes

Troisième problème : le droit de traiter des données réputées exactes, garanti aussi par le RGPD. Il ne vous a pas échappé que l’agent conversationnel a des « hallucinations », comprenez, le chatbot commet des erreurs. En France, ChatGPT a ainsi déclaré que le député Éric Bothorel était né en 1961, qu’il est maire de Lannion ou de Saint-Brieuc et qu’il avait travaillé chez Orange : trois informations inexactes. L’homme politique a porté plainte devant la Cnil. Les erreurs de ChatGPT sont parfois beaucoup plus graves. L’agent conversationnel a par exemple affirmé, à tort, qu’un élu australien avait été condamné pour des faits de corruption, ou qu’un juriste avait été accusé d’avoir harcelé sexuellement une étudiante pendant un voyage en Alaska.

Résultat : difficile de voir comment OpenAI pourrait échapper à une lourde amende, ou à une interdiction. Selon Lilian Edwards, professeure de droit de l’Internet à l’université de Newcastle, citée par nos confrères, les violations commises par OpenAI sont si flagrantes qu’il est probable que cette affaire finisse devant la Cour de justice de l’UE.

En Europe, les informations trouvées sur Internet ne sont pas considérées comme publiques

Quelle est la défense d’OpenAI ? Dans un article de blog du 5 avril dernier, la société américaine a déclaré qu’elle s’efforçait de supprimer les informations personnelles des données d’entraînements sur demande, « lorsque cela est possible ». Elle ajoute que ses modèles sont formés sur des contenus accessibles au public, des contenus sous licence et des contenus générés par des évaluateurs humains.

Aux États-Unis, cet entraînement pourrait être licite, car tout ce qui est public – diffusé sur Internet et les réseaux sociaux – n’est pas considéré comme relevant du domaie « privé », soulignent nos confrères. Mais dans l’UE, les règles relatives à la protection de la vie privée et des données personnelles sont bien plus exigeantes. Et ce n’est pas parce qu’une information est sur un réseau social qu’elle devient publique. La professeure Lilian Edwards, citée par nos confrères, rappelle les règles du RGPD. Les citoyens européens ont le droit d’être informés de la manière dont leurs données sont collectées et utilisées. Ils ont aussi le droit de voir leurs données supprimées de ces systèmes, même si les data d’origine étaient accessibles sur Internet.

À lire aussi : Pourquoi le transfert de vos données personnelles aux États-Unis est un incroyable casse-tête

La réponse d’OpenAI est donc particulièrement attendue. D’autant que l’issue de ce conflit pourrait avoir un impact sur toute l’IA générative. Le résultat du litige entre la Garante et OpenAI pourrait changer fondamentalement la façon dont les entreprises d’intelligence artificielle collectent les données et entraînent leurs modèles, en particulier si les méthodes actuelles sont jugées illégales au regard du droit européen. La décision uniquement applicable en Europe pourrait être suivie ailleurs dans le monde. La raison ? Les principes du RGPD, une des lois les plus strictes au monde en matière de protection des données personnelles, ont été repris dans d’autres pays.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Source : MIT Technology Review

Votre opinion

Patrick Hurst dit :

24 avril 2023 à 10:13

…une aiguille dans une botte de foin”: C’est même pire… Imaginez que la botte de foin respire, bref: que les données sont ingurgitées, synthétisées avec des méthadonnées, restituées, déposées comme cookies, réingurgitées par la suite… Donc impossible à retracer quoi que ce soit!

Répondre

Laisser un commentaire