Fraude aux allocations familiales : la CAF utilise bien des algorithmes qui ciblent les plus précaires, selon la Quadrature du Net

Comment la Caisse nationale des allocations familiales (la CNAF) vérifie-t-elle si ses bénéficiaires fraudent ? On savait que ses contrôles n’étaient pas décidés de manière aléatoire, mais qu’un algorithme déterminait quel allocataire de minima sociaux serait contrôlé. Restait qu’une certaine opacité entourait cet algorithme et son fonctionnement. On en sait désormais un peu plus, car après des mois de bataille juridique, la CNAF a finalement accepté de partager deux codes sources de ses « algorithmes de notation » utilisés pour décider des allocataires à « contrôler ». L’un date de 2010, l’autre de 2014. Ces codes sources ont été publiés par la Quadrature du Net, lundi 27 novembre, sur son site Web.

En les rendant accessibles au grand public, notamment en listant les variables utilisées et les indices correspondants dans des fichiers Excel, l’association de défense des droits a souhaité mettre fin « au mystère » qui entourait ces algorithmes. Il ne s’agit pas du code source de l’algorithme utilisé actuellement par la CNAF. Mais les deux versions antérieures de 2010 et de 2014 montrent bien que les variables utilisées sanctionnent les plus précaires, explique la Quadrature du Net sur son site, déplorant la mise en place « d’un système de surveillance de masse particulièrement pernicieux ».

Un score de risque octroyé à chaque allocataire

L’association de défense des droits numériques aura mis des mois à obtenir le code source de ces algorithmes, demandé après avoir révélé l’existence de cet outil en 2022. En décembre de la même année, la cellule Investigation de Radio France-Franceinfo montrait que la CNAF notait bien ses allocataires en fonction du risque de fraude. Nos confrères expliquaient que la CNAF octroyait un « score de risque » à chaque profil, en croisant des informations issues de différentes administrations : plus il se rapprochait du 1, et plus l’allocataire risquait d’être contrôlé. Dans un tel système, les plus précaires, considérés comme plus à risque, sont davantage contrôlés, soulignaient nos confrères. La CNAF avait admis, chez Franceinfo, utiliser de tels algorithmes, mais de manière marginale.

Restait à savoir sur quoi la CNAF se basait pour déterminer ce score : il fallait donc pouvoir accéder au code source de cet algorithme. La Quadradure du Net avait demandé à la caisse d’allocations de communiquer ce code, afin de voir quels éléments pouvaient dégrader la note d’un allocataire – et donc quels éléments allaient augmenter les chances pour ce dernier d’être contrôlé.

« Les dirigeants de la CNAF jouent du mystère sur l’algorithme »

La CNAF avait répondu dans un premier temps avec un code source caviardé – l’intégralité des noms de variables était masquée. L’administration estimait que les fraudeurs pourraient tromper l’algorithme si elle publiait la totalité du code utilisé actuellement. L’idée était de dire : « Si on donne la formule pour calculer ces scores de risque, les gens vont comprendre quels sont les paramètres pris en compte, et vont mentir dans leurs déclarations de manière à modifier artificiellement leurs notes », explique un membre de la Quadrature du Net qui se présente comme Alex, en charge de la campagne relative aux algorithmes, interrogé par 01net.com. Il s’agit d’« un argument d’une mauvaise foi terrible, puisque quand on regarde les formules, ce sont des facteurs liés à la situation financière, des facteurs de précarité qui sont nécessaires pour demander l’accès aux aides sociales », ajoute-t-il. Donc si vous les modifiez, vous n’avez plus accès aux prestations sociales.

La Quadrature, pour éviter de se lancer dans une longue procédure administrative, avait alors demandé la publication de codes antérieurs qui ne sont plus utilisés aujourd’hui – ces codes sources sont mis à jour régulièrement – via une procédure CADA (une demande d’accès aux documents administratifs). Ce à quoi la CNAF a fini par répondre positivement.

On sait que la Caisse d’allocations familiales utilise depuis les années 2010 ce type d’algorithme. Vincent Dubois, professeur à l’Institut d’études politiques de Strasbourg et auteur de Contrôler les assistés. Genèses et usages d’un mot d’ordre, avait déjà montré que cet outil vise délibérément les personnes les plus précaires. Mais le professeur n’avait pas eu le droit de publier la formule, explique le chargé de campagne de la Quadrature du Net. Et depuis des mois, les dirigeants de la CNAF, lorsqu’ils étaient interrogés sur l’algorithme, se défendaient en disant en substance : il s’agit d’un outil de data mining. « Tout de suite, ça fait très compliqué. Quand on leur demandait s’ils ciblaient vraiment les plus en difficulté, ils répondaient : non, mais en fait, il n’y a pas de ciblage dans l’algorithme parce que c’est quelque chose qui est purement statistique, construit par des experts ». Il s’agit d’un algorithme qui est « un miroir des situations statistiques sur les risques d’erreur », avançait par exemple le directeur général de la Cnaf, Nicolas Grivel, chez nos confrères de Franceinfo, en décembre dernier.

Voici ce que contiennent les variables du code source

En publiant les codes sources de 2010 et de 2014, les choses sont un peu plus claires. On sait quels paramètres sont utilisés pour ces algorithmes antérieurs. Pour celui de 2014, on peut parcourir ses 32 variables, qui comprennent des éléments comme le nombre de mois d’activité professionnelle, la présence d’enfants, le fait de toucher l’allocation aux adultes handicapés (AAH), le nombre de fois où vous vous connectez à votre espace Web, ou encore le fait que votre conjoint a plus de 60 ans. Certains de ces variables sont parfois construits sur un historique de plusieurs mois, qui inclut des données du conjoint. Plus les variables vont potentiellement entraîner une précarité (comme une perte d’emploi, un changement de situation), plus l’allocataire aura une note proche du 1, et plus il sera susceptible d’être contrôlé.

La CNAF pourrait supprimer les variables trop sensibles politiquement

Cette logique n’a rien de surprenant pour le membre de la Quadrature du Net. Car, explique-t-il, les algorithmes – mis en place par la CNAF – ne sont pas entraînés à détecter la fraude, mais les indus. Il s’agit des erreurs commises par les allocataires qui entraînent un trop-perçu de prestations sociales. « Selon une déclaration qui a été faite auprès de la CNIL en 2010, on sait que l’algorithme de la CNAF devait, à l’origine, être conçu pour lutter contre la fraude. Mais il est en fait très difficile de caractériser algorithmiquement la fraude, donc d’avoir un score de prédiction de la fraude, parce que la fraude nécessite un caractère intentionnel », détaille le membre de la Quadrature du Net. « Et mesurer l’intentionnalité à partir d’une base de données où on a des data sur la situation financière, personnelle, familiale et les interactions avec la CNAF, c’est un peu compliqué », ajoute-t-il. La fraude aurait alors été mise de côté, et l’algorithme aurait été réentraîné pour détecter les indus, poursuit-il. « Si on simplifie, il a suffi d’entraîner l’algorithme à détecter les personnes aux minima sociaux, les personnes qui touchaient des aides sociales qui étaient encadrées par des règles très complexes et sur lesquelles on avait de grandes chances de se tromper », détaille-t-il.

Pour la CNAF, l’algorithme ne cible pas forcément les personnes les plus pauvres, mais celles dont les revenus varient

Après la publication de ces codes sources, la Quadrature du Net espère qu’à moyen terme, une réflexion sur la politique de contrôle, « qui a des conséquences humaines extrêmement dures », soit lancée. « On s’attend à ce que la CNAF supprime les variables trop sensibles politiquement, comme l’AAH, l’allocation aux adultes handicapés, tout en continuant à cibler les mêmes populations avec des variables qui seront bien plus compliquées à comprendre, pour le grand public », estime le membre de la Quadrature. Les dirigeants de cette administration « ne pourront plus s’abriter derrière l’algorithme et refuser la responsabilité de cette politique », résumée ainsi : « contrôles à répétition sur les personnes les plus précaires, suspensions automatiques, récupérations d’indus sur des personnes qui sont déjà dans des situations très difficiles… Ce sont des vies humaines qui sont broyées ».

En 2017, le défenseur des droits alertait, dans un rapport, des dangers de l’utilisation du datamining par l’administration, pointant du doigt les risques de discrimination qui pouvaient en résulter. « Plus qu’un ciblage sur des “risques présumés”, la pratique du datamining contraint à désigner des populations à risque et, ce faisant, conduit à instiller l’idée selon laquelle certaines catégories d’usagers seraient plus enclines à frauder », détaillait-il.

Et pour le membre de l’association, tous ces risques et toutes ces conséquences n’en valent pas la chandelle. « A-t-on vraiment besoin d’aller récupérer cet argent-là sur des personnes qui ont fait des erreurs de bonne foi et qui sont dans le besoin, sachant que l’enjeu financier pour la CNAF est nul ? », questionne-t-il. Ce dernier considère que le système social français n’est pas mis à mal par les erreurs des allocataires.

En 2022, la Cour des comptes estimait que la fraude aux prestations sociales représentait entre 6 et 8 milliards d’euros chaque année, un montant qui reste à confirmer, les magistrats financiers pointant du doigt un manque de moyens dans les contrôles effectués a posteriori. La CNAF avait, elle, calculé que sur 95 milliards d’euros d’allocations versées, il y aurait 2,8 milliards d’euros de fraude, rapportaient nos confrères de France Info l’année dernière. La fraude fiscale, le fait de vouloir échapper à l’impôt, serait bien plus importante – à hauteur de 80 milliards d’euros, mais là aussi, il s’agit d’une estimation, provenant du syndicat Solidaires Finances publiques, qui date de 2018.

Contactée par 01net.com, la CNAF n’avait pas répondu à notre demande de commentaire, à l’heure de la publication de cet article. Mais le directeur général de la Caisse, Nicolas Grivel, a précisé, dans une interview donnée à l’AFP et reprise par Tech&Co, que l’algorithme a pour objectif d’identifier les allocataires les plus susceptibles de commettre des erreurs dans leur déclaration. Il ne serait pas discriminatoire, et ne ciblerait pas forcément les personnes les plus pauvres, mais celles dont les revenus varient.

Et en fin de journée le mardi 28 novembre, la CNAF a publié un long tweet, souhaitant revenir sur les « contre vérités et les approximations qui circulent ». Elle explique que l’algorithme, « déclaré à la CNIL » et « conforme au droit » n’est pas utilisé pour « surveiller les allocataires », mais pour identifier les erreurs, qui peuvent être « en défaveur mais aussi en faveur des allocataires ». « 31 % des régularisations post contrôles sont en faveur de l’allocataire qui reçoit un complément financier », ajoute-t-elle. La caisse d’allocations déclare « travailler avec des sociologues, datascientists et autres spécialistes pour mieux faire connaître et adapter le cas échéant sa pratique des algorithmes ».

[Thread 🧵]

Les Caf, les algorithmes et l’accompagnement des allocataires méritent un débat serein et documenté.

Retour dans une discussion sur quelques contre-vérités et approximations qui circulent. pic.twitter.com/WCPOmCLjBt

— Allocations Familiales (@cnaf_actus) November 28, 2023

Note de la rédaction : cet article, publié le 28 novembre, a été modifié ce mercredi 29 novembre pour inclure les tweets de la CNAF du 28 novembre (fin de journée).