Comment le gouvernement tente de justifier Health Data Hub, son projet de plate-forme de santé

Avec le Health Data Hub (HDH), « le gouvernement est-il en train de mettre en place un “Big brother médical“ et d’offrir nos données de santé aux géants du numérique ? ». Dans une enquête publiée jeudi 21 novembre, Mediapart tente de répondre à cette question, en retraçant l’historique de la mise en place de cette plate-forme qui suscite de vives inquiétudes.

Faciliter l’exploitation des données personnelles

Le HDH est un mega-fichier censé centraliser, à compter du 1er décembre, les données de santé des Français générées grâce aux actes de soin par des médecins, des hôpitaux et même des pharmaciens. Inédit : des partenaires privés pourront y accéder aussi. L’objectif est de « favoriser l’utilisation et de multiplier les possibilités d’exploitation des données, aussi bien en recherche clinique qu’en termes de nouveaux usages, notamment ceux liés au développement des méthodes d’intelligence artificielle (IA) », selon la communication du gouvernement.

Récemment officialisé en grande pompe par le secrétaire d’État chargé au Numérique et la ministre de la Santé et des Solidarités, le HDH a pour vocation de remplacer l’actuel Système national des données de santé (SNDS) qui centralise déjà les principaux fichiers de santé et d’en élargir le périmètre. Un pas de plus vers un « État plate-forme » cher au gouvernement.

Le 1er décembre prochain, le Health Data Hub sera officiellement créé.

Pour cette plateforme de partage des données de santé anonymisées, un objectif : permettre aux chercheurs et acteurs de l'innovation de développer des services améliorant la qualité des soins. @cedric_o pic.twitter.com/8LbcBuHOJC

— Pr Agnès Buzyn (@agnesbuzyn) November 18, 2019

« Le HDH est un facilitateur », explique à Mediapart Stéphanie Combes, cheffe de projet HDH. « Par exemple, la start-up Implicity veut créer des outils d’alerte pour les pacemakers utilisant le machine learning. L’Institut du cerveau et de la moelle épinière et l’Inserm, eux, ont un projet de prévention de la maladie de Parkinson. »

Microsoft hébergera les données des Français

Pourtant, comme le rapporte le site d’information, ce mélange de genres public-privé-santé inquiète. Outre-Atlantique, le Wall Street Journal a accusé Google d’utiliser les données médicales de millions d’Américains grâce à un accord jusqu’à présent tenu secret avec le groupe hospitalier Ascension, qui utilise sa solution d’hébergement Google Cloud. Une situation que le HDH pourrait rendre très « facile » en France.

Capture d’écran du dossier de presse du ministère de la Santé et des Solidarités. – Le HDH est la partie immergée d’un ensemble de projet de e-santé voulu par le gouvernement.

La confiance, pierre angulaire du projet

Malgré l’imminence de l’ouverture de cette plate-forme, le projet peine à convaincre. Le député LREM Pierre-Alain Raphan a notamment signé, fin octobre dans Les Échos, une tribune qui s’oppose contre le HDH.

« Il existe quelques zones d’ombre sur certains acteurs, proches des GAFAM, à l’initiative de ce beau projet : le fondateur de la start-up Owkin qui lève régulièrement des fonds auprès de Google Ventures, voire l’infrastructure retenue qui reposera sur Microsoft Azure. Loin de vouloir remettre en cause les choix effectués, la question se pose sur les conséquences », peut-on lire dans les colonnes du journal économique. «Si l’utilisation des données de santé constitue une opportunité qu’il ne faut pas laisser passer, cela ne doit pas être au mépris de la notion de confiance. »

Une crainte que le corps médical partage. Dans une note que Mediapart a pu consulter, le directeur de l’Assistance publique – Hôpitaux de Paris (AH-HP), Martin Hirsch, évoque ainsi le risque de « compromettre la confiance des patients » et défend « l’expertise des CHU sur leurs données » ainsi qu’un « partage équitable et gagnant-gagnant des données ».

Encadrer les IA

La Commission nationale de l’informatique et des libertés (Cnil) a également émis certaines réserves concernant la nécessité d’encadrement des IA dans le domaine sensible de la santé.

« Si l’évaluation de la conformité de l’ensemble du dispositif suppose l’intervention des actes réglementaires d’application, en l’absence de toute précision dans le projet de loi sur l’architecture précise du dispositif, la Commission appelle dès maintenant l’attention sur la problématique majeure du respect, en pratique, des principes de limitation des finalités et de minimisation des données par ces nouveaux traitements, évoluant dans un contexte d’accumulation de données pour alimenter les algorithmes d’IA », a-t-elle écrit.

La Cnil s’inquiétait également de l’élargissement du périmètre d’utilisation de ces données. Comme le rappelle Mediapart, jusqu’à présent les données personnelles de santé ne pouvaient être soumises à un traitement informatique que dans des cas exceptionnels (« au service de l’État » ou « à des fins de recherches »). Désormais au « motif d’intérêt général » la loi fait disparaître toute nécessité de finalité scientifique.

Interrogé par le site d’information, un cadre dans le secteur hospitalier public travaillant sur le dossier du HDH alerte également sur les contours flous de ce projet.

« On a vraiment l’impression que les gens qui ont fait ce projet n’ont jamais fait de statistiques médicales, critique un cadre du secteur hospitalier public travaillant sur le dossier », s’inquiète-t-il. « Il n’y a tout simplement pas besoin à l’heure actuelle d’un HDH. Il y a beaucoup de marketing autour de l’IA. Et contrairement à ce que martèle celui-ci, il n’y a pas besoin de gros jeux de données pour faire de la recherche. Celles stockées dans les entrepôts déjà existants suffisent largement ! »

Les données seront-elles anonymisées ?

Le fonctionnaire affirme également qu’il y a des « risques de réidentification ».

« Les données seront censées être anonymisées mais on sait que l’anonymisation totale est impossible. Une récente méta-étude publiée dans Nature montrait qu’il suffisait de trois critères pour ré-identifier 83 % des Américains et de 15 critères pour en ré-identifier 99,98 % », détaille-t-il au journaliste de Médiapart.

Face à cette levée de boucliers, le gouvernement, épaulé par la Cnil, se veulent rassurant, notamment sur l’anonymisation des données, en conformité avec le RGPD.

« Les données seront anonymisées, assure Stéphanie Combes. De plus, à aucun moment, elles ne pourront être transférées. Les traitements se feront uniquement dans le cadre de la plateforme. Les données seront chiffrées et ce n’est pas Microsoft qui détiendra la clef des déchiffrements.»

Un risque théorique incompressible

« Il y a en effet toujours un risque théorique de réidentification, explique Thomas Dautieu, directeur de la conformité à la Cnil. Mais, tout d’abord, la loi interdit la réidentification. C’est illégal. Ensuite, dans les autorisations, nous nous assurerons que les données soient assez macro pour ne pas le permettre techniquement ».

Afin de pallier ces critiques, le gouvernement a déclaré qu’il travaillait sur un « projet de “charte producteurs” dans laquelle le Hub s’engagera sur un certain nombre de points. Tant qu’ils n’ont pas vu nos propositions, je comprends que certains soient sceptiques. Il faut mettre tout ça sur la table et se donner du temps pour construire ce projet », conclut Stéphanie Combes.

Source : Mediapart