PARIS SCIENCES & LETTRES (PSL)
Merci ! Votre abonnement a bien été enregistré !
il y a un soucis. Merci de vérifier votre saisie.

Comment utiliser le Big Data tout en respectant la vie privée?

Comment utiliser l’énorme potentiel du Big Data tout en garantissant le respect de la vie privée des utilisateurs ? C’est à cette question cruciale que Yves-Alexandre de Montjoye, professeur au Data Science Institute de l'Imperial College de Londres, et ses collègues essaient d’apporter une réponse avec le projet OPAL, qui associe différents partenaires publics, privés et académiques, dont les opérateurs télécoms Orange et Telefonica et le MIT. Alors que les méthodes traditionnelles d’anonymisation des données ont montré leurs limites, ce projet vise à bâtir une infrastructure sur laquelle les données sont stockées et peuvent être analysées en toute sécurité par des algorithmes. Il ne s’agit donc plus de partager d’énormes bases de données dont l’anonymisation est toute relative, mais de permettre une utilisation anonyme des données. Avec, à la clé, la mise à profit du Big Data pour le bien public.

Friday
27
October 2017
read in english
read in english
Lire le résumé

Les premiers vrais algorithmes d’anonymisation ont été développés au milieu des années 1990. Ces méthodes ont très bien fonctionné les dix, quinze années suivantes, jusqu’à ce que débute une nouvelle ère : celle du Big Data. Désormais, chacun laisse derrière soi énormément de données à partir desquelles il est assez facile d’être ré-identifié. L’anonymisation n’est donc plus le bon paradigme à l’heure du Big Data. La solution proposée est la suivante : au lieu de partager une base de données anonymisées, nous allons la conserver sur une infrastructure sécurisée dont nous contrôlons l’accès. Ceux qui veulent utiliser ces données ne peuvent pas y accéder directement mais seulement télécharger un algorithme, que nous allons vérifier et exécuter, et qui va chercher dans la base de données les morceaux d’informations requis. Ces infrastructures sécurisées permettent ainsi à des chercheurs, à des instituts de statistique ou encore à des entreprises d’utiliser le potentiel du Big Data tout en offrant des garanties très fortes sur la protection de la vie privée des utilisateurs.

Paris Innovation Review — Vous dirigez, à l’Imperial College London, un groupe de recherche sur la computational privacy. De quoi s’agit-il précisément?

Yves-Alexandre de Montjoye — Une grande partie nos recherches consistent à explorer, d’un point de vue technique, les solutions existantes pour la protection de la vie privée. On se concentre sur les données comportementales que les gens laissent derrière eux comme des données de téléphone portable, de cartes de crédit, de recherches sur Internet, d’historiques de navigation qui peuvent être enregistrés par le fournisseur d’accès à Internet, etc. Nous avons deux principaux axes de recherche. D’une part, l’anonymisation des données, c’est-à-dire étudier dans quelle mesure les données peuvent réellement être anonymisées et développer des algorithmes pour casser l’anonymisation. D’autre part, nous explorons ce que l’on peut apprendre de ces données en les analysant. Comment peut-on les traiter pour en savoir plus sur l’humain et la société, pour mieux comprendre les comportements à grande échelle ? Le Big Data permet une révolution du niveau auquel on peut étudier l’être humain.

Dans le cadre de vos recherches, vous avez notamment montré les limites des procédés d’anonymisation des données. Quelles sont-elles?

Historiquement, les données ont été anonymisées afin de trouver un équilibre entre la protection de la vie privée et leur utilisation pour des recherches. Par exemple, avec des données de census anonymisées, on pouvait faire des recensements de population, des recherches comme celles faites par Thomas Piketty ou encore des études médicales tout en protégeant la vie privée. Les premiers vrais algorithmes d’anonymisation ont ainsi été développés au milieu des années 1990. Ces méthodes ont très bien fonctionné les dix, quinze années suivantes, jusqu’à ce que débute une nouvelle ère : celle du Big Data. A partir de là, il ne s’agissait plus seulement de données de census (date de naissance, âge, revenus) mais de données beaucoup plus nombreuses et beaucoup plus précises : chaque site web que vous visitez, chaque antenne à laquelle votre smartphone s’est  connecté, chaque magasin où vous avez payé avec votre carte bancaire, etc. C’est ainsi que tout le monde laisse derrière soi une véritable empreinte digitale. Or, comme nous et d’autres chercheurs l’avons montré, cette empreinte permet assez facilement de ré-identifier une personne. Par exemple, nous avons démontré qu’il suffisait de quatre points d’information (chaque point étant un lieu et une heure où une personne se trouvait) pour ré-identifier cet individu de manière unique dans une base de données téléphoniques, 95% du temps.

Plusieurs techniques ont été inventées pour protéger davantage les données et rendre la ré-identification plus difficile : rajouter du “bruit”, rendre les informations moins précises… Mais au final, cela ne fait que rendre la tâche un peu plus difficile, c’est-à-dire qu’il suffit de collecter quelques points d’information supplémentaires pour être de nouveau capable de ré-identifier une personne de manière unique. Cela a été prouvé pour des données téléphoniques, des données de carte de crédit mais aussi des données de recherches sur Internet. On l’a vu l’année dernière avec des données d’un navigateur internet qui avaient été vendues à une société, soi-disant anonymisées, mais dans lesquelles on a pu retrouver par exemple les préférences pornographique d’un juge allemand. Il faut donc en conclure que si l’anonymisation a très bien marché dans le passé, ce n’est plus du tout le cas. Ce n’est plus le  bon paradigme à l’heure du Big Data et des données qui enregistrent votre comportement des centaines de milliers de fois par jour.

Faut-il alors renoncer au potentiel du Big Data?

Nous ne sommes pas comme certaines personnes qui pensent que nous devrions absolument interdire toute collecte de données. Ne pas utiliser ces données n’est pas une solution socialement acceptable de notre point de vue. Le statu quo, qui consiste à dire que les données sont anonymisées alors que le risque de ré-identification est réel, ne l'est pas non plus. Nous pensons qu’il faut trouver une solution satisfaisante à la fois pour l’utilisation du Big Data et la protection de la vie privé, car il y a énormément de choses positives qui peuvent être faites avec ces données. La solution que nous proposons en Angleterre est de garder le principe de base, mais au lieu de transmettre toute une base de données dite “anonymisée” (c’est-à-dire sur laquelle on aura ajouté du bruit, retiré des personnes, modifié certaines informations…), nous allons la conserver sur une infrastructure sécurisée dont nous contrôlons l’accès. Nous mettons alors en place un certain nombre de mécanismes pour garantir que ceux qui y accèdent fassent exactement ce qu’ils ont prévu de faire. En fait, ils ne peuvent pas accéder directement aux données mais seulement télécharger un algorithme, que nous allons vérifier et exécuter, et qui va chercher dans la base de données les morceaux d’informations requis. Nous prenons ensuite les résultats, nous les agrégeons de telle sorte qu’une personne unique ne puisse pas être retrouvée, nous ajoutons un peu de bruit puis nous envoyons la réponse. Il ne s’agit donc plus de transmettre des données anonymes mais de faire une utilisation anonyme des données. Ces infrastructures sécurisées permettent ainsi à des chercheurs, à des instituts de statistique ou encore à des entreprises d’utiliser ces données tout en offrant des garanties très fortes sur la protection de la vie privée des utilisateurs.

 Il ne s’agit donc plus de transmettre des données anonymes mais de faire une utilisation anonyme des données.

Pouvez-vous donner un exemple concret de cette nouvelle méthode?

Prenons l’exemple de l’INSEE qui fait une étude sur le panier des ménages et veut accéder pour ce faire aux données des clients d’une banque. Selon la “vieille méthode”, la banque va envoyer une grosse base de données sur laquelle elle aura effacé les noms, les numéros de carte de crédit, remplacé les adresses par des codes postaux, ajouté du bruit, etc. Le problème réside dans le fait que ces données sont de bien moins bonne qualité et qu’elles peuvent tout de même permettre de ré-identifier des personnes, comme nous l’avons démontré. Selon la “nouvelle méthode”, la banque va conserver les données. Via une infrastructure sécurisée, elle va permettre à l’INSEE d’envoyer des scripts qui vont calculer, à partir des données, toutes les informations nécessaires. Par exemple, le script peut identifier toutes les dépenses faites par les clients dans des magasins d’alimentation et calculer quel pourcentage des dépenses totales celles-ci représentent. Les données seront ensuite agrégées : on verra alors que dans telle région, les gens ont dépensé en moyenne 12% de leurs revenus dans des magasins d’alimentation, dans telle autre 16% ... Grâce à tous ces mécanismes, nous pouvons garantir que quelque soit la question posée par l’INSEE, il ne sera pas possible de ré-identifier une personne via les données envoyées en réponse.

La ré-identification est-elle vraiment impossible ?

Dans cette approche, il est extrêmement improbable que l’on puisse ré-identifier une personne et apprendre quelque chose sur elle. Ensuite, c’est comme pour la sécurité d’une banque, il n’est pas complètement impossible de braquer une banque mais c’est extrêmement difficile et, en plus, illégal. Avec OPAL, nous mettons en place toutes sortes de garanties, dont des contrats légaux et des contrôles, pour garantir l’anonymat. En plus, les données en elles-mêmes ne sont jamais partagées. C’est beaucoup moins risqué que les anciennes méthodes d’anonymisation. On a même mis en place un mécanisme de double pseudonymisation. Quand les données arrivent sur la plateforme, elles sont pseudonymisées une première fois puis une deuxième fois quand elles sont analysées par l’algorithme. De cette façon, si un algorithme pose deux fois la même question, les pseudonymes qu’il va recevoir pour une personne précise et ses contacts ne seront pas les mêmes la première que la deuxième fois.

Cette nouvelle méthode se répand-t-elle?

Oui, tout à fait. Mastercard l’a fait au niveau international avec les données de cartes de crédit. Uber l’utilise dans le cadre d’un partenariat avec les villes qui s'appelle Uber Movement. En France, il y a le centre d’accès sécurisé aux données (CASD), qui travaille aussi sur un mode d’accès contrôlé à des données mais c’est beaucoup moins automatisé que le type de solutions développées par Mastercard, Uber et nous-même, à cause de l’hétérogénéité des données qu’ils traitent. De notre côté, nous travaillons donc sur le projet OPAL, qui associe différents partenaires publics, privés et académiques, dont les opérateurs télécoms Orange et Telefonica, pionniers dans ce domaine, ainsi que le MIT. Nous mettons en place une infrastructure sécurisée de manière tout à fait transparente sur comment ce type de système garantit la protection de la vie privée. Nous espérons avoir un prototype en place d’ici un an, ce qui est relativement court pour un cycle de recherche. Les utilisateurs seront les instituts statistiques nationaux, qui sont à la fois indépendants et disposent des compétences nécessaires en statistiques nationales.

Quels sont les obstacles techniques à la mise en place d’une telle infrastructure sécurisée?

Il y a deux principaux défis. Premièrement, un problème de recherche : la differential privacy (confidentialité différentielle) est encore trop théorique. Elle doit être adaptée pour faire partie d’un système, qui à la fois préserve la vie privée et soit réellement utilisable. Le deuxième problème est inhérent au développement et au financement de tout projet complexe. Bâtir un tel système sécurisé suppose de mettre en commun beaucoup d'expertises dans des domaines très différents et nécessite un financement innovant qui est plus difficile à trouver que pour un projet de recherche classique.

Ce type de système est-il compatible avec le règlement général sur la protection des données (RGPD), qui s’appliquera à partir du 25 mai 2018 dans tous les États membres de l’Union européenne?

Nous attendons encore certaines clarifications mais il est très probable qu’il le soit. Ce type d’approche répond pleinement à la problématique de trouver un équilibre entre l’utilisation du Big Data, y compris pour le bien public, et la protection de la vie privée des utilisateurs.

Pourquoi est-il si crucial de trouver cet équilibre?

Il y a énormément de choses absolument fantastiques que l’on peut faire avec ces données, qu’il s’agisse de statistiques publiques, de recherche en santé publique, d’aménagement urbain… Les applications possibles sont très vastes, de l’étude de la propagation de maladies infectieuses en utilisant les données de mobilité à une meilleure planification des transports publics ou des routes dans une ville sur la base des déplacements des habitants. De quoi améliorer les politiques publiques à l’avenir.

A lire également:  Big Data et données personnelles: vers une gouvernance éthique des algorithmes

Yves-Alexandre de Montjoye
Maître de conférence au Data Science Institute, Imperial College London