Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Vous êtes très facile à retrouver grâce à un algorithme,
Même lorsque vos données ont été « anonymisées », selon un nouveau rapport

Le , par Stan Adkens

121PARTAGES

16  0 
Les organismes qui traitent des données sensibles ont principalement recours à des pratiques de l’anonymisation pour les partager ou les vendre. En théorie, ces techniques, appelées dé-identification, rendent les individus non identifiables. Une fois rendues anonymes, les données ne sont plus considérées comme des données personnelles et échappent aux régimes de protection des données. Mais ces données demeurent-elles non identifiables pour le reste du temps avec les techniques actuelles ? La réponse c’est non, d’après les nouvelles recherches publiées dans la revue Nature Communications.

En effet, des scientifiques de l'Imperial College de Londres et de l'Université Catholique de Louvain, en Belgique ont développé un algorithme de « machine learning » qui prouve qu’il est possible de ré-identifier précisément et facilement les individus au sein de n'importe quelle base de données, même lorsque vos données personnelles ont été supprimées, ont indiqué les responsables de l’université mardi dans un communiqué. Ce qui est encore plus surprenant, c’est que les scientifiques ont affiché le code de leur logiciel en ligne pour que n'importe qui puisse l'utiliser.


Plus l’évolution technologique vous oblige à vous connectés, davantage vous laissez vos données en ligne chaque fois que vous faites une opération, comme commander un repas à emporter, la réservation d’une chambre d’hôtel lors d’un voyage. Mais surtout lorsque les données sensibles comme vos diagnostics médicaux ou votre dossier fiscal se retrouvent en ligne. Cependant, vous ne devriez pas vous inquiéter, car les données d'identification personnelle ont été supprimées, rendant ainsi vos informations « anonymes ».

La pratique actuelle consiste à éliminer les éléments manifestement identifiables tels que les noms, les numéros de téléphone, les adresses électroniques, etc. Les ensembles de données sont également modifiés pour être moins précis, les colonnes des feuilles de calcul sont supprimées et le « bruit » est introduit dans les données, a rapporté MIT Technology Review dans un article publié mardi.

Les politiques de protection de la vie privée nous assurent que cela signifie qu'il n'y a aucun risque que nous puissions être retracés dans la base de données de sorte que dans la plupart des pays du monde, les données anonymes ne sont pas considérées comme des données personnelles, c’est-à-dire, que l'information peut être partagée et vendue sans enfreindre les lois sur la vie privée, selon The New York Times. Les études de marché sont prêtes à payer les courtiers pour un large éventail de données, allant des préférences de datation aux tendances politiques, en passant par les achats des ménages et la diffusion en continu des données favorites.

Cependant, la nouvelle étude suggère que les données « anonymisées » avec les pratiques actuelles sont loin d'être anonymes. Les chercheurs de ces deux universités ont créé un modèle d'apprentissage machine qui estime exactement à quel point il est facile de ré-identifier des individus à partir d'un ensemble de données anonymisées. Ils ont rapporté dans la revue Nature Communications que leur modèle est capable d'identifier 99,98 % des Américains à partir de presque tous les ensembles de données disponibles avec aussi peu que 15 caractéristiques, comme le sexe, le code postal ou l'état civil.

« Au fur et à mesure que l'information s'accumule, les chances que ce ne soit pas vous diminuent très rapidement », a expliqué Yves-Alexandre de Montjoye, chercheur à l'Imperial College de Londres et un des auteurs de l'étude.

Pour parvenir à leur conclusion, les chercheurs ont rassemblé une base de données de 210 ensembles de données différents provenant de cinq sources, dont le recensement américain. Ils ont ensuite introduit ces données dans leur modèle d'apprentissage machine, qui a appris quelles combinaisons sont plus ou moins uniques et lesquelles le sont moins. Et enfin, le modèle attribue la probabilité d'une identification correcte.

Mais ce qui est encore plus surprenant, c’est la décision des scientifiques de publier le code de leur logiciel en ligne pour que n'importe qui puisse y accéder. Habituellement, lorsque les scientifiques découvrent une faille de sécurité, ils alertent le fournisseur ou l'organisme gouvernemental qui héberge les données. Mais ils n’ont pas procédé ainsi, car il y a de nombreuses données anonymes circulent dans le monde entier, et toutes sont en danger, a dit le Dr de Montjoye.

Selon le chercheur, la décision de la divulgation du code a été difficile à prendre. Il s'agissait donc de choisir entre garder ou publier la méthode afin que les fournisseurs de données puissent sécuriser les futurs ensembles de données et empêcher la ré-identification des individus.

« C'est très difficile », a dit le Dr de Montjoye. « Tu dois croiser les doigts que tu l'as bien fait, parce qu'une fois qu'il est là, tu ne le récupéreras jamais ».
Ce n’est la première étude qui montre à quel point il est facile de retrouver des individus à partir de bases de données anonymes. Selon The News York Times, en 2016, des individus ont été identifiés à partir de l'historique de navigation de trois millions d'Allemands, données qui avaient été achetées avec un fournisseur. Aussi, les généticiens ont déjà montré que les individus peuvent être identifiés dans des bases de données génétiques supposées anonymes.

Ces preuves montrent que toutes les pratiques d'anonymisation actuelles ont pris du retard par rapport à notre capacité à les briser

Selon The Times, parmi les moyens habituels de protection de la vie privée, il y a la « dé-identification » des personnes en supprimant des attributs ou en substituant de fausses valeurs, ou en ne divulguant que des fractions d'un ensemble de données rendues anonymes. Mais, d’après Dr de Montjoye, le fait que l'ensemble de données soit incomplet ne protège pas la vie privée des gens. Selon lui, les preuves recueillies jusqu’à présent montrent que toutes les méthodes actuelles sont inadéquates et ont surtout pris du retard par rapport à notre capacité à les briser. « Nous devons aller au-delà de la dé-identification », a-t-il dit, avant d’ajouter que « L'anonymat n'est pas une propriété d'un ensemble de données, mais une propriété de la façon dont vous l'utilisez ».


MIT Technology Review a rapporté que ces méthodes pourraient, par ailleurs, être utilisées à de mauvaises fins. Par exemple, quelqu'un qui cherche à commettre une fraude d'identité ou à obtenir des renseignements à des fins de chantage pourrait se servir de ces moyens.

« Le problème, c'est que nous pensons que lorsque les données ont été rendues anonymes, elles sont sûres. Les organisations et les entreprises nous disent que c'est sans danger, ce qui prouve que ce n'est pas le cas », a dit Dr de Montjoye.

Toutefois, selon The Times, l'équilibre est délicat en la matière, car l'information qui devient totalement anonyme devient également moins utile, en particulier pour les scientifiques qui tentent de reproduire les résultats d'autres études. Mais chaque petite partie qui est conservée dans une base de données rend l'identification des individus plus possible.

Des solutions pour empêcher la re-identification des personnes

Entre autres solutions proposées, il y a le contrôle d’accès aux données sensibles, telles que les dossiers médicaux. Les personnes habilitées devraient accéder à ces données dans une salle sécurisée. Les données peuvent être utilisées mais pas copiées, et tout ce qui est fait avec l'information doit être enregistré, a rapporté The Times. Kamel Gadouche, directeur général d'un centre de données de recherche en France, le CASD, a expliqué que les chercheurs peuvent également accéder à l'information à distance, mais « il y a des exigences très strictes pour la salle où le point d'accès est installé ».

Selon M. Gadouche, le CASD détient des informations sur 66 millions de personnes, y compris des données fiscales et médicales, fournies par les gouvernements et les universités. « Nous ne restreignons pas l'accès », a dit le directeur du centre. « Nous contrôlons l'accès ».

Mais il y a des inconvénients de la méthode du contrôle de l'accès aux données. A titre d’exemple, si un scientifique soumet un article de recherche à une revue, d'autres scientifiques pourraient vouloir confirmer les résultats en utilisant les données d’origine. Mais si l’accès est soumis à un contrôle, la confirmation des résultats sera un véritable défi.

Une autre solution a été rapporté par MIT Technologie Review. Selon Charlie Cabot, directeur de recherche chez Privitar, une firme d'ingénierie en protection de la vie privée, la méthode consiste pour les organisations à utiliser la protection différentielle de la vie privée, un modèle mathématique complexe qui permet aux organisations de partager des données agrégées sur les habitudes des utilisateurs tout en protégeant l'identité d'une personne.

Selon MIT Technologie Review, la technique subira pour la première fois un test majeur l'année prochaine. Elle est déjà utilisée pour sécuriser la base de données du recensement américain, a rapporté le magazine. Mais les organisations rendront-elles vraiment les données personnelles totalement anonymes si en le faisant elles deviennent moins utiles ?

Source : Nature Communication, MIT Technologie Review

Et vous ?

Que pensez-vous de cette étude ?
Pensiez-vous que les données « anonymisées » ont toujours été totalement anonymes ?
Pensez-vous que les organisations rendront les données personnelles totalement anonymes si cela réduit leur utilité ?

Lire aussi

21 trucs et astuces pour vous aider à rester anonymes, durant vos activités en ligne
Uber met à la disposition des municipalités sa plateforme web Uber Movement, des données gratuites anonymisées pour les aider dans leurs décisions
Le projet de partage des données entre des hôpitaux américains et Facebook pour mieux soigner les patients, est mis sur pause à cause du scandale CA
Les entreprises utilisent la géolocalisation de smartphone pour aider les annonceurs. Elles assurent que les données sont anonymes, est-ce le cas ?

Une erreur dans cette actualité ? Signalez-le nous !

Avatar de transgohan
Expert éminent https://www.developpez.com
Le 25/07/2019 à 13:35
Je comprends surtout que des données d'identification n'ont pas été supprimées pour ma part.
Le code postal, pourquoi est-il toujours présent ?
La plus petite commune de France doit faire dans les 2000 habitants si je ne m'abuse. Si on trouve des données médicales d'un patient atteint d'une maladie rare dans cette commune c'est un peu le jackpot pour l'identifier...
6  0 
Avatar de el_slapper
Expert éminent sénior https://www.developpez.com
Le 25/07/2019 à 14:31
après, ça suppose que les gens voulant vous identifier ont à leur disposition tous ces moyens. Si je suis anonyme sur internet pour échapper à mon ex qui a juré de me pourrir la vie, ça suffira largement. Face à de grosses organisations(état, GAFAM...), l'anonymat n'existe plus, en effet.
5  0 
Avatar de Neckara
Expert éminent sénior https://www.developpez.com
Le 25/07/2019 à 17:14
Cela ressemble plus à des données pseudonomysées, qu'à des données anonymisées.
4  0 
Avatar de transgohan
Expert éminent https://www.developpez.com
Le 25/07/2019 à 15:15
Citation Envoyé par Ryu2000 Voir le message
Mais pas du tout !
Là ya une liste de commune avec moins de 10 habitants :
Liste des communes de France les moins peuplées
C'était le cas en 2015, mais là j'en ai pris 3 au hasard dans la liste et ces villages ont été rattachés à des communes avoisinantes pour utiliser un seul et même code postal.
De ce fait cette page n'est pas du tout à jour à mon avis.
3  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 25/07/2019 à 15:09
Citation Envoyé par transgohan Voir le message
La plus petite commune de France doit faire dans les 2000 habitants si je ne m'abuse.
Mais pas du tout !
Là ya une liste de commune avec moins de 10 habitants :
Liste des communes de France les moins peuplées

Les villages sont des communes de moins de 2000 habitants.
Entre “ville” et “village”, où passe la frontière ?
Il existe effectivement un seuil défini par les démographes, en France, pour déterminer ce qui relève du rural et de l’urbain, qu’ils ont fixé à 2 000 âmes : jusqu’à 1 999, une agglomération est un village et ses habitants sont des ruraux, des villageois. A partir de 2 000 âmes, nous avons affaire à une ville et nous glissons dans l’urbanité (notre censeur doit vivre dans un village, car il fait preuve de peu d’urbanité).
Et en parlant de données d'utilisateur ça me fait penser à ça :
Facebook et Google surveillent le porno que vous regardez, même lorsque vous êtes en navigation privée
Facebook, Google et Oracle analysent le porno que vous regardez, selon une nouvelle étude citée par le New York Times. Des chercheurs de Microsoft, de Carnegie Mellon et de l'Université de Pennsylvanie ont analysé 22 484 sites pornographiques à l'aide d'un outil appelé webXray qui leur permet de suivre les données transmises à des tierces parties."Nos résultats indiquent que le tracking est une pratique courante sur les sites pornographiques : 93 % des pages divulguent des données d'utilisateurs à un tiers", conclut l'étude.
1  0 
Avatar de BleAcheD
Membre du Club https://www.developpez.com
Le 25/07/2019 à 14:33
Ces pratiques sont-elles RGPD friendly ?
Vivement que la loi de Castaner sur l’identité numérique soit adoptée, ça sera encore plus facile de retrouver les gens
0  0 
Avatar de Ryu2000
Membre extrêmement actif https://www.developpez.com
Le 25/07/2019 à 15:21
Citation Envoyé par transgohan Voir le message
mais là j'en ai pris 3 au hasard dans la liste et ces villages ont été rattachés à des communes avoisinantes pour utiliser un seul et même code postal.
Je connais des codes postaux qui correspondent à des villages de moins de 1000 habitants.

Mais en effet je vois que parfois plein de communes partagent le même code postale :
Liste des codes postaux de France classées par département

Apparemment ça fonctionne avec : 18510, 63770, 63940, 63950, 30111, 30121, 30122, 30125, 30720, etc.
0  0 
Avatar de MClerc
Membre du Club https://www.developpez.com
Le 31/07/2019 à 18:31
transgohan écrit
« La plus petite commune de France doit faire dans les 2000 habitants si je ne m'abuse »
Beaucoup moins que ça :
https://www.commune-mairie.fr/les-10...les-de-france/

Alors, pour ces communes d'au plus 20 habitants, si vous avez juste une petite information supplémentaire concernant une personne, je gage qu'il est facile de l'identifier.
0  0