L'une des plus grandes violations de données jamais survenues expose les informations sensibles de 2,9 milliards de personnes sur le dark Web,

Et relance le débat sur les préoccupations liées au Web scraping

Le 8 août 2024 à 14:47, par Mathis Lucas

317PARTAGES

L'une des plus grandes violations de données jamais survenues expose les informations sensibles de 2,9 milliards de personnes sur le dark Web
et relance le débat sur les préoccupations liées au Web scraping

Une faille dans l'entreprise de vérification d'antécédents National Public Data aurait entraîné la divulgation des données personnelles de 2,9 milliards de personnes sur le dark Web. National Public Data s'appuie sur le scraping pour collecter et stocker des informations d'identification personnelle à partir de sources non publiques afin de vérifier les antécédents de milliards de personnes. Il le fait sans le consentement des personnes concernées. Cela signifie que de nombreuses victimes ne savent peut-être pas que leurs informations sensibles telles que les numéros de sécurité sociale, les noms complets, les adresses, les informations sur les parents ont été exposées.

Les informations personnelles d'environ 3 milliards de personnes exposées sur le dark Web

National Public Data (également connue sous le nom de Jerico Pictures) se présente comme un fournisseur de données d'archives publiques spécialisé dans la vérification des antécédents et la prévention des fraudes. L'entreprise explique qu'elle obtient ses informations à partir de diverses bases de données d'archives publiques, de dossiers judiciaires, de bases de données nationales et d'État et d'autres référentiels dans tout le pays. Le mode opératoire consiste à explorer (gratter) le Web à la recherche de tout type d'information, ce qui signifie que les informations ne sont pas données volontairement à cette entreprise.

National Public Data a déclaré que ses services sont actuellement utilisés par des enquêteurs, des sites Web de vérification d'antécédents, des revendeurs de données, des applications mobiles, des applications et bien plus encore. Cependant, une gigantesque brèche dans son réseau a permis à un groupe de pirates informatiques d'exfiltrer des données personnelles sur des milliards de personnes. Cette nouvelle violation massive de données a été révélée dans le cadre d'une action collective intentée au début du mois contre National Public Data. La plainte indique que plus de 2,9 milliards de personnes sont concernées.

La plainte a été déposée auprès du tribunal de district des États-Unis pour le district sud de la Floride. Le principal plaignant Christopher Hofmann affirme avoir été alerté par son fournisseur de services de protection contre l'usurpation d'identité que ses données ont été exposées et diffusées sur le dark Web. Le groupe de cybercriminels ASDoD avait mis en vente, pour 3,5 millions de dollars, une base de données contenant les données personnelles des personnes concernées.

Les plaignants accusent National Public Data de négligence, de manquement à l'obligation fiduciaire et au contrat de tiers bénéficiaire, et d'enrichissement sans cause. Hofman réclame une compensation financière et demande à l'entreprise de segmenter les données, d'analyser les bases de données, d'utiliser un système de gestion des menaces et de nommer un évaluateur tiers chargé de procéder à une évaluation de ses cadres de cybersécurité chaque année pendant dix ans.

Il a été demandé au tribunal d'exiger de National Public Data qu'il purge les données personnelles de toutes les personnes concernées et qu'il chiffre toutes les informations collectées à l'avenir. Si cette décision est confirmée, il s'agirait de l'une des plus importantes violations de données jamais survenues (après celle de Yahoo! en 2013 qui a touché trois milliards de clients.). Et l'on ignore toujours comment la violation de données s'est produite.

La collecte massive de données par National Public Data suscite plusieurs préoccupations

Comment une société comme National Public Data peut-elle obtenir les données personnelles de près de 3 milliards de personnes ? La réponse se trouve dans le Web scraping (grattage Web), une technique utilisée par les entreprises pour collecter des données à partir de sites Web et d'autres sources en ligne. Le caractère légal du grattage Web reste flou. Dans l'ensemble, il est illégal selon certains experts. La manière dont National Public Data a procédés est d'autant plus préoccupante que l'entreprise a récupéré des informations personnelles identifiables (PII) de milliards de personnes à partir de sources non publiques.

Par conséquent, un grand nombre des personnes aujourd'hui impliquées dans le recours collectif n'ont pas fourni leurs données personnelles à l'entreprise de leur plein gré. Pire encore, certaines victimes ne savent peut-être même pas qu'elles sont concernées. Il convient de noter qu'en raison du nombre de personnes touchées, les données proviennent probablement à la fois des États-Unis et d'autres pays. Les informations divulguées comprennent : noms et prénoms, adresses anciennes et actuelles, numéros de sécurité sociale ainsi que des informations liées aux membres de la famille et aux proches, vivants ou décédés.

National Public Data n'a pas encore réagi à la plainte, mais la société devra probablement publier une notification de violation de données prochainement, étant donné le désordre dans lequel l'a entraînée l'utilisation de sources non publiques pour obtenir des données. Les propriétaires de ces sources de données non publiques pourraient également décider de poursuivre National Public Data pour exploitation illégale de leurs bases de données et de collecte de données illégale.

De nombreuses questions sur cette violation de données restent encore sans réponse. En attendant, vous devez être prudent lorsque vous consultez votre boîte de réception ou même vos messages, car les cybercriminels utilisent souvent ce type de données pour lancer des attaques d'hameçonnage ciblées. Parallèlement, vous devez surveiller attentivement vos comptes bancaires et autres comptes financiers pour détecter tout signe de fraude ou d'activité suspecte.

Une Cour de justice estime qu'il n'est pas illégal de collecter des données publiques d'un site

HiQ effectue du Web scraping de profils publics des utilisateurs de LinkedIn, puis les utilise pour aider les entreprises à mieux comprendre leurs propres effectifs. Le Web scraping est une technique permettant l'extraction des données d'un site via un programme, un logiciel automatique ou un autre site. L'objectif est donc d'extraire le contenu d'une page d'un site de façon structurée. Le scraping permet ainsi de pouvoir réutiliser ces données.

Après avoir toléré les activités de Web scraping de hiQ pendant plusieurs années, LinkedIn a envoyé à la société une lettre de cessation et d'abstention en 2017 lui demandant de cesser de collecter des données à partir de profils LinkedIn. LinkedIn a notamment fait valoir que hiQ violait la Computer Fraud and Abuse Act, la principale loi antipiratage des États-Unis.

Cela représentait une menace existentielle pour hiQ, car le site Web de LinkedIn est la principale source de données de hiQ sur les employés de ses clients. HiQ a donc poursuivi LinkedIn en justice, cherchant non seulement à déclarer que ses activités de Web scraping ne constituaient pas un piratage, mais également une ordonnance interdisant à LinkedIn d’interférer.

Un tribunal de première instance s’est rangé du côté de hiQ en 2017. Début septembre 2019, la Cour d’appel du 9e circuit a entériné la décision de la juridiction inférieure, estimant que la loi sur la fraude et les abus informatiques ne s’appliquait tout simplement pas aux informations accessibles au grand public.

« La CFAA a été promulguée pour empêcher toute intrusion intentionnelle dans l'ordinateur de quelqu'un d'autre, notamment le piratage informatique », a écrit un panel de trois juges. La cour a noté que lorsque les législateurs débattaient de cette loi, des analogies avec des crimes physiques tels que l'introduction par effraction ont été faites à plusieurs reprises. Du point de vue du neuvième circuit, cela implique que la CFAA ne s’applique qu’aux systèmes d’information ou informatiques qui étaient au départ privés, ce que les propriétaires de sites Web signalent généralement avec un mot de passe.

D'ailleurs en octobre de cette année-là, la 9e Cour d’appel du circuit des États-Unis a confirmé l’injonction préliminaire d’août 2017 exigeant que LinkedIn permette à hiQ Labs Inc d’avoir accès aux profils de membres disponibles au public. La décision à l'unanimité de la cour d’appel de San Francisco a penché en faveur de hiQ sur la question du Web scraping qui, selon les critiques, peut être assimilé à un vol ou à la violation de la vie privée des utilisateurs.

Une activité encadrée

En fonction de la position géographique, les règles ne sont pas nécessairement les mêmes. Dans le droit français, le Web scraping est encadré par l’article L. 342-3 du Code de la propriété intellectuelle, qui autorise les pratiques suivantes :

l'extraction ou la réutilisation d'une partie non substantielle appréciée de façon qualitative ou quantitative, du contenu de la base, par la personne qui y a licitement accès. Cela signifie que le propriétaire du site Web peut limiter le contenu pouvant être collecté de son site, en le précisant dans ses conditions générales d’utilisation ;
l’extraction à des fins privées est autorisée, dans le respect des dispositions législatives et réglementaires en matière de droits d’auteurs et de droits voisins sur les œuvres ou les éléments incorporés dans la base ;
l’extraction et la réutilisation d’une partie substantielle, appréciée de façon qualitative ou quantitative, à des fins exclusives d’illustration dans le cadre de l’enseignement et de la recherche et pour un public composé d’élèves, d’étudiants, d’enseignants ou de chercheurs directement concernés. Ainsi, ce cas de figure étant limité à des fins pédagogiques, il est totalement exclu de faire usage des données extraites à titre commercial par exemple.

Plusieurs sanctions peuvent s’appliquer en cas de violation des règles du Web scraping :

l’article 323-3 du Code pénal punit de 150.000 euros d’amende et cinq d’emprisonnement « le fait d'introduire frauduleusement des données dans un système de traitement automatisé, d'extraire, de détenir, de reproduire, de transmettre, de supprimer ou de modifier frauduleusement les données qu'il contient ». Bien entendu, il faut pouvoir prouver l’intention frauduleuse du Web scraping dans ce cas-là ;
en droit de la concurrence, le Web scraping peut être qualifié d’un acte de concurrence déloyale ou de parasitisme, si les critères de qualification sont remplis. Dans ce cas, le site Web victime pourra intenter une action en responsabilité délictuelle et l’auteur du Web scraping pourra être condamné au paiement de dommages et intérêts ;
l’auteur du Web scraping peut également être sanctionné sur le fondement de la propriété intellectuelle en cas de non-respect de l’article L. 342-3 du Code de la propriété intellectuelle ;
enfin, la CNIL (Commission nationale de l'informatique et des libertés), qui a un pouvoir de contrôle et de sanction en matière de RGPD, peut sanctionner des pratiques de Web scraping litigieuses sur le fondement du non-respect de la protection des données personnelles.

Sources : document de la plainte (PDF), National Public Data

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des pratiques de collecte de données de National Public Data ?

Le Web scraping est-il légal de votre point de vue ? Pourquoi fait-il l'objet d'un débat sans fin ?

Quels sont les risques de cette violation de données pour National Public Data et les personnes concernées ?

Que pensez-vous des demandes des plaignants au tribunal dans le cadre du recours collectif contre National Public Data ?

Y a-t-il des chances que ces demandes soient satisfaites par le tribunal ? Pourquoi ?

Voir aussi

Web scraping, entre liberté d'accès et violation des droits : Ryanair remporte son procès contre Booking.com pour non-respect de la loi sur l'abus informatique aux États-Unis

Une fuite massive expose plus de 26 milliards d'enregistrements et est qualifiée de "mère de toutes les brèches" par les chercheurs, elle comprend des données provenant de Dropbox, LinkedIn, etc.

Le piratage de Ticketmaster touche un demi-milliard de personnes. Il expose 400 millions de cartes de crédit chiffrées, 440 millions d'adresses e-mail uniques et 680 millions de détails de commandes

Vous avez lu gratuitement 48 605 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

L'une des plus grandes violations de données jamais survenues expose les informations sensibles de 2,9 milliards de personnes sur le dark Web,

Et relance le débat sur les préoccupations liées au Web scraping

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

L'une des plus grandes violations de données jamais survenues expose les informations sensibles de 2,9 milliards de personnes sur le dark Web, Et relance le débat sur les préoccupations liées au Web scraping

L'une des plus grandes violations de données jamais survenues expose les informations sensibles de 2,9 milliards de personnes sur le dark Web,

Et relance le débat sur les préoccupations liées au Web scraping