Un acteur de la menace divulgue une base de données de 2,7 milliards d'enregistrements
En avril, le collectif de pirates informatiques USDoD a tenté de vendre sur une place de marché en ligne une base de données de 2,9 milliards d'enregistrements. Il prétendait avoir volé la base de données à National Public Data et qu'elle comprend des informations sur tous les habitants des États-Unis, du Royaume-Uni et du Canada. Le groupe demandait 3,5 millions de dollars pour l'ensemble de la base de données de 4 To, mais depuis lors, diverses entités ont publié gratuitement des morceaux de données sur le forum de pirates informatiques Breached, ce qui a probablement accéléré leur diffusion en ligne.
Il s'agit de l'une des plus grandes violations de données jamais survenues. Les fuites précédentes incluaient des numéros de téléphone et des adresses électroniques, mais il semblerait que ces éléments n'aient pas été inclus dans la dernière fuite, qui est aussi la plus complète. Le 6 août, un acteur connu sous le nom de « Fenice » a diffusé gratuitement la version la plus complète des données volées à National Public Data sur le forum de pirates informatiques Breached.
Toutefois, Fenice affirmé que la violation de données a été menée par un autre acteur de menace nommé "SXUL", plutôt que par USDoD. Les informations divulguées consistent en deux fichiers texte totalisant 277 Go et contenant près de 2,7 milliards d'enregistrements en clair, au lieu des 2,9 milliards communiqués à l'origine par USDoD. Les analystes n'ont pas pu confirmer que la base de données contient des informations personnelles sur chaque personne aux États-Unis.
De nombreuses personnes ont signalé que la fuite incluait leurs informations légitimes et celles des membres de leur famille, y compris ceux qui sont décédés. Chaque enregistrement comprend les informations suivantes : le nom de la personne, son adresse postale et son numéro de sécurité sociale. Mais certains enregistrements contiennent des informations supplémentaires, comme d'autres noms associés à la personne. Aucune de ces données n'est chiffrée.
Il est important de noter qu'une personne pourrait avoir plusieurs enregistrements, un pour chaque adresse où elle a vécu. Cela signifie que la violation de données n'a peut-être pas touché 3 milliards de personnes, comme cela a été précédemment rapporté. Certaines personnes auraient également indiqué que leur numéro de sécurité sociale est associé à d'autres personnes qu'elles ne connaissent pas, de sorte que toutes les informations ne sont probablement pas exactes.
Enfin, ces données peuvent être obsolètes, ce qui pourrait indiquer que les données ont été extraites d'une ancienne sauvegarde. Cette violation de données a donné lieu à de multiples recours collectifs contre Jerico Pictures, qui semble exercer ses activités sous le nom de National Public Data. La plainte allègue que National Public Data a illégalement collecté les informations personnelles des Américains et n'a pas été en mesure de les protéger de manière adéquate.
La collecte massive de données par National Public Data suscite plusieurs préoccupations
Comment une société comme National Public Data peut-elle obtenir les données personnelles d'autant de personnes ? La réponse se trouve dans le Web scraping (grattage Web), une technique utilisée par les entreprises pour collecter des données à partir de sites Web et d'autres sources en ligne. National Public Data se présente comme un fournisseur de données d'archives publiques spécialisé dans la vérification des antécédents et la prévention des fraudes.
L'entreprise explique qu'elle obtient les données à partir de diverses bases de données d'archives publiques, de dossiers judiciaires, de bases de données nationales et d'État et d'autres référentiels. Le mode opératoire consiste à explorer le Web à la recherche de tout type d'information, ce qui signifie que les informations ne sont pas données volontairement à cette entreprise. Le caractère légal du grattage Web reste flou. Dans l'ensemble, il est illégal selon certains experts.
La manière dont National Public Data a procédés est d'autant plus préoccupante que l'entreprise a récupéré des informations personnelles identifiables (PII) de milliards de personnes à partir de sources non publiques. Par conséquent, un grand nombre des personnes aujourd'hui impliquées dans le recours collectif n'ont pas fourni leurs données personnelles à l'entreprise de leur plein gré. Pire encore, certaines victimes ne savent peut-être même pas qu'elles sont concernées.
National Public Data n'a pas réagi à la plainte, mais la société devra probablement publier une notification de violation de données prochainement, étant donné le désordre dans lequel l'a entraînée l'utilisation de sources non publiques pour obtenir des données. Les propriétaires de ces sources de données non publiques pourraient également décider de poursuivre National Public Data pour exploitation illégale de leurs bases de données et de collecte de données illégale.
L'entreprise est accusée de négligence, de manquement à l'obligation fiduciaire et au contrat de tiers bénéficiaire, et d'enrichissement sans cause. Le principal plaignant réclame une compensation financière et demande à l'entreprise de segmenter les données, d'analyser les bases de données, d'utiliser un système de gestion des menaces et de nommer un évaluateur tiers chargé de procéder à une évaluation de ses cadres de cybersécurité chaque année pendant dix ans.
De nombreuses questions sur cette violation de données restent encore sans réponse. En attendant, vous devez être prudent lorsque vous consultez votre boîte de réception ou même vos messages, car les cybercriminels utilisent souvent ce type de données pour lancer des attaques d'hameçonnage ciblées. Parallèlement, vous devez surveiller attentivement vos comptes bancaires et autres comptes financiers pour détecter tout signe de fraude ou d'activité suspecte.
Une Cour de justice estime qu'il n'est pas illégal de collecter des données publiques d'un site
HiQ effectue du Web scraping de profils publics des utilisateurs de LinkedIn, puis les utilise pour aider les entreprises à mieux comprendre leurs propres effectifs. Le Web scraping est une technique permettant l'extraction des données d'un site via un programme, un logiciel automatique ou un autre site. L'objectif est donc d'extraire le contenu d'une page d'un site de façon structurée. Le scraping permet ainsi de pouvoir réutiliser ces données.
Après avoir toléré les activités de Web scraping de hiQ pendant plusieurs années, LinkedIn a envoyé à la société une lettre de cessation et d'abstention en 2017 lui demandant de cesser de collecter des données à partir de profils LinkedIn. LinkedIn a notamment fait valoir que hiQ violait la Computer Fraud and Abuse Act, la principale loi antipiratage des États-Unis.
Cela représentait une menace existentielle pour hiQ, car le site Web de LinkedIn est la principale source de données de hiQ sur les employés de ses clients. HiQ a donc poursuivi LinkedIn en justice, cherchant non seulement à déclarer que ses activités de Web scraping ne constituaient pas un piratage, mais également une ordonnance interdisant à LinkedIn d’interférer.
Un tribunal de première instance s’est rangé du côté de hiQ en 2017. Début septembre 2019, la Cour d’appel du 9e circuit a entériné la décision de la juridiction inférieure, estimant que la loi sur la fraude et les abus informatiques ne s’appliquait tout simplement pas aux informations accessibles au grand public.
« La CFAA a été promulguée pour empêcher toute intrusion intentionnelle dans l'ordinateur de quelqu'un d'autre, notamment le piratage informatique », a écrit un panel de trois juges. La cour a noté que lorsque les législateurs débattaient de cette loi, des analogies avec des crimes physiques tels que l'introduction par effraction ont été faites à plusieurs reprises. Du point de vue du neuvième circuit, cela implique que la CFAA ne s’applique qu’aux systèmes d’information ou informatiques qui étaient au départ privés, ce que les propriétaires de sites Web signalent généralement avec un mot de passe.
D'ailleurs en octobre de cette année-là, la 9e Cour d’appel du circuit des États-Unis a confirmé l’injonction préliminaire d’août 2017 exigeant que LinkedIn permette à hiQ Labs Inc d’avoir accès aux profils de membres disponibles au public. La décision à l'unanimité de la cour d’appel de San Francisco a penché en faveur de hiQ sur la question du Web scraping qui, selon les critiques, peut être assimilé à un vol ou à la violation de la vie privée des utilisateurs.
Une activité encadrée
En fonction de la position géographique, les règles ne sont pas nécessairement les mêmes. Dans le droit français, le Web scraping est encadré par l’article L. 342-3 du Code de la propriété intellectuelle, qui autorise les pratiques suivantes :
l'extraction ou la réutilisation d'une partie non substantielle appréciée de façon qualitative ou quantitative, du contenu de la base, par la personne qui y a licitement accès. Cela signifie que le propriétaire du site Web peut limiter le contenu pouvant être collecté de son site, en le précisant dans ses conditions générales d’utilisation ;
l’extraction à des fins privées est autorisée, dans le respect des dispositions législatives et réglementaires en matière de droits d’auteurs et de droits voisins sur les œuvres ou les éléments incorporés dans la base ;
l’extraction et la réutilisation d’une partie substantielle, appréciée de façon qualitative ou quantitative, à des fins exclusives d’illustration dans le cadre de l’enseignement et de la recherche et pour un public composé d’élèves, d’étudiants, d’enseignants ou de chercheurs directement concernés. Ainsi, ce cas de figure étant limité à des fins pédagogiques, il est totalement exclu de faire usage des données extraites à titre commercial par exemple.
Plusieurs sanctions peuvent s’appliquer en cas de violation des règles du Web scraping :
l’article 323-3 du Code pénal punit de 150.000 euros d’amende et cinq d’emprisonnement « le fait d'introduire frauduleusement des données dans un système de traitement automatisé, d'extraire, de détenir, de reproduire, de transmettre, de supprimer ou de modifier frauduleusement les données qu'il contient ». Bien entendu, il faut pouvoir prouver l’intention frauduleuse du Web scraping dans ce cas-là ;
en droit de la concurrence, le Web scraping peut être qualifié d’un acte de concurrence déloyale ou de parasitisme, si les critères de qualification sont remplis. Dans ce cas, le site Web victime pourra intenter une action en responsabilité délictuelle et l’auteur du Web scraping pourra être condamné au paiement de dommages et intérêts ;
l’auteur du Web scraping peut également être sanctionné sur le fondement de la propriété intellectuelle en cas de non-respect de l’article L. 342-3 du Code de la propriété intellectuelle ;
enfin, la CNIL (Commission nationale de l'informatique et des libertés), qui a un pouvoir de contrôle et de sanction en matière de RGPD, peut sanctionner des pratiques de Web scraping litigieuses sur le fondement du non-respect de la protection des données personnelles.
Sources : document de la plainte (PDF), National Public Data
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous des pratiques de collecte de données de National Public Data ?
Que pensez-vous des risques auxquels il a exposé les personnes dont les données ont été collectées ?
Le Web scraping est-il légal de votre point de vue ? Pourquoi fait-il l'objet d'un débat sans fin ?
Que pensez-vous des demandes des plaignants au tribunal dans le cadre du recours collectif contre National Public Data ?
Y a-t-il des chances que ces demandes soient satisfaites par le tribunal ? Pourquoi ?
Voir aussi
L'une des plus grandes violations de données jamais survenues expose les informations sensibles de 2,9 milliards de personnes sur le dark Web, et relance le débat sur les préoccupations liées au Web scraping
Web scraping, entre liberté d'accès et violation des droits : Ryanair remporte son procès contre Booking.com pour non respect de la loi sur l'abus informatique aux États-Unis
Une fuite massive expose plus de 26 milliards d'enregistrements et est qualifiée de "mère de toutes les brèches" par les chercheurs, elle comprend des données provenant de Dropbox, LinkedIn, etc.