Un agrégat de données de 16 milliards d'identifiants de connexion provenant de fuites antérieures a été divulgué en ligne,

La CNIL confirme qu'il n'y a pas de nouvelle brèche, mais alerte sur les risques

Le 23 juin 2025 à 10:59, par Mathis Lucas

275PARTAGES

Un agrégat de données de 16 milliards d'identifiants de connexion provenant de fuites antérieures a été divulgué en ligne
la CNIL confirme qu'il n'y a pas de nouvelle brèche, mais alerte sur les risques

Seize milliards d'identifiants de connexion compilés dans plusieurs ensembles de données ont été divulgués en ligne. Cette base de données énorme a suscité un emballement médiatique, certaines sources affirmant qu'elle donne aux criminels un « accès sans précédent » aux comptes des utilisateurs d'une série de plateformes populaire, notamment Google, Facebook et Apple. Mais cet ensemble de données serait constitué d'une agglomération de différentes fuites de données passées. Cela signifie qu'il ne s'agit pas d'une fuite de données nouvelle. Il peut néanmoins accentuer les risques cybernétiques auxquels tous les utilisateurs de services en ligne sont déjà exposés.

L'équipe de recherche de Cybernews a rapporté avoir découvert plusieurs ensembles de données supermassifs, contenant des identifiants de connexion. Leur enquête, en cours depuis le début de l'année 2025, a permis d'identifier 30 ensembles de données distincts, chacun contenant des millions d'enregistrements volés. Selon l'équipe, nombre de ces ensembles de données étaient auparavant inconnus, ce qui ajoute à la gravité de cette découverte.

Au total, l'équipe a découvert 16 milliards d'enregistrements. Des médias sociaux aux plateformes d'entreprise en passant par les VPN et les portails de développeurs, rien n'a été épargné. La collection serait l'œuvre de plusieurs maliciels de vol d'informations, appelés « infostealers ». Ces programmes, une fois installés sur un ordinateur, aspirent tous les identifiants stockés dans les navigateurs ou applications, puis les transmettent à des cybercriminels.

Dans un article exposant les détails de sa découverte, l'équipe explique : « les ensembles de données n'ont été exposés que brièvement : suffisamment longtemps pour que les chercheurs puissent les découvrir, mais pas assez longtemps pour savoir qui contrôlait les vastes quantités de données ». La plupart des ensembles de données étaient temporairement accessibles par l'intermédiaire d'instances Elasticsearch ou de stockage d'objets non sécurisées.

Mais derrière les gros titres, la réalité est moins spectaculaire. Cet agrégat de données n'est pas une nouvelle brèche. Les 16 milliards d'identifiants et mots de passe divulgués résultent en effet de la somme de plusieurs bases de données piratées au fil des années et rassemblées en une seule. On y trouve des données volées depuis plus de dix ans. Toutefois, la Commission nationale de l’informatique et des libertés (CNIL) met en garde contre les risques.

Selon le Dr. Martin J. Kraemer, chercheur en cybersécurité chez KnowBe4, il s'agit d'une pratique courante : « on retrouve souvent sur le dark Web des bases de données déjà fait l'objet de fuite par le passé. Les hackers tentent de revendre des données qui ont moins de valeur ».

Les experts accusent les médias d’avoir surjoué la menace

La CNIL a confirmé qu’il n’y avait pas de violation récente d’une plateforme en ligne ou d’un service cloud en particulier : il s’agit juste de données anciennes réassemblées. Certains experts en cybersécurité dénoncent un discours alarmiste destiné à faire peur au public plus qu’à informer. Ils accusent certains médias d’avoir surjoué la menace en évoquant un chiffre spectaculaire (16 milliards) sans expliquer qu’il ne s’agissait pas de nouveaux piratages.

Selon Martin J. Kraemer, chercheur en cybersécurité chez KnowBe4, il s'agit d'une pratique courante. « On retrouve souvent sur le dark Web des bases de données déjà qui déjà fait l'objet de fuite. Les pirates tentent de revendre des données qui ont moins de valeur », a-t-il déclaré. Benoît Grünemwald, expert en cybersécurité du fabricant de solutions antivirus ESET, ajoute : « ce n’est pas une fuite, c’est un agrégat de différentes fuites antérieures ».

Pour les experts en cybersécurité, ce type d’alerte massive pose un vrai problème : la lassitude. Selon Benoît Grünemwald : « trop d’alertes tuent l’alerte. C’est comme crier au loup alors qu’il n’y a pas de loup ». À force de multiplier les annonces anxiogènes, on finit par désensibiliser le public, qui ne sait plus quand il doit vraiment s’inquiéter. Ce qui pourrait avoir des conséquences dangereuses. Certains experts évoquent un marketing de la peur.

« Quand on met tous les mots-clés, GAFA, intelligence artificielle, etc., c’est gagnant pour la visibilité, perdant pour la sensibilisation réelle. On est dans le marketing de la peur, et ça ne fonctionne pas. On va se retrouver avec des comportements disproportionnés par rapport à la réalité », affirme Benoît Grünemwald. Néanmoins, derrière la tactique médiatique, le message reste utile : il invite les utilisateurs à être proactifs dans leur protection numérique.

Que contiennent les milliards d'enregistrements exposés ?

La plupart des données contenues dans les ensembles de données divulgués sont un mélange de détails provenant de maliciels de vol d'informations, de jeux d'identifiants issus d'attaques de credential stuffing et de fuites déjà connues reconditionnées. Il n'a pas été possible de comparer efficacement les données entre les différents jeux de données, mais selon l'équipe, il y a probablement des enregistrements qui se chevauchent.

En d'autres termes, il est impossible de savoir combien de personnes ou de comptes ont été réellement exposés. Toutefois, les informations que l'équipe a réussi à rassembler ont révélé que la plupart d'entre elles suivaient une structure claire : URL, suivi des détails de connexion et d'un mot de passe.

Les ensembles de données découverts par l'équipe sont très différents les uns des autres. Par exemple, le plus petit, nommé d'après un logiciel malveillant, comptait plus de 16 millions d'enregistrements. Quant au plus grand, probablement lié à la population lusophone, il comptait plus de 3,5 milliards d'enregistrements. En moyenne, un ensemble de données contenant des informations d'identification exposées comptait 550 millions d'enregistrements.

Certains des ensembles de données portaient des noms génériques, tels que « logins », « credentials » et autres termes similaires, ce qui a empêché l'équipe de mieux comprendre ce qu'ils contenaient. D'autres, en revanche, laissaient entrevoir les services auxquels ils étaient liés. Par exemple, selon l'équipe, un ensemble de données comprenant plus de 455 millions d'enregistrements a été nommé pour indiquer qu'il provenait de la Fédération de Russie.

Un autre ensemble de données, comptant plus de 60 millions d'enregistrements, a été nommé d'après Telegram. Bien que la dénomination ne soit pas le meilleur moyen de déduire l'origine des données, il semble que certaines de ces informations concernent des services cloud, des données commerciales et même des fichiers verrouillés. Certains noms d'ensembles de données renvoient probablement à une forme de logiciel malveillant utilisé pour collecter les données.

Les impacts potentiels sur les pratiques des utilisateurs

Selon Benoît Grünemwald, l’emballement médiatique n’a pas eu que de mauvais effets : « le grand public peut se dire "Wôw, grosse fuite de données", et changer ses mots de passe. Finalement, l’objectif est atteint, pas de la bonne manière, mais il l’est ». Selon la CNIL, l’existence d’une base de données aussi massive d’identifiants ne change pas la nature des risques cybernétiques auxquels tous les utilisateurs de services en ligne sont déjà exposés.

Elle peut toutefois les accentuer. En effet, elle est susceptible de faciliter le travail des acteurs malveillants qui souhaitent attaquer un site ou usurper des comptes en essayant toutes les combinaisons connues, profitant du fait que beaucoup de personnes continuent d’utiliser les mêmes mots de passe et identifiants sur plusieurs services en ligne. Afin de limiter ces risques, la CNIL appelle les utilisateurs à adopter quelques gestes simples :

soyez vigilants à l’activité de vos comptes les plus importants (service de mail, espaces personnels sur des sites publics, site de e-commerce, etc.) :
- la plupart de ces services vous avertissent, souvent par mail, lorsque des connexions inhabituelles se produisent sur votre compte : soyez attentifs à de tels messages ;
- plus généralement, soyez attentifs aux notifications que vous pourriez recevoir de sites en ligne (notification changement de mot de passe, d’adresse, de RIB, etc.).
  
  en cas d’événement suspect ou de doute, changez vos mots de passe pour les comptes concernés :
- en privilégiant des mots de passe forts ;
- en priorisant les services les plus importants (courriel, impôts, banques, sites de commerce en ligne, etc.) ;
évitez d’utiliser le même mot de passe pour différents services et conservez-les dans un gestionnaire de mots de passe ;
pour les services les plus importants et de confiance (mail, compte bancaire, etc.), utilisez l’authentification multifactorielle quand elle vous est proposée (idéalement via une application dédiée sur votre téléphone ou, alternativement via, l’envoi d’un code à usage unique sur votre téléphone pour valider une connexion).
- certains services vous proposent de reconnaître un de vos appareils comme étant « de confiance », ce qui ne remplace pas une authentification multifacteur, mais peut contribuer à vous protéger.

Les données divulguées pourraient exposer certains utilisateurs

Avec un ensemble de données contenant 16 milliards de mots de passe, cela équivaut à deux fuites de comptes pour chaque personne sur la planète. L'équipe de Cybernews n'a pas pu déterminer le nombre de doublons dans cet agrégat de données. Mais elle souligne que des informations publiées par d'autres médias peuvent être trompeuses. Certains prétendent que les informations d'identification de Facebook, Google et Apple ont fait l'objet d'une fuite.

« Bien que nous ne puissions pas rejeter complètement ces affirmations, nous pensons qu'elles sont quelque peu inexactes », a déclaré l'équipe. Bob Diachenko, chercheur en cybersécurité et propriétaire de SecurityDiscovery.com, a déclaré : « il n'y a pas eu de violation de données centralisée dans aucune de ces entreprises ». Mais cela ne signifie pas qu'aucun des identifiants de connexion n'a fait l'objet d'une violation et n'a été divulgué sur le dark Web.

Selon Bob Diachenko, les informations d'identification examinées comprennent des URL de Facebook, Google, Apple, Github, Zoom, Twitch et d'autres pages de connexion. L'équipe affirme que cela signifie que les informations divulguées ouvrent les portes de pratiquement tous les services en ligne imaginables.

Les fuites de données deviennent de plus en plus fréquentes

Selon Cybernews, la plupart des ensembles de données étaient temporairement accessibles par l'intermédiaire d'instances Elasticsearch ou de stockage d'objets non sécurisées. Ce rapport intervient dans un contexte marqué par une vague d'attaques cybernétiques, qui sont devenues plus sophistiquées ces dernières années. Deux assureurs, Erie Insurance et Philadelphia Insurance Companies, ont annoncé que leurs réseaux avaient été piratés début juin.

Récemment, Aflac a déclaré que des pirates informatiques avaient accédé aux informations personnelles de ses clients lors d'une attaque cybernétique. En mars, un rapport a signalé qu'Oracle a subi deux violations distinctes de données qui ont exposé les informations personnelles de milliers de clients.

Les fuites de données importantes, avec des milliards d'enregistrements exposés, sont devenues presque omniprésentes. Récemment, Cybernews a publié un article sur ce qui est probablement la plus grande fuite de données jamais enregistrée en Chine : des milliards de documents contenant des informations financières, des informations sur les superapplications populaires WeChat et Alipay, ainsi que d'autres informations personnelles sensibles.

En 2021, une compilation similaire contenant plus de 8 milliards d'enregistrements a fait l'objet d'une fuite en ligne. À l'été 2024, la plus grande compilation de mots de passe, RockYou2024, avec près de dix milliards de mots de passe uniques, a fait l'objet d'une fuite sur un forum de piratage populaire. Début 2024, l'équipe de recherche de Cybernews a découvert ce qui reste probablement la plus grande fuite de données de tous les temps.

Cette fuite a été baptisée « Mother of All Breaches » (MOAB) et comprenait un nombre stupéfiant de 26 milliards d'enregistrements. Toujours en 2024, une personne non identifiée a divulgué la plus grande compilation de mots de passe jamais réalisée, avec près de dix milliards de mots de passe uniques publiés en ligne. De telles fuites constituent une menace sérieuse pour les personnes qui ont tendance à réutiliser leurs mots de passe.

Conclusion

La divulgation d'une base de données gigantesque de 16 milliards d'identifiants de connexion représente une fuite de données importante. Bien que les ensembles de données qui composent cet agrégat ne sont pas liés à une nouvelle fuite de données, ils pourraient exposer certains utilisateurs de services cloud et gouvernementaux. La base de données pourrait faciliter les campagnes d'hameçonnage, les prises de contrôle de comptes, et bien d'autres.

« L'inclusion de journaux anciens et récents - souvent avec des jetons, des cookies et des métadonnées - rend ces données particulièrement dangereuses pour les organisations qui n'ont pas d'authentification multifactorielle ou de pratiques d'hygiène en matière d'informations d'identification », a déclaré l'équipe. Par ailleurs, l'actualité montre comment de grands chiffres peuvent être utilisés pour provoquer l’émotion, plutôt que d’apporter des informations nuancées.

Source : CNIL, Cybernews

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de l'ampleur de cette fuite de données ? Qu'est-ce que cela signifie pour les internautes ?

Selon vous, pourquoi les fuites de données massives deviennent de plus en plus fréquentes ?

Voir aussi

L'une des plus grandes violations de données jamais survenues expose les informations sensibles de 2,9 milliards de personnes sur le dark Web, et relance le débat sur les préoccupations liées au Web scraping

Oracle a caché une grave violation de données à ses clients et un cybercriminel les a mises en vente, l'entreprise a nié l'attaque, mais des chercheurs ont conclu que la violation de données était réelle

95 % des organisations subissent des violations du cloud et 29 % déclarent en avoir subi un préjudice important, la sécurité des identités et des autorisations, et la pénurie de compétences en sont la cause

Vous avez lu gratuitement 10 596 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Un agrégat de données de 16 milliards d'identifiants de connexion provenant de fuites antérieures a été divulgué en ligne,

La CNIL confirme qu'il n'y a pas de nouvelle brèche, mais alerte sur les risques

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Un agrégat de données de 16 milliards d'identifiants de connexion provenant de fuites antérieures a été divulgué en ligne, La CNIL confirme qu'il n'y a pas de nouvelle brèche, mais alerte sur les risques

Un agrégat de données de 16 milliards d'identifiants de connexion provenant de fuites antérieures a été divulgué en ligne,

La CNIL confirme qu'il n'y a pas de nouvelle brèche, mais alerte sur les risques