Un agrégat de données de 16 milliards d'identifiants de connexion provenant de fuites antérieures a été divulgué en ligne,

La CNIL confirme qu'il n'y a pas de nouvelle brèche, mais alerte sur les risques

Le 23 juin 2025 à 10:59, par Mathis Lucas

160PARTAGES

Seize milliards d'identifiants de connexion compilés dans plusieurs ensembles de données ont été divulgués en ligne. Cette base de données énorme a suscité un emballement médiatique, certaines sources affirmant qu'elle donne aux criminels un « accès sans précédent » aux comptes des utilisateurs d'une série de plateformes populaire, notamment Google, Facebook et Apple. Mais cet ensemble de données serait constitué d'une agglomération de différentes fuites de données passées. Cela signifie qu'il ne s'agit pas d'une fuite de données nouvelle. Il peut néanmoins accentuer les risques cybernétiques auxquels tous les utilisateurs de services en ligne sont déjà exposés.

L'équipe de recherche de Cybernews a rapporté avoir découvert plusieurs ensembles de données supermassifs, contenant des identifiants de connexion. Leur enquête, en cours depuis le début de l'année 2025, a permis d'identifier 30 ensembles de données distincts, chacun contenant des millions d'enregistrements volés. Selon l'équipe, nombre de ces ensembles de données étaient auparavant inconnus, ce qui ajoute à la gravité de cette découverte.

Au total, l'équipe a découvert 16 milliards d'enregistrements. Des médias sociaux aux plateformes d'entreprise en passant par les VPN et les portails de développeurs, rien n'a été épargné. La collection serait l'œuvre de plusieurs maliciels de vol d'informations, appelés « infostealers ». Ces programmes, une fois installés sur un ordinateur, aspirent tous les identifiants stockés dans les navigateurs ou applications, puis les transmettent à des cybercriminels.

Dans un article exposant les détails de sa découverte, l'équipe explique : « les ensembles de données n'ont été exposés que brièvement : suffisamment longtemps pour que les chercheurs puissent les découvrir, mais pas assez longtemps pour savoir qui contrôlait les vastes quantités de données ». La plupart des ensembles de données étaient temporairement accessibles par l'intermédiaire d'instances Elasticsearch ou de stockage d'objets non sécurisées.

Mais derrière les gros titres, la réalité est moins spectaculaire. Cet agrégat de données n'est pas une nouvelle brèche. Les 16 milliards d'identifiants et mots de passe divulgués résultent en effet de la somme de plusieurs bases de données piratées au fil des années et rassemblées en une seule. On y trouve des données volées depuis plus de dix ans. Toutefois, la Commission nationale de l’informatique et des libertés (CNIL) met en garde contre les risques.

Selon le Dr. Martin J. Kraemer, chercheur en cybersécurité chez KnowBe4, il s'agit d'une pratique courante : « on retrouve souvent sur le dark Web des bases de données déjà fait l'objet de fuite par le passé. Les hackers tentent de revendre des données qui ont moins de valeur ».

Les experts accusent les médias d’avoir surjoué la menace

La CNIL a confirmé qu’il n’y avait pas de violation récente d’une plateforme en ligne ou d’un service cloud en particulier : il s’agit juste de données anciennes réassemblées. Certains experts en cybersécurité dénoncent un discours alarmiste destiné à faire peur au public plus qu’à informer. Ils accusent certains médias d’avoir surjoué la menace en évoquant un chiffre spectaculaire (16 milliards) sans expliquer qu’il ne s’agissait pas de nouveaux piratages.

Selon Martin J. Kraemer, chercheur en cybersécurité chez KnowBe4, il s'agit d'une pratique courante. « On retrouve souvent sur le dark Web des bases de données déjà qui déjà fait l'objet de fuite. Les pirates tentent de revendre des données qui ont moins de valeur », a-t-il déclaré. Benoît Grünemwald, expert en cybersécurité du fabricant de solutions antivirus ESET, ajoute : « ce n’est pas une fuite, c’est un agrégat de différentes fuites antérieures ».

Pour les experts en cybersécurité, ce type d’alerte massive pose un vrai problème : la lassitude. Selon Benoît Grünemwald : « trop d’alertes tuent l’alerte. C’est comme crier au loup alors qu’il n’y a pas de loup ». À force de multiplier les annonces anxiogènes, on finit par désensibiliser le public, qui ne sait plus quand il doit vraiment s’inquiéter. Ce qui pourrait avoir des conséquences dangereuses. Certains experts évoquent un marketing de la peur.

« Quand on met tous les mots-clés, GAFA, intelligence artificielle, etc., c’est gagnant pour la visibilité, perdant pour la sensibilisation réelle. On est dans le marketing de la peur, et ça ne fonctionne pas. On va se retrouver avec des comportements disproportionnés par rapport à la réalité », affirme Benoît Grünemwald. Néanmoins, derrière la tactique médiatique, le message reste utile : il invite les utilisateurs à être proactifs dans leur protection numérique.

Que contiennent les milliards d'enregistrements exposés ?

La plupart des données contenues dans les ensembles de données divulgués sont un mélange de détails provenant de maliciels de vol d'informations, de jeux d'identifiants issus d'attaques de credential stuffing et de fuites déjà connues reconditionnées. Il n'a pas été possible de comparer efficacement les données entre les différents jeux de données, mais selon l'équipe, il y a probablement des enregistrements qui se chevauchent.

En d'autres termes, il est impossible de savoir combien de personnes ou de comptes ont été réellement exposés. Toutefois, les informations que l'équipe a réussi à rassembler ont révélé que la plupart d'entre elles suivaient une structure claire : URL, suivi des détails de connexion et d'un mot de passe.

Les ensembles de données découverts par l'équipe sont très différents les uns des autres. Par exemple, le plus petit, nommé d'après un logiciel malveillant, comptait plus de 16 millions d'enregistrements. Quant au plus grand, probablement lié à la population lusophone, il comptait plus de 3,5 milliards d'enregistrements. En moyenne, un ensemble de données contenant des informations d'identification exposées comptait 550 millions d'enregistrements.

Certains des ensembles de données portaient des noms génériques,...

La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Un agrégat de données de 16 milliards d'identifiants de connexion provenant de fuites antérieures a été divulgué en ligne,

La CNIL confirme qu'il n'y a pas de nouvelle brèche, mais alerte sur les risques

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Un agrégat de données de 16 milliards d'identifiants de connexion provenant de fuites antérieures a été divulgué en ligne, La CNIL confirme qu'il n'y a pas de nouvelle brèche, mais alerte sur les risques

Un agrégat de données de 16 milliards d'identifiants de connexion provenant de fuites antérieures a été divulgué en ligne,

La CNIL confirme qu'il n'y a pas de nouvelle brèche, mais alerte sur les risques