CrowdStrike a publié son analyse des causes racines (RCA) de la mise à jour logicielle défectueuse qui a entraîné une panne mondiale, potentiellement la plus importante de l'histoire, en juillet. Selon les experts, CrowdStrike doit se sentir "très embarrassé" après avoir publié son analyse car il s'agit d'une erreur que les étudiants en programmation de première année apprennent à éviter.Le 19 juillet 2024, une panne informatique mondiale a touché des entreprises, des aéroports et des médias à travers le monde. Microsoft a confirmé qu'elle était consciente de ces problèmes, mais de nombreux experts en cybersécurité ont indiqué que la source potentielle du problème était l'entreprise de cybersécurité CrowdStrike, qui fournit une surveillance et une protection contre les cyberattaques à de nombreuses entreprises de premier plan. Les écrans bleus de la mort ont perturbé le fonctionnement normal des machines Windows, affichant le message : “Recovery: It looks like Windows didn’t load correctly.”
Le 19 juillet, jour de l'écran bleu de la mort (BSOD), environ 8,5 millions de systèmes Windows dans le monde se sont retrouvés en panne à la suite d'une mise à jour du capteur Falcon de CrowdStrike qui s'est mal déroulée. L'entreprise américaine de cybersécurité a publié un rapport préliminaire quelques jours après l'incident. Aujourd'hui, une analyse plus approfondie de 12 pages confirme l'origine du problème : un seul capteur non détecté.
L'accès privilégié de Falcon
CrowdStrike propose des produits de sécurité contre les ransomwares, les malwares et l'internet presque exclusivement aux entreprises et aux grandes organisations. La panne généralisée a été liée à son logiciel de détection Falcon, qui est installé pour détecter les menaces et aider à les bloquer.
Sigi Goode, professeur de systèmes d'information à l'Australian National University, a déclaré que Falcon disposait d'un accès très privilégié. Il se situe au niveau de ce que l'on appelle le noyau de Windows.
« Il est aussi proche que possible du moteur qui alimente le système d'exploitation », a déclaré le professeur Goode. « Le mode kernel observe en permanence ce que vous faites et écoute les requêtes des applications que vous utilisez, et les traite de manière transparente. »
Il a décrit le mode kernel comme la police de la circulation à côté de laquelle Falcon est assis, en disant : « Je n'aime pas l'aspect de ce véhicule, nous devrions y jeter un coup d'œil ».
Le capteur 21 coupable
CrowdStrike met constamment Falcon à jour. Le 19 juillet, l'entreprise a envoyé une mise à jour Rapid Response Content à certains hôtes Windows.
Dans le RCA, CrowdStrike a parlé d'un « incident du canal 291 », au cours duquel une nouvelle capacité a été introduite dans les capteurs de Falcon.
Les capteurs sont comme « une voie d'accès aux preuves », qui indique le type d'activité suspecte à rechercher, a déclaré le professeur Goode. « Falcon examine une série de capteurs - une série d'indicateurs - pour voir si quelque chose ne va pas. »
Lorsque des mises à jour sont envoyées, il modifie l'emplacement ou le nombre de capteurs pour vérifier s'il y a une attaque potentielle.
Dans le cas présent, Falcon s'attendait à ce que la mise à jour comporte 20 champs de saisie, mais elle en comportait 21. Selon CrowdStrike, c'est cette "discordance de comptage" qui a provoqué la panne générale. « L'interpréteur de contenu ne s'attendait qu'à 20 valeurs », indique le rapport RCA. « Par conséquent, la tentative d'accès à la 21e valeur a produit une lecture de la mémoire hors limites au-delà de la fin du tableau de données d'entrée et a entraîné un plantage du système. »
Falcon étant étroitement intégré au cœur de Windows, sa défaillance a entraîné l'arrêt de l'ensemble du système et la survenue d'une panne de système (BSOD).
Le professeur Goode a déclaré que l'une des façons les plus courantes de compromettre un système consistait à inonder la mémoire. Il s'agit essentiellement de dire à l'ordinateur de chercher quelque chose "hors limites".
« Il cherchait quelque chose qui n'existait pas », a-t-il déclaré. « Mais Falcon devait chercher à ce 21e emplacement, parce que c'est ce que lui demandait le nouveau template qu'on lui avait donné ».
Les principales conclusions du rapport d'analyse des causes racines de CrowdStrike sont présentées ci-dessous :
Ce rapport développe les informations précédemment partagées dans notre analyse préliminaire de l'après-incident, en approfondissant les conclusions, les mesures d'atténuation, les détails...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.


C'est dit juste en dessous:
Et comment savoir si ce "partenaire" a ignoré les SDP ? Une fois une panne découverte ? Parce que compter sur la "transparence et la responsabilité", c'est bien beau, mais ça n'êmpéchera pas une nouvelle catastrophe de se produire. 

Quel est votre avis sur le sujet ?