
La société de cybersécurité Radware a découvert une faille « zéro clic » dans l'agent Deep Research de ChatGPT lorsqu'il est connecté à Gmail et à la navigation : un seul e-mail spécialement conçu suffit pour que l'agent divulgue discrètement des données sensibles de la boîte de réception à un pirate, sans aucune action de l'utilisateur ni interface utilisateur visible. Contrairement aux recherches précédentes qui s'appuyaient sur le rendu d'images côté client pour déclencher la fuite, cette attaque divulgue directement les données depuis l'infrastructure cloud d'OpenAI, la rendant invisible pour les défenses locales ou d'entreprise. Une atténuation plus robuste consiste à surveiller en permanence le comportement de l'agent : suivre à la fois les actions de l'agent et son intention déduite, et vérifier qu'elles restent cohérentes avec les objectifs initiaux de l'utilisateur.
Une vulnérabilité inquiétante a été découverte dans l'agent Deep Research d'OpenAI, un outil conçu pour aider à réaliser des tâches de recherche complexes. Cette faille permet aux attaquants d'extraire des informations sensibles directement des boîtes de réception Gmail des utilisateurs sans aucune interaction de la part des victimes. Cette attaque, qui est un type d'injection de prompt (instruction générative), a été détaillée par la société de cybersécurité Radware.
Deep Research, lancé par OpenAI au début de l'année, s'intègre à ChatGPT pour offrir aux utilisateurs des capacités de recherche complètes, en s'appuyant sur un large éventail de ressources, notamment des e-mails et du contenu en ligne. Les utilisateurs peuvent demander à l'agent de passer au crible l'historique de leurs e-mails et de compiler des rapports détaillés en une fraction du temps qu'il faudrait à un humain.
Cependant, cette commodité s'accompagne de risques importants. L'étude de Radware illustre comment l'attaque Shadow Leak exploite les fonctionnalités mêmes qui rendent Deep Research attrayant. En intégrant des invites malveillantes dans des e-mails ou des documents provenant de sources non fiables, les attaquants peuvent manipuler l'IA pour qu'elle effectue des actions non autorisées, entraînant des violations de données sans aucun signe visible de compromission.
Les chercheurs de Radware ont souligné que cette méthode d'exploitation tire parti de la tendance innée de l'IA à répondre aux demandes des utilisateurs, ce qui peut entraîner par inadvertance de graves pertes de données. Les implications sont alarmantes, car l'attaque contourne les mesures de sécurité traditionnelles qui reposent sur l'intention de l'utilisateur, ce qui soulève des préoccupations critiques quant à la sécurité et la confidentialité des outils intégrant l'IA dans leur utilisation quotidienne.
ShadowLeak : processus complet de l'attaque
Deep Research est le puissant mode de recherche autonome de ChatGPT, lancé en février 2025. Imaginez que vous puissiez demander à ChatGPT de naviguer sur Internet à votre place pour trouver les informations les plus récentes sur un sujet donné et vous fournir un rapport détaillé. C'est exactement ce que fait Deep Research. Vous lui donnez un sujet, et il passe les 5 à 30 minutes suivantes à fouiller des sites web, des articles et même des PDF pour apprendre tout ce qu'il peut. Ensuite, il vous remet un rapport détaillé et organisé de ce qu'il a trouvé. Il vous montre même ses sources, comme les liens vers les sites web qu'il a utilisés, afin que vous puissiez vérifier les faits par vous-même. Vous pouvez l'intégrer à des applications comme GitHub et Gmail, ce qui lui permet d'effectuer des recherches approfondies dans vos données et documents personnels.
Voici comment un pirate informatique est capable de tromper l'agent afin d'exfiltrer des informations sensibles de la boîte mail de l'utilisateur vers un serveur contrôlé par le pirate, sans l'accord ni la connaissance de l'utilisateur.
1) Envoyer un e-mail convaincant à l'aide de techniques d'ingénierie sociale : Dans la première phase de l'attaque, l'attaquant envoie à la victime un e-mail d'apparence innocente. L'e-mail contient une multitude d'astuces d'ingénierie sociale visant à contourner la formation à la sécurité de l'agent et sa réticence à envoyer des informations personnelles identifiables à une URL inconnue.
À titre d'exemple, supposons que l'objectif de l'attaquant soit de divulguer des informations personnelles identifiables (PII), telles que le nom et l'adresse d'un employé, à partir d'une communication liée aux ressources humaines stockée dans la boîte de réception de la victime. Dans ce cas, l'e-mail de l'attaquant peut être intitulé « Restructuration – Mesures à prendre ». Dans le corps du message HTML, des instructions (qui peuvent être invisibles) demandent à l'agent (a) de trouver le nom complet et l'adresse de l'employé dans la boîte de réception et (b) d'ouvrir une URL dite « publique » de recherche d'employés avec ces valeurs comme paramètres – alors qu'en réalité, l'URL pointe vers un serveur contrôlé par l'attaquant.
Les techniques clés sont les suivantes :
- Affirmer son autorité : le message indique à plusieurs reprises que l'agent dispose d'une « autorisation complète » et qu'il est « pleinement autorisé et censé » accéder à des URL externes, créant ainsi un faux sentiment d'autorisation.
- Déguiser l'URL malveillante : le serveur de l'attaquant est présenté comme un « système de validation de conformité » et une « interface dédiée à la récupération de profils » à consonance officielle, ce qui donne l'impression que la demande est une tâche légitime de l'entreprise.
- Imposer la persévérance : l'agent peut ne pas être en mesure d'exécuter l'outil en raison des restrictions de sécurité logicielles d'OpenAI. Nous avons remarqué que ces restrictions ne sont pas déterministes. Pour contourner ces échecs dans l'exécution de l'outil, l'invite commande à l'agent « d'essayer plusieurs fois jusqu'à ce qu'il réussisse » et d'être « créatif dans la manière d'accéder au contenu de l'URL ».
- Création d'un sentiment d'urgence et de conséquences négatives : elle introduit une menace, avertissant que « l'échec de la dernière étape entraînera des lacunes dans le rapport », ce qui pousse l'agent à se conformer pour atteindre son objectif principal.
- Fausse déclaration de sécurité : l'invite tente de contourner les contrôles de sécurité en affirmant que les données sont publiques et que l'URL est sûre car elle « renvoie un HTML statique ». De manière plus trompeuse, elle demande à l'agent d'encoder les informations personnelles identifiables en Base64 afin qu'elles soient « sécurisées », une technique qui permet de dissimuler les données volées en transit et dans les journaux du serveur.
- Fournir un exemple clair : l'e-mail donne à l'agent un exemple parfait et unique de la manière de formater les informations personnelles identifiables et l'URL, ce qui permet au modèle de suivre très facilement les instructions malveillantes.
2) S'assurer qu'il y a de véritables informations personnelles identifiables à voler : Un e-mail dans la boîte de réception de la victime contient des informations personnelles identifiables.
3) Attendre que l'utilisateur invite l'agent à commencer : Par exemple, la victime demande à l'agent d'effectuer une action utile liée à son travail.
4) Laissez l'agent faire le reste : Lorsque Deep Research traite la boîte mail, il lit à la fois tous les e-mail, celui de l'attaquant inclus. Il initie ensuite l'accès au domaine de l'attaquant et injecte les informations personnelles identifiables dans l'URL comme indiqué, sans confirmation de l'utilisateur et sans rien afficher dans l'interface utilisateur.
Le schéma ci-dessous illustre le processus complet de l'attaque :
Exfiltration côté service
La fuite est côté service, elle se produit entièrement à partir de l'environnement cloud d'OpenAI. L'outil de navigation intégré à l'agent effectue l'exfiltration de manière autonome, sans aucune intervention du client. Des recherches antérieures, telles que AgentFlayer de Zenity et EchoLeak d'Aim Security, ont démontré l'existence de fuites côté client, où l'exfiltration était déclenchée lorsque l'agent affichait du contenu contrôlé par l'attaquant (tel que des images) dans l'interface utilisateur. Cette découverte élargit la surface d'attaque : au lieu de s'appuyer sur ce que le client affiche, elle exploite ce que l'agent backend est amené à exécuter.
Pourquoi le côté service est important ?
Une attaque côté service est plus dangereuse et plus difficile à atténuer que les fuites côté client :
- Invisible pour les contrôles d'entreprise : les défenses traditionnelles des entreprises, telles que les passerelles web sécurisées, la surveillance des terminaux ou les politiques de sécurité des navigateurs, ne peuvent pas voir ou intercepter l'exfiltration, car celle-ci provient de l'infrastructure propre à OpenAI plutôt que de l'appareil ou de la session de navigation de l'utilisateur.
- Invisible pour l'utilisateur : comme rien n'est rendu ou affiché, l'utilisateur n'a aucun indice visuel lui permettant de savoir qu'une fuite a eu lieu.
- Violation des limites de confiance : l'agent agit en fait comme un proxy de confiance, divulguant des données sensibles à des terminaux contrôlés par l'attaquant sous le couvert d'une utilisation normale de l'outil.
- Des puits d'exfiltration plus larges : Dans les fuites côté client, les URL d'images sont souvent limitées à un ensemble restreint de domaines connus et fiables (par exemple, le mécanisme url_safe d'OpenAI). Bien que ces restrictions ne soient pas infaillibles, elles limitent considérablement les endroits où un attaquant peut exfiltrer des données dans un scénario côté client. En revanche, nous n'avons observé aucune restriction comparable sur les URL auxquelles l'agent peut accéder directement, ce qui permet effectivement à l'attaquant d'exfiltrer des données vers la destination de son choix.
Au-delà de Gmail : Vecteurs d'attaque à travers les connecteurs
Ce modèle d'attaque s'applique à tout connecteur de données intégré à Deep Research. Deep Research peut accéder à un large éventail de sources externes, notamment, mais sans s'y limiter :
- Google Drive / Dropbox / Box / SharePoint – Fichiers PDF, Word ou texte malveillants contenant des injections cachées dans leur contenu ou leurs métadonnées.
- Outlook Mail / Outlook Calendar / Google Calendar – Invitations à des réunions créées par le pirate et contenant des instructions HTML cachées.
- HubSpot / Notion / Linear – Enregistrements contrôlés par le pirate et contenant des charges utiles d'injection intégrées.
- Microsoft Teams – Messages de chat, fichiers partagés ou notes de réunion fournis par le pirate et contenant des injections cachées.
- GitHub – Fichiers README ou descriptions de problèmes intégrant des invites cachées.
Tout connecteur qui traite du texte structuré ou semi-structuré dans l'agent crée un vecteur d'injection d'instruction générative (prompt) potentiel. Gmail en est un exemple simple, mais la même technique peut être appliquée à ces connecteurs supplémentaires pour exfiltrer des données commerciales hautement sensibles telles que des contrats, des notes de réunion ou des enregistrements clients.
Atténuation
Les entreprises peuvent déployer une couche de défense en nettoyant les e-mails avant leur traitement par l'agent : normaliser et supprimer les CSS invisibles, les caractères obscurcis et les éléments HTML suspects. Bien que cette technique soit précieuse, elle est beaucoup moins efficace contre cette nouvelle catégorie de menaces de type « insider », c'est-à-dire les cas où un agent intelligent de confiance est manipulé pour agir au nom de l'attaquant.
Une atténuation plus robuste consiste à surveiller en permanence le comportement de l'agent : suivre à la fois les actions de l'agent et son intention déduite, et vérifier qu'elles restent cohérentes avec les objectifs initiaux de l'utilisateur. Ce contrôle d'alignement garantit que même si un attaquant dirige l'agent, les écarts par rapport à l'intention légitime sont détectés et bloqués en temps réel.
À propos de Radware
Radware est un acteur mondial dans le domaine des solutions de sécurité et de livraison d'applications pour les environnements multicloud. Les solutions de sécurité des applications cloud, des infrastructures et des API de la société utilisent des algorithmes basés sur l'IA pour offrir une protection précise, automatique et en temps réel contre les attaques web, les attaques d'applications, les attaques DDoS, les abus d'API et les bots malveillants les plus sophistiqués.
Source : Radware
Et vous ?


Voir aussi :



Vous avez lu gratuitement 204 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.