Claude Cowork, l'agent d'intelligence artificielle (IA) d'Anthropic, serait vulnérable aux attaques d'exfiltration de fichiers par injection de prompt indirecte, résultant d'une faille d'isolation précédemment divulguée, mais non résolue. Les chercheurs de PromptArmor ont démontré qu'il était possible pour les pirates informatiques de dissimuler des instructions malveillantes dans des documents téléchargés, incitant ainsi Cowork à transmettre des fichiers locaux au compte Anthropic de l'attaquant, sans l'accord de l'utilisateur. Cette faille permet de contourner les restrictions réseau en abusant de l'accès fiable à l'API d'Anthropic, ce qui peut exposer des données financières sensibles et des informations personnelles. Anthropic PBC est une entreprise américaine spécialisée dans l'IA fondée en 2021. Elle a développé une famille de grands modèles de langage (LLM) baptisée Claude. L'entreprise mène des recherches et développe des IA afin d'« étudier leurs propriétés de sécurité à la frontière technologique » et utilise ces recherches pour déployer des modèles sûrs pour le public.
Claude est une série de grands modèles de langage développés par Anthropic. Le premier modèle, Claude 1, a été lancé en mars 2023, et le dernier, Claude Opus 4.5, en novembre 2025. Les données d'entraînement de ces modèles proviennent de sources telles que des textes trouvés sur Internet, des données fournies par des prestataires rémunérés et des utilisateurs de Claude.
Cette vulnérabilité apparaît alors qu’Anthropic vient de lancer Cowork, la nouvelle évolution de Claude Code en agent IA polyvalent et généraliste. Disponible en avant-première depuis le 12 janvier 2026 pour les abonnés Claude Max sur macOS, Cowork permet à Claude d'accéder à un dossier local de l'ordinateur de l'utilisateur afin de lire, modifier ou créer des fichiers. Il offre un niveau d'autonomie accru par rapport aux interactions classiques par chat, tout en tenant les utilisateurs informés et en exigeant leur approbation pour les actions importantes.
Claude Cowork exfiltrates user files by uploading them to an attacker's Anthropic account.
Contexte
Récemment, Anthropic a publié un aperçu de Claude Cowork (un agent IA polyvalent destiné à aider tout un chacun dans son travail quotidien). Le 15 janvier dernier, l'équipe de PromptArmor a montré comment des pirates peuvent exfiltrer des fichiers utilisateur de Cowork en exploitant une vulnérabilité non corrigée dans l'environnement de codage de Claude, qui s'étend désormais à Cowork. Cette vulnérabilité a été identifiée pour la première fois dans le chat Claude.ai avant l'existence de Cowork par Johann Rehberger, qui l'a divulguée. Elle a été reconnue mais n'a pas été corrigée par Anthropic.
Anthropic a averti les utilisateurs que « Cowork est une version préliminaire de recherche présentant des risques particuliers en raison de sa nature agentique et de son accès à Internet ». Il est recommandé aux utilisateurs d'être attentifs aux actions suspectes pouvant indiquer une injection rapide. Cependant, comme cette fonctionnalité est destinée à être utilisée par le grand public et non pas seulement par des utilisateurs techniques, Simon Willison a exprimé son opinion : « Je ne pense pas qu'il soit juste de dire aux utilisateurs lambda qui ne sont pas programmeurs de faire attention aux "actions suspectes pouvant indiquer une injection immédiate !" »
Comme Anthropic a reconnu ce risque et a demandé aux utilisateurs « d'éviter d'accorder l'accès aux fichiers locaux contenant des informations sensibles » (tout en encourageant l'utilisation de Cowork pour organiser le bureau de l'utilisateur), l'équipe de PromptArmor a choisi de divulguer publiquement la démonstration d'une menace dont les utilisateurs doivent être conscients.
« En sensibilisant les utilisateurs, nous espérons leur permettre de mieux identifier les types d'« actions suspectes » mentionnées dans l'avertissement d'Anthropic », a déclaré PromptArmor.
La chaîne d'attaque
Cette attaque exploite la liste blanche de l'API Anthropic pour extraire des données de l'environnement VM de Claude (qui restreint la plupart des accès réseau).
1. La victime connecte Cowork à un dossier local contenant des fichiers real estate confidentiels.
A real estate folder is attached to Claude Cowork, containing confidential appraisals and loan estimates.
2. La victime télécharge un fichier sur Claude qui contient une injection de prompt cachée
Dans les cas d'utilisation courants, cela est assez fréquent : un utilisateur trouve un fichier en ligne qu'il télécharge sur Claude Code. Cette attaque ne dépend pas de la source d'injection. Les autres sources d'injection comprennent, sans s'y limiter : les données web de Claude pour Chrome, les serveurs MCP connectés, etc. Dans ce cas, l'attaque utilise le fichier comme une « Skills » Claude (bien que, comme mentionné, il puisse également s'agir d'un document ordinaire), car il s'agit d'une convention de fichier généralisable que les utilisateurs sont susceptibles de rencontrer, en particulier lorsqu'ils utilisent Claude.
Remarque : Les Skills sont des fichiers Markdown canoniques (que les utilisateurs n'examinent généralement pas de près). Cependant, l'équipe de PromptArmor a présenté quelque chose de plus intéressant : l'utilisateur télécharge un fichier .docx (tel que ceux qui peuvent être partagés sur un forum en ligne), qui se présente...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.