L'IA Claude d'Anthropic dispose d'une nouvelle fonctionnalité permettant de créer et d’éditer des fichiers. Cette avancée offre plus de flexibilité et de capacités aux utilisateurs, mais elle introduit des failles de sécurité critiques. Elles peuvent permettre l’injection de contenu nuisible, l’élévation de privilèges ou l’exécution de code sans que l’utilisateur s’en aperçoive. Anthropic a mis en place des environnements isolés (sandbox) pour limiter ces risques et appelle les utilisateurs à surveiller les fichiers générés et les interactions avec l’IA. Mais les experts estiment que ces mesures sont insuffisantes et accusent Anthropic de déléguer la sécurité aux utilisateurs.Jusqu'à présent, Claude ne pouvait fournir que des réponses textuelles et des artefacts intégrés à l'application, mais il ne pouvait pas créer ni modifier de fichiers. Anthropic vient d'ajouter une fonctionnalité à Claude qui lui permet de créer et de modifier des formats de fichiers courants, notamment des feuilles de calcul Excel, des documents, des présentations PowerPoint et des fichiers PDF, sans quitter l'expérience Web Claude.ai ou l'application de bureau.
Claude a désormais accès à un environnement informatique privé qu'il utilisera pour écrire et exécuter du code afin de créer les fichiers et les analyses dont vous avez besoin. Cette nouvelle fonctionnalité de création de fichiers est en cours de déploiement en avant-première pour les utilisateurs des plans Claude Max, Team et Enterprise. Les utilisateurs de Claude Pro bénéficieront également de cette nouvelle fonctionnalité dans les semaines à venir.
Bien que cette fonctionnalité puisse être pratique pour les utilisateurs de Claude, la documentation d'assistance de l'entreprise avertit qu'elle peut « mettre vos données en danger » et explique en détail comment l'assistant d'IA peut être manipulé pour transmettre les données des utilisateurs à des serveurs externes.
Le problème de sécurité vient du fait que la fonctionnalité donne à Claude l'accès à un sandbox, qui lui permet de télécharger des paquets et d'exécuter du code pour créer des fichiers. « Cette fonctionnalité donne à Claude un accès à Internet pour créer et analyser des fichiers, ce qui peut mettre vos données en danger. Surveillez attentivement les chats lorsque vous utilisez cette fonctionnalité », explique Anthropic dans son annonce sur son blogue.
Anthropic délègue la sécurité aux utilisateurs de son assistant Claude
Dans la documentation, Anthropic explique qu'un acteur malveillant manipulant cette fonctionnalité pourrait potentiellement « ajouter discrètement des instructions via des fichiers externes ou des sites Web » qui manipulent Claude « pour que l'assistant lise des données sensibles à partir d'une source de connaissances connectée à claude.ai et utilise l'environnement sandbox pour effectuer une requête réseau externe afin de divulguer les données ».
Il s'agit d'une attaque par injection de prompt, dans laquelle des instructions cachées intégrées dans un contenu apparemment innocent peuvent manipuler le comportement du modèle d'IA, une vulnérabilité que les chercheurs en sécurité ont documentée pour la première fois en 2022.
Ces attaques représentent une faille de sécurité pernicieuse et non résolue des grands modèles de langage (LLM), car les données et les instructions sur la manière de les traiter sont transmises au modèle dans le même format dans le cadre de la « fenêtre contextuelle », ce qui rend difficile pour un modèle d'IA de faire la distinction entre les instructions légitimes et les commandes malveillantes cachées dans le contenu fourni par l'utilisateur.
Anthropic dit avoir découvert ces vulnérabilités grâce à des tests de sécurité et de red teaming avant sa sortie. La société recommande aux utilisateurs de surveiller Claude pendant l'utilisation de la fonctionnalité et de l'arrêter s'ils constatent qu'il utilise ou accède à des données de manière inattendue.
Cependant, cela fait peser entièrement la responsabilité de la sécurité sur l'utilisateur dans ce qui est commercialisé comme un système automatisé et sans intervention. Simon Willison, chercheur indépendant en IA, a commenté cette fonctionnalité, soulignant que la recommandation d'Anthropic de « surveiller Claude pendant l'utilisation de la fonctionnalité » revient à « externaliser injustement le problème aux utilisateurs d'Anthropic ».
Simon Willison affirme que les mesures de sécurité mises en place par Anthropic sont insuffisantes. « Je prévois d'utiliser cette fonctionnalité avec prudence pour toutes les données que je ne souhaite absolument pas voir divulguées à des tiers, s'il existe le moindre risque...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.