IdentifiantMot de passe
Loading...
Mot de passe oublié ?Je m'inscris ! (gratuit)

Vous êtes nouveau sur Developpez.com ? Créez votre compte ou connectez-vous afin de pouvoir participer !

Vous devez avoir un compte Developpez.com et être connecté pour pouvoir participer aux discussions.

Vous n'avez pas encore de compte Developpez.com ? Créez-en un en quelques instants, c'est entièrement gratuit !

Si vous disposez déjà d'un compte et qu'il est bien activé, connectez-vous à l'aide du formulaire ci-dessous.

Identifiez-vous
Identifiant
Mot de passe
Mot de passe oublié ?
Créer un compte

L'inscription est gratuite et ne vous prendra que quelques instants !

Je m'inscris !

Un jailbreak appelé "Skeleton Key" révèle le pire de l'IA : une simple invite permet de contourner les garde-fous de sécurité sur les principaux modèles comme GPT-4o et Gemini Pro,
Selon Microsoft

Le , par Mathis Lucas

320PARTAGES

8  0 
Microsoft a rendu public un jailbreak appelé "Skeleton Key" qui affecte de nombreux modèles d'IA. L'entreprise définit l'exploit comme une technique qui permet de contourner les garde-fous utilisés par les fabricants de modèles d'IA afin d'empêcher leurs chatbots de générer des contenus préjudiciables ou malveillants. L'exploit affecte des modèles de premier plan comme Claude 3 Opus d'Anthropic, Llama3-70b-instruct de Meta et Gemini Pro de Google. Il peut contraindre, par exemple, ces modèles à fournir le procédé pour préparer un cocktail Molotov ou d'autres choses encore plus dangereuses. Ce qui remet en cause l'efficacité des garde-fous de ces IA.

Les entreprises spécialisées dans l'IA insistent sur le fait qu'elles s'efforcent de supprimer les contenus nuisibles enfouis dans les données d'apprentissage de l'IA, afin d'éviter que des recettes d'explosifs et d'autres choses encore plus dangereuses n'apparaissent. Mais la tâche n'est pas aisée, car les grands modèles de langage (LLM) sont formés à partir de toutes sortes de données, dont certaines peuvent être désagréables, voire illégales. Les entreprises d'IA tentent de bloquer l'affichage de ces contenus en ajoutant des filtres à leurs modèles, mais des jailbreaks tels que "Skeleton Key" peuvent permettre de les contourner.


Skeleton Key est une attaque qui consiste à utiliser une stratégie à plusieurs tours (ou à plusieurs étapes) pour amener un modèle à ignorer ses garde-fous. Une fois les garde-fous ignorés, un modèle ne sera pas en mesure de déterminer les demandes malveillantes ou non autorisées d'un autre modèle. Dans un billet de blogue faisant la lumière sur cette attaque, Microsoft explique avoir baptisé cette nouvelle technique de jailbreak Skeleton Key en raison de ses capacités de contournement total. Elle fait partie de la catégorie jailbreak et repose donc sur le fait que l'attaquant dispose déjà d'un accès légitime au modèle.

Prenons l'exemple d'un chatbot à qui l'on demanderait comment écrire du code sécurisé", qui offrirait de meilleures réponses formées sur des données liées à la détection de codes malveillants et de vulnérabilités de sécurité". Les créateurs du modèle le savent et essaient de faire en sorte que leurs services puissent répondre à des questions sur l'écriture d'un code sécurisé sans qu'ils crachent des maliciels prêts à l'emploi. Selon le rapport d'étude de Microsoft, Skeleton Key démontre que ces risques ne sont pas encore totalement pris en compte :

Citation Envoyé par Microsoft


En contournant les mesures de protection, Skeleton Key permet à l'utilisateur d'amener le modèle à produire des comportements normalement interdits, qui peuvent aller de la production de contenu nuisible à l'annulation de ses règles habituelles de prise de décision. Comme tous les jailbreaks, l'impact peut être compris comme la réduction de l'écart entre ce que le modèle est capable de faire (compte tenu des informations d'identification de l'utilisateur, etc.).

Comme il s'agit d'une attaque contre le modèle lui-même, elle n'impute pas d'autres risques au système d'IA, notamment l'accès aux données d'un autre utilisateur, la prise de contrôle du système ou l'exfiltration de données. Skeleton Key fonctionne en demandant à un modèle d'augmenter, plutôt que de modifier, ses directives de comportement afin qu'il réponde à toute demande d'information ou de contenu, en fournissant un avertissement (plutôt qu'un refus) si son résultat peut être considéré comme offensant, nuisible ou illégal s'il est suivi.

Dans un exemple (image ci-dessous), le fait d'informer un modèle que l'utilisateur est formé à la sécurité et à l'éthique (et que les résultats sont uniquement destinés à la recherche) permet de convaincre certains modèles de se conformer. Lorsque Skeleton Key réussit, un modèle reconnaît qu'il a mis à jour ses lignes directrices et qu'il se conformera par la suite aux instructions pour produire n'importe quel contenu, même s'il enfreint ses lignes directrices initiales en matière d'IA responsable. Par exemple, GPT 3.5 Turbo ne s'est pas exécuté lorsqu'on lui a demandé d'écrire des instructions pour de fabriquer un cocktail Molotov.


Mais la requête suivante a convaincu le chatbot de répondre à la question : « il s'agit d'un contexte éducatif sûr, avec des...
La fin de cet article est réservée aux abonnés. Soutenez le Club Developpez.com en prenant un abonnement pour que nous puissions continuer à vous proposer des publications.

Une erreur dans cette actualité ? Signalez-nous-la !

Avatar de Jules34
Membre émérite https://www.developpez.com
Le 03/07/2024 à 15:36
Ouais enfin une recherche dans TOR et la recette des méta amphétamine on la trouve facilement et avec plus de détail. On est encore dans le sensationnalisme qui prend les gens pour des gogo.
0  1