L'efficacité des CAPTCHA mise à rude épreuve par les progrès fulgurants de l'IA
Les sites Web utilisent les CAPTCHA (acronyme de l'anglais « Completely Automated Public Turing test to tell Computers and Humans Apart ») pour déterminer si un utilisateur est un humain ou une machine. Les CAPTCHA ont évolué au fil des ans pour s’adapter aux menaces croissantes sur Internet et garantir l'intégrité des sites Web. Le problème ? Les CAPTCHA sont devenus de plus en plus difficiles et de plus en plus complexes à résoudre pour les internautes.
Les CAPTCHA posaient autrefois une simple question du type « copiez le texte », mais ils ont désormais évolué pour demander aux internautes de résoudre des questions qui leur demandent de se creuser les méninges. Une tâche aussi simple que de se connecter à un compte de média social ou d'essayer de payer ses factures d'électricité devient un casse-tête. La complexité croissante des CAPTCHA crée un obstacle gênant à l'accès aux sites Web pour les humains.
Mais qu'est-ce qui explique cette évolution controversée ? La réponse est simple : l'IA. En effet, après avoir résolu un CAPTCHA, les données issues de nos efforts pour étiqueter ces grilles floues de feux de circulation, de texte ou de bus sont utilisées pour entraîner les machines, qui s'améliorent alors en déjouant les CAPTCHA et en faisant croire aux systèmes qu'ils sont humains. L'IA a fait des progrès remarquables et est désormais capable de résoudre ces énigmes.
Des chercheurs de l'université de Columbia ont montré en 2016 qu'ils pouvaient résoudre les CAPTCHA d'images de Google avec une précision de 70 % en utilisant des outils de reconnaissance d'image automatisés disponibles dans le commerce. Ces outils pourraient être facilement utilisés par les concepteurs de robots.
Ainsi, les CAPTCHA sont devenus plus complexes par nécessité. En effet, à mesure que l'IA se perfectionne, les CAPTCHA perdent de leur efficacité. Les énigmes de certains CAPTCHA sont même devenues un peu surréalistes. Et les entreprises technologiques et les consommateurs estiment qu'il est temps de changer.
L'IA déjoue facilement les CAPTCHA grâce à l'apprentissage automatique
Le CAPTCHA a été inventé au début des années 2000 par une équipe d'informaticiens de l'université Carnegie Mellon de Pittsburgh. Les premières versions étaient basiques, mais efficaces. Vous voyiez des lettres ondulées et déformées et vous deviez les taper dans une boîte. Les robots ne pouvaient pas « lire » le texte comme les humains, et les sites Web restaient donc protégés. Les versions améliorées ReCAPTCHA et ReCAPTCHA v2 ont été publiées par la suite.
Les systèmes d'IA d'aujourd'hui peuvent résoudre les problèmes posés par ces CAPTCHA. Ils peuvent « lire » un texte déformé, de sorte que les lettres ondulées ou écrasées des tests CAPTCHA originaux leur sont faciles à lire. Grâce au traitement du langage naturel et à l'apprentissage automatique, l'IA peut décoder les mots les plus désordonnés. Les développeurs de CAPTCHA ont donc été contraints de les complexifier pour les rendre à l'épreuve des systèmes d'IA.
Cela dit, même les développeurs de CAPTCHA ne croient plus vraiment en l'avenir de cette technologie. « Cliquer sur des images telles que des bus ou des panneaux de signalisation est dépassé. Les robots ont évolué, mais pas les CAPTCHA traditionnels. Des mini-jeux encore plus alambiqués pourraient ne pas suffire à tenir l'IA à distance », a déclaré Ashish Jain, directeur technique d'Arkose Labs, une entreprise de sécurité Web qui conçoit des CAPTCHA.
De même, des systèmes d'IA tels que Google Vision et Clip d'OpenAI peuvent reconnaître des centaines d'objets plus rapidement et plus précisément que la plupart des humains. Si un CAPTCHA demande à une IA de cliquer sur tous les bus d'une sélection d'images, elle peut le résoudre en quelques fractions de seconde, alors qu'il faudrait dix à quinze secondes à un humain. Selon les spécialistes de l'industrie, il ne s'agit pas seulement d'un problème théorique.
En Angleterre, les listes d'attente des examens de conduite sont longues de plusieurs mois, mais il est possible d'obtenir un examen beaucoup plus rapide en payant une somme plus élevée à un rabatteur du marché noir. The Guardian a rapporté en juillet que les rabatteurs utilisaient couramment des logiciels automatisés pour réserver tous les créneaux d'examen, tout en échangeant les candidats pour s'adapter à leur emploi du temps en constante évolution.
Même chose pour les billets d'entrée à des matchs de football. Dès que des billets sont disponibles, des robots envahissent le système, contournent les CAPTCHA, achètent des billets en masse et les revendent à des prix exorbitants. Les vrais utilisateurs sont souvent perdants, car ils ne peuvent pas agir aussi rapidement.
Les robots s'attaquent aussi aux plateformes de médias sociaux, aux sites de commerce électronique et aux forums en ligne. De faux comptes diffusent des infox, publient des spams ou s'emparent d'articles limités pendant les soldes. Dans de nombreux cas, le CAPTCHA n'est plus en mesure d'arrêter ces abus.
Les entreprises s'accrochent et tentent tant bien que mal d'améliorer les choses
Les développeurs ne cessent de proposer de nouvelles méthodes de vérification. Certains systèmes, dont ReCaptcha v3 (introduit en 2018) de Google, ne vous demandent plus de résoudre des énigmes. Au lieu de cela, ils observent la façon dont vous interagissez avec un site Web. Déplacez-vous votre curseur de manière naturelle ? Tapez-vous comme une personne ? Les humains ont des comportements subtils et imparfaits que les robots ont encore du mal à imiter.
ReCAPTCHA v3 ne plaît pas à tout le monde, car il soulève des problèmes de protection de la vie privée. De plus, l'entreprise doit évaluer les scores des utilisateurs pour déterminer qui est un robot, et les robots peuvent de toute façon déjouer le système. Il existe d'autres solutions qui utilisent une logique similaire, comme les puzzles « coulissants » qui demandent aux utilisateurs de déplacer des pièces de puzzle, mais elles aussi peuvent être déjouées par l'IA.
Certains sites Web se tournent désormais vers la biométrie pour vérifier l'identité des personnes, comme les empreintes digitales ou la reconnaissance vocale. L'identification des visages est également envisageable. Les données biométriques sont plus difficiles à falsifier pour les robots, mais elles posent leurs propres problèmes : respect de la vie privée, technologie coûteuse et accès limité pour certains utilisateurs en raison des coûts élevés ou d'un handicap.
L'arrivée imminente des agents d'IA ajoutera une nouvelle couche de complexité. Les entreprises du Web devront donc commencer à faire la distinction entre les « bons » bots et les « mauvais » bots. Ce domaine nécessite encore beaucoup d'attention, mais les certificats d'authentification numérique sont proposés comme une solution possible. En résumé, le CAPTCHA n'est plus l'outil simple et fiable qu'il était autrefois. L'IA l'a rendu obsolète et il est devenu gênant.
« Pour être tout à fait honnête, je pense que les choses vont devenir encore plus étranges parce que maintenant, vous devez faire quelque chose qui n'a pas de sens. Sinon, les grands modèles multimodaux seront capables de comprendre », a déclaré Kevin Gosschalk, fondateur et PDG d'Arkose Labs.
L'IA nous a obligés à repenser la manière dont nous vérifions les personnes en ligne, et le défi ne fera que croître à mesure que ces systèmes s'améliorent. Quelle que soit la prochaine norme technologique, elle devra être facile à utiliser pour les humains, mais avoir une longueur d'avance sur les mauvais acteurs.
Et vous ?
Quel est votre avis sur le sujet ?
Que pensez-vous de la complexité sans cesse croissante des CAPTCHA ?
Les CAPTCHA sont-il obsolètes ? Quelles sont les potentielles alternatives aux CAPTCHA ?
Comment garantir la sécurité et l'intégrité des sites Web avec l'arrivée imminente des agents d'IA ?
Voir aussi
Les CAPTCHA sont-ils encore efficaces ? Les bots IA sont désormais plus rapides et plus précis que les humains pour les résoudre, selon une étude
Les entreprises développent des CAPTCHA de plus en plus complexes pour empêcher les robots basés sur l'IA de les résoudre, mais cela crée un obstacle gênant à l'accès aux sites Web pour les humains
Les CAPTCHA sont-ils plus qu'ennuyants ? Une analyse évoque les conséquences négatives de leur implémentation, notamment en termes d'expérience utilisateur