D’où viennent les images CAPTCHA ?

Alexis Tremblay
Alexis Tremblay

«Sélectionnez toutes les images avec un bus». Qui sait combien de fois vous avez dû passer un contrôle de sécurité en ligne, ce qu’on appelle CAPTCHAet devoir sélectionner toutes les cases contenant un bus, des feux tricolores, des passages piétons ou un vélo. Vous êtes-vous déjà demandé D’où viennent ces photographies et pourquoi nous sont-elles soumises ? La plupart des images utilisées proviennent Google Street View. Ces tests servent à bloquer l’accès aux bots, c’est-à-dire aux programmes automatisés conçus pour réaliser des actions répétitives et souvent malveillantes.

Le système original a été conçu en 2007 par des chercheurs de Université Carnegie-Mellon et est devenu la propriété de Google en 2009avec l’acquisition de la société reCAPTCHA Inc.. Dans ses premières incarnations, le système n’utilisait pas de photographies, mais reposait entièrement sur l’interprétation de images contenant des caractères typographiques délibérément déformés.

L’objectif était d’exploiter les capacités visuelles humaines pour améliorer la technologie ROC (Reconnaissance optique de caractères), ou la reconnaissance optique de caractères, en faisant transcrire par les utilisateurs des mots difficiles à reconnaître automatiquement, afin d’entraîner des systèmes de reconnaissance optique de caractères. D’après ce qui a été déclaré par TechCrunch dans un article de 2012, «le système est conçu pour réduire le spam et la fraude, mais il permet également de numériser le texte des documents imprimés, tels que les livres et les journaux. Google utilise reCAPTCHA, par exemple, pour numériser le contenu des archives Google Books et Google News».

À partir de 2012l’approche a changé avec l’introduction de photographies extraites du projet Google Street View. Après les premiers signes de l’actualité concernant la présence d’images dans les CAPTCHA, un porte-parole de Google a confirmé la nouvelle avec la déclaration suivante :

(Chez Google), nous extrayons des données telles que les noms de rues et les panneaux de signalisation à partir d’images Street View pour améliorer Google Maps avec des informations utiles telles que les adresses et emplacements des entreprises. Sur la base des données et des résultats de ces tests reCAPTCHA, nous déterminerons si l’utilisation d’images peut également être un moyen efficace d’affiner davantage nos outils pour lutter contre les abus en ligne causés par des robots et des algorithmes.

Certains experts avaient même émis l’hypothèse que l’interaction des utilisateurs dans la reconnaissance des feux de circulation, des passages pour piétons, des véhicules, etc. servait à entraîner les algorithmes d’intelligence artificielle qui sous-tendent le système de conduite autonome de Waymoune filiale de Google, mais vers le milieu de 2021 les représentants de l’entreprise avaient déclaré Voix Que « l’entreprise n’utilise pas ces données d’image pour entraîner ses voitures autonomes».