Anthropiquela startup d’intelligence artificielle fondée en 2021 par les frères Daniela et Dario Amodei avec cinq autres anciens employés d’OpenAI, a récemment introduit une fonction révolutionnaire appelée « Utilisation de l’ordinateur » et qui, justement, permet de contrôler un ordinateur en essayant d’imiter le comportement d’un utilisateur humain. La fonction en question est intégrée au modèle d’IA de Claude 3.5 Sonnet et est capable de contrôler un ordinateur presque comme le ferait un être humain. Dans quel sens ? Désormais, Claude peut « voir » l’écran via une capture d’écran, déplacer le curseur, cliquer, saisir du texte, etc., imitant en tous points l’interaction d’une personne réelle avec un ordinateur. Pour l’instant, la fonction est encore en phase expérimentale (à tel point qu’elle est disponible dès version bêta publique), mais l’objectif d’Anthropic est de permettre à son modèle d’effectuer de manière autonome une série de tâches répétitives qui nécessitent aujourd’hui une intervention humaine. Une autre fonction récemment annoncée est la fonction d’analyse qui permet au modèle d’écrire et d’exécuter du code dans le langage Javascript.
Comment le sonnet AI Claude 3.5 contrôle le PC : avantages et limites du « Computer Use »
La capacité de Claude à utiliser un ordinateur repose sur un système d’affichage appelé « flipbook »qui capture et analyse une série de captures d’écran pour interpréter et répondre à ce qui apparaît à l’écran, sans toutefois profiter d’un flux vidéo en temps réel. Cette approche signifie que, pour l’instant, le modèle peut occasionnellement manquer de courtes actions ou notifications, car sa vision repose sur images statiques prises à intervalles réguliers.
L’IA d’Anthropic est entraînée à reconnaître les positions des éléments sur l’écran, tels que les boutons et les icônes, en mesurant la distance en pixels pour positionner le curseur avec précision et effectuer des actions relativement complexes de manière entièrement automatique. Concernant le fonctionnement de « l’utilisation de l’ordinateur », Anthropic a expliqué :
Lorsqu’un développeur confie à Claude un logiciel informatique et lui donne les accès nécessaires, Claude regarde des captures d’écran de ce qui est visible par l’utilisateur, puis compte combien de pixels verticalement ou horizontalement il faut pour déplacer un curseur et cliquer au bon endroit. Apprendre à Claude à compter les pixels avec précision était crucial. Sans cette capacité, le modèle a des difficultés à émettre des commandes de souris, de la même manière que les modèles ont souvent des difficultés avec des questions apparemment simples telles que « combien y a-t-il de A dans le mot « banane » ?
Cependant, la fonctionnalité n’est pas encore parfaite : de nombreuses actions courantes, comme faire glisser des fichiers ou utiliser des raccourcis clavier, ne sont pas encore entièrement prises en charge. À cet égard, la même entreprise prévient que l’utilisation de « l’utilisation de l’ordinateur » peut être «fastidieux et sujet aux erreurs» ajoutant que la fonction a été publiée en version bêta publique justement «pour recevoir les commentaires des développeurs, et nous nous attendons à ce que la capacité s’améliore rapidement au fil du temps».
Dans la démonstration partagée par Anthropic dans une vidéo publiée sur YouTube (que nous vous proposons à nouveau ci-dessous), vous pouvez voir Claude 3.5 Sonnet qui, grâce à « Utilisation informatique », parvient à remplir le formulaire de contact d’une entreprise donnée et à récupérer les informations sur il s’est dispersé sur le disque du Mac utilisé pour le test, réussissant à très bien terminer l’opération. Clairement, ce qui est vu dans la démo devra être vérifié et confirmé par les testeurs qui décident de prévisualiser la fonctionnalité.
La fonction de surveillance informatique d’Anthropic est-elle sûre ?
L’idée qu’une intelligence artificielle puisse contrôler complètement un ordinateur pourrait soulever des doutes quant à la problème de sécurité.
Anthropic a également mis en place des politiques de sécurité strictes pour limiter l’accès de Claude à certains types de contenus. Par exemple, le modèle est programmé pour éviter d’interagir avec les médias sociaux et les contenus sensibles, tels que les sites gouvernementaux ou les activités liées aux élections, afin de minimiser les risques d’abus ou de manipulation. De plus, des mesures sont en place contre d’éventuelles attaques « injection rapide » – un type particulier de cyberattaque dans laquelle des instructions malveillantes sont données par un cybercriminel à un modèle d’IA, l’obligeant à effectuer des actions indésirables qui s’écartent de l’intention initiale de l’utilisateur – ainsi que des mécanismes de surveillance mis en place pour détecter toute utilisation inappropriée par les utilisateurs pendant cette phase de test.
Nouvel outil d’analyse JavaScript
En plus de la fonction « Computer Use », Anthropic a également annoncé la possibilité d’exploiter une fonction d’analyse pour Claude.ai, qui permet au modèle de écrire et exécuter du code JavaScriptde manière similaire à ce que parvient à faire le ChatGPT Code Interpreter (qui utilise le langage Python au lieu de JavaScript). Grâce à cette capacité, Claude est désormais capable d’effectuer une analyse approfondie des données en temps réel, de traiter l’information et d’offrir des résultats plus précis. En décrivant cette autre particularité, Anthropic s’exprime en ces termes :
Considérez l’outil d’analyse comme un bac à sable de code intégré, dans lequel Claude peut effectuer des calculs complexes, analyser des données et itérer sur différentes idées avant de partager une réponse. La capacité de traiter l’information et d’exécuter du code signifie que vous obtenez des réponses plus précises, en s’appuyant sur les compétences de pointe en matière de données et de codage de Claude 3.5 Sonnet. (…) Avec l’outil d’analyse, vous obtenez des réponses non seulement argumentées, mais mathématiquement précises et reproductibles.
Selon ce qu’a déclaré l’entreprise, cette fonction sera utile dans divers contextes et pour différentes personnalités professionnelles, notamment les spécialistes du marketing, les ingénieurs et les équipes financières.