Openaila société mère de Chatgpt et Sora, au cours des dernières heures, a annoncé Opérateurson premier agent AI capable de Effectuez des actions directement sur le Web au lieu de l’utilisateurcomment réserver des vols et des voyages ou des achats par nous-mêmes. Ce système expérimental représente un pas en avant dans la transformation de l’intelligence artificielle de l’assistant « simple » à un véritable agent indépendant qui répond aux invites de texte. Contrairement aux chatbots classiques qui sont limités, gérez du contenu derrière les entrées données par l’utilisateur, en fait, l’opérateur peut activement interagir avec le navigateur: naviguez entre les pages, compilez les modules, cliquez sur les boutons et coule le contenu, tout comme un utilisateur humain ferait (ou presque). Tout pour alléger la charge des activités répétitives et améliorer l’efficacité du travail en ligne. Pour le moment, l’opérateur est Disponible uniquement aux États-Unis Pour ceux qui ont un Prévoyez de chatgpt pro actif.
Le moment où nous battons cette nouvelle, L’opérateur est disponible pour un aperçu des utilisateurs professionnels aux États-Unis (Pour mémoire, ce plan coûte 200 dollars par mois). À l’avenir, il devrait également être étendu aux utilisateurs de plus, d’équipe et d’entreprise. Au cours de sa présentation, le PDG d’Openai Sam Altmanpromis:
L’opérateur sera bientôt dans d’autres pays. L’Europe, malheureusement, prendra un certain temps.
Comment fonctionne l’opérateur Openai: les caractéristiques
Opérateur Il est basé sur un modèle avancé appelé Cua (Agent aîné par ordinateur), qui combine les compétences visuelles de GPT-4O avec un système sophistiqué qu’Openai définit «apprentissage renforcé». Cela permet à l’agent de reconnaître les interfaces graphiques des sites Web et d’interagir indépendamment avec les boutons, les menus et divers éléments cliquables sans utiliser de composants supplémentaires. À cet égard, Openai explique:
L’opérateur peut « voir » (via la capture d’écran) et « interagir » (en utilisant toutes les actions autorisées par la souris et le clavier) avec un navigateur, lui permettant d’agir sur le Web sans demander d’ajouts API personnalisés.
À propos du modèle CUA, cela a été formé de telle manière que Demandez à l’utilisateur confirmé avant de terminer les activités Qui peut avoir une sortie concrètement percutante, qui pourrait être l’envoi d’un e-mail, l’envoi d’une commande, etc. Cela signifie que l’utilisateur peut encourager le travail du modèle avant qu’il ne devienne réellement opérationnel.
Mais Openai prévient que le modèle CUA n’est pas parfait et, par conséquent, « Il ne s’attend pas à ce qu’il travaille de manière fiable dans tous les scénarios, pour l’instant». L’opérateur est, en fait, encore en phase embryonnaire et c’est pourquoi il peut faire des erreurs, voire grossière. Lorsque cela se produit, selon ce qu’Openai a dit dans la présentation, il peut faire appel à sa capacité de raisonnement pour auto-portrait.
Ce que l’agent peut faire aux opérateurs
LE’Utilité de l’opérateur Cela peut être potentiellement infini, du moins dans une perspective future. Parmi les nombreuses choses qui peuvent potentiellement faire est leAutomisation des activités Lié à l’organisation de voyage, à la réservation de restaurants, aux achats en ligne, à la compilation de modules, etc.
Comment utiliser l’opérateur
LE’Utilisation de l’opérateur C’est simple et intuitif. Il suffit de décrire l’activité destinée à avoir un opérateur et ce dernier prendra soin de le terminer. C’est c’est. Comme déjà mentionné ci-dessus, il sera possible de prendre le contrôle du navigateur distant utilisé par l’opérateur à tout moment. Non seulement cela: ce sera le même opérateur de demander l’intervention de l’utilisateur pour la saisie des données de connexion, les données de paiement et la résolution des codes CAPTCH.
En expliquant le fonctionnement de l’opérateur, OpenII a déclaré:
Les utilisateurs peuvent personnaliser leurs flux de travail d’opérateur en ajoutant des instructions personnalisées, pour tous les sites ou pour certains détails, tels que la définition des préférences pour les compagnies aériennes sur Booking.com. L’opérateur permet aux utilisateurs d’enregistrer des invites pour un accès rapide à la page d’accueil, idéal pour des activités répétées telles que le ravitaillement des aliments sur Instacart. De façon similaire à l’utilisation de plusieurs cartes sur un navigateur, les utilisateurs peuvent avoir plus d’activités effectuer des opérateurs en même temps En créant de nouvelles conversations, comment commander une tasse d’émail personnalisée sur Etsy lors de la réservation d’un camping sur hipcamp.
Si vous souhaitez voir l’opérateur au travail, vous pouvez jeter un œil à cette courte vidéo.
https://www.youtube.com/watch?v=gyqs-wukzsm
À quel point l’agent est sûr et quels sont les risques et les limites
Mais passons maintenant au chapitre « Security ». Pour Assurer une sécurité adéquateOpenai a mis en œuvre Trois niveaux de protection. Tout d’abord, l’agent devrait demander une confirmation avant d’effectuer des actions délicates, telles que celles relatives à l’envoi de paiements ou aux insertions des informations d’identification. Deuxièmement, les utilisateurs peuvent désactiver l’utilisation de leurs données pour la formation de l’IA et supprimer les chronologies et se déconnecter des sites en un seul clic. Troisièmement, OpenII a développé un système de surveillance avancé pour identifier toutes les menaces informatiques, protégeant les opérateurs contre les tentatives de manipulation par des sites malveillants.
De la lecture des paragraphes précédents, il est clair que l’opérateur est toujours un produit « prototype » et il n’est donc pas surprenant qu’il ait un certain temps limites. Openai elle-même admet que je fonctionne « Il n’est pas en mesure de gérer de manière fiable de nombreuses activités complexes ou spécialisées, telles que la création de présentations détaillées, la gestion de systèmes de calendrier complexes ou l’interaction avec des interfaces Web hautement personnalisées ou non standard».
Pour les problèmes de sécurité, en outre, OpenII a délibérément limité la gamme d’action de l’opérateur, demandant toujours le Supervision de l’utilisateur humain Pour toutes ces activités jugées sensibles, comme leAjout d’informations de paiementdont l’opérateur ne collecte pas de captures d’écran. Même lorsque vous utilisez le e-mail L’opérateur nécessite la participation active de l’utilisateur, afin que cela puisse éventuellement identifier et corriger les erreurs possibles. Dans cette phase, en outre, toujours pour les problèmes de sécurité, L’opérateur ne peut pas envoyer de courriels et supprimer les événements de calendrier.
Et depuis il peut aussi s’arrêter complètementlorsque cela se produit « passe le ballon » à l’utilisateur, renvoyant le contrôle des opérations à terminer.