analyse du New York Times et d'Oumi

Les résumés générés par l’intelligence artificielle de Google, appelés AI Overviews, c’est-à-dire ces blocs de texte qui apparaissent généralement en haut des résultats de recherche et qui résument automatiquement la réponse à une question, ils répondent correctement à environ 91 % des questions factuelles. Cela semble être un résultat apparemment excellent, mais il cache un problème d’une ampleur gigantesque. Selon certaines estimations, quelque chose comme plus de 5 000 milliards de recherches par an. Ce ne sont pas de petites particules. Si environ 10 % de ces recherches renvoient des résumés IA incorrects, cela signifie toutes les heures des dizaines de millions de réponses pourraient renvoyer des informations incorrectes. C’est loin d’être excellent.

Cette situation est illustrée par une analyse menée par New York Times en collaboration avec Oumi, une startup spécialisée dans l’intelligence artificielle, qui a testé le système de Google sur des milliers de questions concrètes. Les résultats montrent une légère amélioration de la précision des réponses données, mais en même temps aussi une nouvelle criticité : les sources citées par AI Overview sont de moins en moins fiables, ce qui rend plus difficile pour les utilisateurs de vérifier de manière indépendante les informations reçues.

Présentation de l’IA mise à l’épreuve

La méthode utilisée par Oumi pour tester les aperçus d’IA s’appelle SimpleQA. Il s’agit d’un référentiel – c’est-à-dire d’un outil d’évaluation standardisé – développé par OpenAI et largement utilisé dans l’industrie pour mesurer l’exactitude factuelle des systèmes d’intelligence artificielle. Sur un échantillon de 4 326 recherchesles résultats ont montré une évolution significative : avec Gémeaux 2 (le modèle utilisé en octobre 2024), les bonnes réponses s’arrêtaient à85%. Avec la mise à jour de Gémeaux 3 (testé en février 2025), le pourcentage est passé à 91%.

Le vrai problème, cependant, n’est pas tant la réponse elle-même que les sources qui l’accompagnent. Oumi a constaté qu’une partie substantielle des bonnes réponses détectées en février étaient « sans fondement ». En d’autres termes, les liens cités à l’appui de la réponse ne confirmaient pas réellement ce qui avait été déclaré. En octobre, ce pourcentage était déjà préoccupant, il atteignait le quota 37%mais en février, il est passé à 56%. En pratique, Google apporte une bonne réponse dans la plupart des cas, mais les pages vers lesquelles il renvoie ne l’expliquent pas, ne la confirment pas, voire ne la contredisent pas, et ce dans plus de la moitié des cas. Parmi eux sources les plus citées des résumés Gemini apparaissent Facebook Et Redditplateformes qui ne garantissent certainement pas la même fiabilité qu’une source journalistique ou scientifique.

Le New York Times a documenté certains des des erreurs plus flagrantes commis au cours de l’étude. Lorsqu’on lui a demandé quand la maison de Bob Marley était devenue un musée, Google a répondu « 1987 » au lieu du « 1986 » correct, les sources n’ayant pas confirmé la date indiquée. Lors d’une recherche sur Yo-Yo Ma et le Classical Music Hall of Fame, le moteur est revenu sur le site officiel de l’organisation, affirmant toutefois que le musicien n’en était pas membre. Dans un autre cas, l’âge de Dick Drago au décès était correct, mais la date du décès était incorrecte. Des cas isolés, certes, mais emblématiques d’un schéma récurrent.

Encore plus pertinent est un expérience menée par un journaliste de la BBCqui a spécialement créé un article contenant des informations délibérément fausses et l’a mis en ligne. En moins de 24 heures, le système de synthèse de Google avait déjà absorbé et a reproduit ces rapports incorrects dans ses aperçus de l’IA. Ce phénomène, appelé « empoisonnement des données » (ou empoisonnement des données), montre à quel point les systèmes de synthèse automatique sont vulnérables aux contenus peu fiables ou manipulés.

La « double » réponse de Google

Là La réponse de Google concernant les problèmes rencontrés par l’étude que nous venons d’évoquer ne s’est pas fait attendre. Le géant de la recherche en ligne a contesté à la fois la méthodologie et les conclusions de l’étude. Le porte-parole Ned Adriance a défini le rapport comme plein de «de sérieuses lacunes», soulignant que SimpleQA est un benchmark développé par un concurrent direct, OpenAI (la société qui développe ChatGPT), et qui contient lui-même quelques inexactitudes.

Google a également noté qu’Oumi utilisait ses propres systèmes d’IA pour analyser les résumés générés par l’IA de Google, introduisant potentiellement une marge d’erreur supplémentaire. Des arguments qui ne sont pas totalement infondés, mais qui risquent de paraître paradoxaux : affirmer qu’une étude sur l’imprécision de l’IA a été menée avec des outils eux aussi imprécis ne renforce certainement pas la confiance dans le produit défendu.

En parlant de cela, nous nous sommes demandé si la réponse « officielle » donnée par Google correspondait à la réponse générée par son AI Overview. Et savez-vous ce que nous avons découvert ? Demander à Google «Quelle est la précision des réponses de AI Overview», c’est la réponse qu’on nous a donnée.

Comme vous venez de le remarquer, l’AI Overview de Google lui-même s’avoue exact dans 90% des cas, confirmant ainsi le pourcentage qui ressort de l’étude menée par New York Times en collaboration avec Oumi. C’est paradoxal : si l’étude en question s’avérait effectivement inexacte, alors la réponse donnée par l’AI Overview de Google le serait également, démontrant son influence possible compte tenu des sources auxquelles il accède sur le Web.

analyse du New York Times et d’Oumi

Présentation de l’IA mise à l’épreuve

La « double » réponse de Google