
Au-delà la moitié des articles disponibles en ligne seraient rédigés par l’IA. Cela a été révélé par une étude récente menée par la société d’analyse SEO. Graphite qui a récemment publié les résultats d’une recherche au cours de laquelle il est apparu qu’un novembre 2024 le nombre d’articles générés par l’IA et publiés en ligne a dépassé celui des textes écrits par des humains. C’est la première fois qu’une situation similaire se produit : pendant une courte période, les machines ont produit plus de contenu textuel que les auteurs « en chair et en os ». L’étude, qui a examiné 65 000 articles en anglais collectés à partir de la vaste archive open source Exploration communecependant, a également montré que la croissance des contenus générés artificiellement s’est stabilisée depuis mai 2024.
Un élément clé de cette recherche est que, malgré la quantité de texte écrit par les algorithmes, la plupart n’apparaissent pas dans les moteurs de recherche ou dans les chatbots comme ChatGPT : selon Graphite, plus de 80 % des résultats affichés par Google et les assistants conversationnels proviennent toujours d’articles écrits par des personnes. Les données suggèrent que, du moins pour l’instant, intelligence artificielle n’a pas « pris le contrôle » de l’information en ligne, mais a plutôt aux côtés de l’homme dans une forme de coproduction de plus en plus répandue et difficile à distinguer.
Enquête sur le graphite et méthode utilisée
L’enquête de Graphite était basée sur une méthodologie très précis. Pour évaluer la diffusion du contenu créé par l’IA, les chercheurs ont utilisé un détecteur d’IA développé par SurfeurSEOcapable d’analyser Blocs de texte de 500 mots et estimer la probabilité qu’ils aient été écrits par un modèle de langage. Un article est considéré « artificiel » si plus de 50 % de son contenu a été généré par un système d’IA. Avant d’appliquer cette classification, les chercheurs ont voulu vérifier la précision de l’outil, en calculant le taux de faux positifs (c’est-à-dire de textes humains incorrectement étiquetés comme artificiels) et de faux négatifs (textes générés par l’IA non reconnus comme tels). L’analyse a montré un taux de faux positifs de 4,2%testant des articles publiés avant le lancement de ChatGPT, période pendant laquelle, selon toute vraisemblance, les textes étaient entièrement écrits par des personnes. Le taux de faux négatifsau lieu de cela, s’est arrêté à 0,6%en utilisant des articles produits par GPT-4o, l’un des modèles linguistiques les plus avancés disponibles au moment de la recherche, en utilisant une invite très détaillée et définie pour produire des textes sur divers sujets. De ces vérifications préliminaires, il est ressorti que le classement effectué à l’aide de Détecteur SurferSEO s’avère assez fiable avec un Taux de détection correcte de l’IA de 99,4 %.
Les résultats recueillis ont souligné une tendance claire : de novembre 2022au moment où ChatGPT est devenu public, la production automatisée de contenu a littéralement explosé. Seul 12 mois Les articles générés par l’IA ont évolué pour représenter approximativement le 39% des textes publiés, au point de surpasser brièvement les textes humains novembre 2024. Cependant, depuis 2025 la situation s’est stabilisée et les deux valeurs se sont alignées. Graphite émet l’hypothèse que ce ralentissement est dû aux mauvaises performances des textes produits par l’IA dans les moteurs de recherche : le moteur de recherche de Google, par exemple, a tendance à donner la priorité aux contenus rédigés par des personnes, jugés plus fiables et pertinents. Une deuxième recherche menée par la même entreprise a révélé que 86 % des articles de la recherche Google sont d’origine humainealors que seul le 14% proviennent de systèmes d’intelligence artificielle. Étonnamment, des données similaires émergent également des principaux chatbots IA : ChatGPT et Perplexity citent pour82% articles écrits par des humains et uniquement pour le 18% articles dont le texte est généré grâce à l’intelligence artificielle.

Les limites de l’étude
L’étude Graphite qui a découvert le pourcentage de diffusion de textes d’IA en ligne, aussi intéressante soit-elle, présente encore quelques limitesclairement souligné également par les auteurs de l’étude eux-mêmes. Tout d’abord, il faut rappeler que la base de données Common Crawlla source de données utilisée pour la recherche, Cela ne couvre pas tout le Web. De nombreux sites payants empêchent l’indexation de leur contenu, qui n’est donc pas inclus dans les échantillons analysés dans l’étude. Cela signifie que le pourcentage d’articles écrits par des humains peut en réalité être plus élevé que prévu. En outre, les auteurs de l’étude admettent que il peut être difficile de distinguer les articles écrits par l’IA et ensuite édités par des humainsen plus du fait que Les modèles d’IA continuent de s’améliorer et, par conséquent, peut devenir de plus en plus difficile à détecter.