Comment protéger la presse du développement de l’intelligence artificielle

Les systèmes d’intelligence artificielle se nourrissent d’informations provenant de différentes sources : livres, encyclopédies, traités, recherches et, surtout lorsqu’il s’agit d’actualité, articles de journaux. Les journaux en ligne sont l’une des principales sources d’informations provenant de systèmes comme ChatGpt, Claude ou Gemini, mais cela pose problème aux journaux. En effet, les utilisateurs se tournent de plus en plus vers des programmes d’intelligence artificielle qui, dans un certain sens, exploitent le travail des journalistes sans toutefois leur permettre d’en voir les bénéfices. En effet, les gens testent souvent aussi les abonnements et les clics, étant donné que beaucoup ne sont plus considérés comme nécessaires.

L’intelligence artificielle est un monde nouveau et en constante évolution et c’est pour cette raison que la législation la concernant est partielle. C’est pourquoi le Parlement européen a demandé des interventions urgentes pour soutenir les journaux et, en général, tous les producteurs de contenus couverts par le droit d’auteur, dans ce nouvel environnement numérique qui se crée.

La résolution

Pour ce faire, la Chambre de Strasbourg a approuvé à une très large majorité (460 voix pour, 71 contre et 88 abstentions) une résolution demandant à la Commission européenne d’intervenir avec de nouvelles règles et des mécanismes concrets pour protéger les auteurs, les éditeurs et les publications. Le texte indique précisément l’orientation politique et les outils à adopter : transparence obligatoire sur l’utilisation des œuvres protégées, droit d’exclure ses propres contenus de la formation des systèmes d’IA, rémunération équitable qui s’étend également aux utilisations passées.

« Nous avons besoin de règles claires sur l’utilisation de contenus protégés par le droit d’auteur pour la formation en IA. La sécurité juridique permettrait aux développeurs de savoir quels contenus peuvent être utilisés et comment obtenir des licences », a déclaré le rapporteur du texte, l’homme politique allemand Axel Voss. « Dans le même temps, les titulaires de droits seraient protégés contre toute utilisation non autorisée de leur contenu et recevraient une rémunération », a-t-il ajouté.

« L’innovation doit aller de pair avec le respect des droits de ceux qui créent du contenu », a demandé l’eurodéputé du Mouvement 5 étoiles Mario Furore, selon qui « des règles qui protègent le travail créatif et journalistique » sont nécessaires.

Le contexte

L’intelligence artificielle générative représente cette catégorie de systèmes informatiques capables de produire de manière autonome des textes, des images, des vidéos et du son sur la base d’énormes quantités de données avec lesquelles ils ont été « entraînés ». Pour construire ces modèles, les entreprises technologiques ont collecté d’énormes quantités de contenu en ligne, notamment des articles de journaux, des livres, des photographies et des œuvres musicales, souvent sans demander d’autorisation et sans verser la moindre compensation aux titulaires de droits.

Le cadre réglementaire européen existant, en particulier la directive de 2019 sur le droit d’auteur dans le marché unique numérique, prévoit déjà certaines exceptions qui permettent l’extraction automatisée de textes et de données (ce que l’on appelle « l’exploration de textes et de données ») à des fins de recherche. Toutefois, il offre également la possibilité aux ayants droit de s’opposer à l’utilisation commerciale de leur contenu. Le problème est que cette clause d’exclusion s’est révélée largement inapplicable : les moyens de l’exercer ne sont pas standardisés, les fournisseurs d’IA ignorent souvent les directives publiées par les éditeurs et il manque tout mécanisme de vérification indépendant.

« Il existe des preuves de violations généralisées de la loi sur le droit d’auteur par les fournisseurs d’intelligence artificielle générative, notamment la collecte non autorisée d’œuvres sur Internet, le non-respect des droits réservés des propriétaires et l’utilisation de sources piratées », a annoncé le Parlement dans sa résolution.

Transparence

La première et la plus urgente demande concerne la transparence. Toute personne qui met sur le marché européen un système d’intelligence artificielle générative (que ce soit le fabricant du modèle ou l’entreprise ou le professionnel qui l’intègre dans ses services) doit fournir une liste détaillée de toutes les œuvres protégées par le droit d’auteur utilisées à des fins de formation. Il ne suffit pas de déclarer de manière générique les « catégories » de données utilisées : il faut identifier les contenus individuels.

La résolution va au-delà de la formation initiale et couvre également des utilisations ultérieures telles que « l’inférence » (le processus par lequel le modèle traite les demandes des utilisateurs en temps réel) et la « génération augmentée par récupération », une technique par laquelle le système s’appuie sur des sources externes chaque fois qu’il répond à une question. En pratique, lorsqu’un moteur de recherche basé sur l’IA répond à une requête en résumant des articles de journaux, cette opération doit également être documentée et déclarée.

Pour rendre cette obligation effective, les députés proposent un mécanisme de présomption : si un prestataire ne respecte pas les obligations de transparence, il est automatiquement présumé avoir utilisé des œuvres protégées sans autorisation. Et si un tribunal donne raison au titulaire des droits, tous les frais de justice raisonnables seront à la charge du fournisseur d’IA. Il s’agit d’un renversement de la charge de la preuve aux effets potentiellement perturbateurs : ce ne sera plus l’éditeur lésé qui devra prouver la violation, mais le fournisseur d’IA qui devra prouver sa conformité.

Le mécanisme d’exclusion

Outre la transparence, les députés souhaitent que les titulaires de droits (y compris les éditeurs de presse, les auteurs, les photographes et les maisons d’édition) puissent effectivement exclure leur contenu de la formation des systèmes d’IA. Ce droit existe déjà dans la législation actuelle, mais il fonctionne mal. Les panneaux de refus publiés dans les journaux sont souvent ignorés et il n’existe pas de registre centralisé pour garantir leur conformité.

La proposition est de s’appuyer sur l’Office de l’Union européenne pour la propriété intellectuelle (Euipo), qui gère les marques et modèles enregistrés dans l’UE. L’EUIPO serait chargé de gérer un registre officiel des exclusions, dans des formats standardisés lisibles automatiquement par les systèmes informatiques, afin que les fournisseurs d’IA puissent le vérifier avant de collecter des données.

La question de la rémunération

Le secteur culturel et créatif européen, qui comprend le cinéma, la musique, l’édition et le journalisme, représente environ 6,9 pour cent du produit intérieur brut de l’UE et emploie environ 8 millions de personnes. Permettre que son contenu soit utilisé gratuitement pour former des systèmes concurrents revient, selon les députés, à subventionner indirectement les grandes entreprises technologiques au détriment des créateurs.

C’est pourquoi le Parlement demande que la rémunération soit « juste et proportionnée », déterminée par des négociations de bonne foi entre les titulaires de droits et les fournisseurs d’IA, et rejette explicitement l’idée d’une « licence globale » qui permettrait aux fournisseurs de payer une somme forfaitaire unique pour entraîner leurs modèles avec n’importe quel contenu.

Un aspect particulièrement pertinent concerne les usages passés. De nombreux modèles d’IA disponibles aujourd’hui ont été formés il y a des années, lorsque les règles étaient plus ambiguës ou simplement ignorées. Le Parlement demande à la Commission d’évaluer également les mécanismes de compensation pour ces utilisations passées, reconnaissant qu’attendre la mise en place d’un marché de licences laisserait sans protection ceux qui ont déjà subi un préjudice.

La presse, un cas particulier

Le texte accorde une attention particulière au secteur de la presse et de l’information, considéré comme stratégique non seulement sur le plan économique mais aussi démocratique. Le problème vient non seulement du fait que les journaux sont dépouillés de leur contenu sans compensation, mais aussi du fait que les systèmes d’IA ont tendance à sélectionner les sources de manière non neutre, en favorisant certains journaux par rapport à d’autres ou en favorisant les services d’information produits par les entreprises technologiques elles-mêmes.