Appuyez sur Entrée pour voir vos résultats ou Echap pour annuler.

LLM, GPTs etc. et droit de la propriété intellectuelle

Les IA chatbots pillent vos oeuvres — et la loi les couvre ...
... sauf si vous vous y opposez *expressément* (CGU, métadonnées, robots.txt)

Auteurs, universitaires, éditeurs, artistes, ayant-droits, prêtez attention à ce que je vais expliquer. C’est votre carrière, votre travail, votre propriété intellectuelle et votre rémunération qui sont en jeu ici.

En quelques mots (TL ;DR)

Sauf si vous vous y opposez de manière expresse, les GAFAMOMP [1] et leurs prestataires peuvent *en toute légalité* (au regard des droits européens et français), copier massivement les contenus que vous mettez en ligne, à partir du moment où ils ne les republient pas in extenso. Ils peuvent donc les exploiter pour leurs moteurs de recherche internet mais aussi entraîner leurs grands modèles de langage ("large language models", LLM), autrement dit leurs IA.

Concrètement, voici comment faire pour éviter de vous faire copier et exploiter vos contenus en ligne par une IA/LLM/chatbot (à condition que leurs robots respectent ces instructions ... [2]) :

  • insérez cette clause-type élaborée par le SNE dans vos CGU
  • utilisez cet outil métadonnées pour vos pages web : TDM Reservation Protocol (TDMRep)
  • dans votre fichier robots.txt, excluez les bots des crawlers de datasets ou bien autorisez Googlebot, éventuellement Bingbot, et interdisez tous les autres (voir tout en bas)
  • dans l’OpenAI Privacy Request Portal, allez sur Privacy Requests puis cliquez sur Make a Privacy Request et suivez les instructions. Ou bien désactivez l’historique de ChatGPT : votre compte OpenAI > Settings > Data controls > Chat history & training > désactiver.

En détail et en droit

Côté Etats-Unis, la doctrine (et jurisprudence) américaine du "fair use" protège le web scraping massif (cf les data sets d’entraînement [3] utilisés par les principaux "large language models" dit LLM) réalisé par les IA génératives (GPT, Claude et al.), les GAFAMO et leurs prestataires opérant des "bots". Toutefois, pour les data sets de livres récents (Books 1, Books 2), il faut reconnaître que les droits ont généralement été achetés aux ayants droits.

Il faut ajouter qu’en droit américain (et semble-t-il ailleurs aussi), respecter les interdictions du fichier robots.txt n’est à strictement parler ni une obligation légale ni même une norme Internet officielle, mais un standard de facto [4]. Son implémentation dépend de la bonne volonté des acteurs d’Internet, et la ruée vers l’or de l’IA générative et d’autres considérations changent la donne [5]. Même des "institutions" comme l’Internet Archive en 2017 [6] puis Google en 2023 ont laissé entendre qu’elles ne respecteraient plus le robots.txt dans de nombreux cas. Pour le formuler diplomatiquement et cyniquement, on peut citer deux avocats américains spécialisés dans les nouvelles technologies : « Bien que de nombreux acteurs aient adopté des règles régissant leur propre utilisation des robots d’indexation, les règles dans leur ensemble sont trop faibles, et il est trop difficile de tenir ces acteurs responsables. » [7]

Toujours côté américain, il faut enfin savoir que :

  • les grands réseaux sociaux américains à contenu de qualité (Twitter, Reddit, Stack Overflow ...) ont des CGU ("terms of service", TOS) qui leur réservent, *à eux*, les droits sur toute votre production publiée chez eux
  • et par ailleurs, ils ont des accords pour céder des licences de leur contenu (inclus vos posts, donc) à des IA [8].

D’où notre conseil : ne publiez jamais de contenu long ou personnel sur les réseaux sociaux. Mettez-le sur votre propre blog et ne publiez qu’un lien vers lui ou gardez-le pour vous et vos amis en MP (et encore, là, faites attention).

Autre recommandation : pour détecter le plagiat non littéral ou dirons-nous les emprunts non sourcés créés avec l’IA générative (notamment par les étudiants), les logiciels anti-plagiat classiques comme Compilatio sont le plus souvent impuissants. En revanche, de nouveaux outils comme Copyleaks semblent adaptés. Certains mots très utilisés par ChatGPT dénotent l’IAG, comme le verbe "delve" en anglais. Au point qu’une petite app existe pour détecter cette sur-représentation dans les "papers" en anglais : AI Text Detection App. Côté IA génératives d’images (Midjourney et al.), Adobe Firefly ou Nvidia Picasso sont des IA génératives qui n’utilisent pour leur entraînement que des contenus sous licence [9].

NB : ce blocage ou alternativement cette demande de compensation financière par les acteurs du "contenu" entraîne les acteurs de l’IA générative à se tourner vers une solution non humaine : les données synthétiques, des données créées par une IA générative séparée pour en entraîner une autre. Le but est de générer des jeux de données ayant des propriétés statistiques et structurelles prédictives aussi proches que possible des données réelles, mais plus faciles à acquérir. Par exemple, depuis janvier 2024, la Commission européenne met gratuitement à disposition des acteurs financiers, sur le Data hub de la Digital Finance Platform, des données synthétiques de supervision servant à tester de nouvelles applications et à entraîner des modèles de machine learning. Ces données synthétiques sont des données artificielles générées à partir de données réelles et transformées pour reproduire les caractéristiques et la structure des données d’origine. C’est un moyen d’apporter des données de qualité, réellement utilisables par les fintechs et autres acteurs financiers, sans enfreindre la règlementation sur la protection des données [10]. S’entraîner sur des données synthétiques est notamment un des points forts de Claude, l’IAG d’Anthropic. Autre exemple : il est courant aujourd’hui de former des IA à la conduite autonome en les faisant rouler en réel sur des millions de kilomètres mais aussi en virtuel sur des milliards de km.

Mais pour des jeux de données juridiques, ouvertes sur le monde réel des humains, il est probable que cette solution ne marche pas du fait de ses nombreuses limites [11].

Cela dit, d’autres solutions pourraient se faire jour, comme la captation progressive de l’ensemble du savoir humain par un chatbot "conscient" de ces lacunes, "curieux" et posant des questions faussement naïves aux humains en ligne [12]. On retrouverait donc, sous une forme à peine différente, l’abus actuel de l’opt-in par défaut en matière de fouille de texte et de CGU des réseaux sociaux.

Côté droit européen et droits nationaux des Etats membres de l’UE, on était théoriquement protégé contre le "scraping" par la directive sur le droit du producteur de base de données dit "sui generis". Mais la directive européenne sur le droit d’auteur d’avril 2019, soit disant pour favoriser la fouille de textes pour les sciences, a introduit le loup dans la bergerie. Du côté des sites et éditeurs européens, peu en effet étaient conscients qu’ils leur aurait fallu interdire la fouille de données (art. L 122-5-3 III CPI, créé par transposition en droit français de cette 3e directive) pour éviter que leur propriété intellectuelle soit utilisée pour l’entraînement d’IA [13]. A l’époque, on pensait que c’était pour des recherches scientifiques du style "déterminer combien de fois tel ensemble sémantique (de termes) apparaît dans tel corpus". C’était là une grossière erreur — et le signe d’une absence de compétence et de veille des éditeurs sur le sujet à l’époque.

L’exception de fouille de textes et de données ne se limite pas en effet aux besoins des scientifiques, elle a aussi été prévue, suite à l’influence des groupes d’intérêts des GAFAM lors de l’élaboration de cette directive [14], pour bénéficier aux entreprises commerciales, ce qui équivaut en pratique sur ce point précis à l’interprétation dominante du "fair use" aux Etats-Unis.

Voici le texte de cet article L 122-5-3 III : son champ d’application est extrêmement large. Il faut insister notamment sur : « œuvres auxquelles il a été accédé de manière licite » — accès licite signifiant ici tout ce qui est en accès gratuit ou même payant , hacking excepté — « par toute personne » et « quelle que soit la finalité de la fouille ».

Article L 122-5-3 III du Code de la propriété intellectuelle

« Sans préjudice des dispositions du II, des copies ou reproductions numériques d’œuvres auxquelles il a été accédé de manière licite peuvent être réalisées en vue de fouilles de textes et de données menées à bien par toute personne, quelle que soit la finalité de la fouille, sauf si l’auteur s’y est opposé de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne. »

Précision : il n’y a pas de débat sur la "manière appropriée" (CGU, robots.txt, les deux, autre chose ?) car l’article R 122-28 CPI précise que :

Article R 122-28 du Code de la propriété intellectuelle

« L’opposition mentionnée au III de l’art. L 122-5-3 n’a pas à être motivée et peut être exprimée par tout moyen [...] y compris [...] les CGU d’un site internet ou d’un service. »

Vu l’énorme valeur acquise par les IA chatbots et leurs enjeux sociétaux, les ayants droits (y compris les éditeurs et les auteurs de blogs et de posts dans les forums comme Reddit) se sont fait rouler dans la farine et "voler" légalement leurs contenus. Et la version finale de l’AI Act européen actuellement en cours d’adoption ne supprime hélas pas l’exception de fouille de données.

Plusieurs arguments tendent à prouver que l’insertion, à l’époque, dans la proposition de directive de cette exception de fouille de texte extrêmement large ne résulte ni d’un oubli ni d’un hasard :

  • les GAFAM en 2017 avaient déjà une bonne idée de la puissance de leurs futurs modèles de langage (LLM) : Word2vec algorithme de machine learning non "deep" mais précurseur date lui de 2012, l’architecture Transformer de Google est sortie en août 2017 et GPT-1 en juin 2018 [15]
  • les ayants droits ne voyaient qu’une exception à but scientifique et c’est bien ainsi qu’elle nous a été présentée à l’époque. Pourtant, le texte de la directive comprenait dès le départ deux exceptions, dont une en dehors du motif scientifique ...
  • la directive fait obligation de détruire les données une fois la fouille terminée mais pour un LLM/GPT/... ce n’est pas grave. Une fois l’entraînement terminé, plus besoin de garder les data sets.

N’oubliez pas plus que ChatGPT peut aussi s’entraîner sur les contenus que vous lui soumettez/uploadez, y compris les prompts/questions que vous lui soumettez. Si ce sont des écrits à vous ou la propriété intellectuelle d’autrui :-/ ... Ce droit que s’octroie OpenAI se désactive (c’est bien caché) sur l’OpenAI Privacy Request Portal > Privacy Requests [16]. L’alternative — moins pratique — est de désactiver l’historique de ChatGPT.

Ce "trou dans la raquette juridique" est purement européen. Il n’existe pas aux Etats-Unis : autrement, malgré la doctrine américaine du "fair use", suspicions de violation du droit d’auteur et procès sont légion aux USA. Le compte Twitter de la rédactrice judiciaire américaine Nicole Miller répertorie les actions en justice de ce côté-là de l’Atlantique. Voir aussi cet article de Wired. Ainsi, les articles générés par l’IA du A.V. Club copient directement IMDb. Deux recours collectifs ("class actions") pour violation du droit d’auteur ont été déposées contre Meta et OpenAI. Une autre l’a été contre GitHub Copilot, un produit d’intelligence artificielle qui, selon la plainte, repose sur un piratage sans précédent de logiciels libres. Pour autant, aucun procès aux États-Unis n’a été à ce jour gagné par les auteurs et ayant-droits, des débuts de procès sont même peu avantageux pour eux [17]. Le problème principal consiste à prouver la copie servile ou quasi à l’identique. Or c’est très rarement dans les réponses des IA génératives qu’on les trouve. C’est sur les jeux de données d’entraînement qu’il faudrait se pencher — mais les GAFAMO, depuis GPT-4, ne les révèlent plus. C’est justement l’objet de l’AI Act européen que d’obliger les éditeurs d’IA à révéler ... un résumé — et non hélas la liste complète [18] — de leurs data sets. Ce qui risque fort de ne pas suffire donc.

De nombreux signes indiquent que ce problème d’ "emprunt" non autorisé de propriété intellectuelle n’est ni virtuel ni anecdotique :

  • le US Copyright Office envisageait en novembre 2023 de mettre à jour ses lois pour traiter directement de l’IA générative. Meta, Microsoft, OpenAI et d’autres acteurs de l’IA se sont fermement opposés à tout changement. Payer pour les données signifierait « des dizaines ou des centaines de milliards » de redevances annuelles, a déclaré la firme de capital investissement Andreesen Horowitz [19]
  • certains acteurs de l’IA, comme Meta, auraient envisagé de racheter des maisons d’édition afin d’accéder au contenu de leurs livres [20]
  • beaucoup de licences open — dont celle de Wikipedia, CC BY-SA 3.0, qui a été utilisée ici — exigent qu’en cas de copie du contenu qu’elles protègent, la mention de paternité soit maintenue. Là, il pourrait bien y avoir des problèmes [21]
  • selon Wikipedia, CommonCrawl comprend des travaux protégés par le droit d’auteur (mais "copiables" en droit américain selon une interprétation de l’exception au "copyright" dite "fair use" ... non validée par la Cour Suprême)
  • un article du magazine en ligne Wired prouve sans conteste que le RAG Perplexity scrape (copie) les articles de presse trouvés par son moteur de recherche pour les fournir à l’utilisateur, quand bien même le fichier robots.txt le lui interdit, ce qui est illégal ou à la limite de la légalité aux Etats-Unis (et illégal à 100% en Europe) [22]. Ce qui est intéressant ici, c’est que Perplexity utilise pour son bot des adresses IP hors de son IP range à lui. On semble donc proche de l’intrusion et maintien frauduleux dans un STAD (système de traitement automatisé de données) de la loi Godfrain (articles 323-1 à 323-8 du Code pénal) [23]. Notez bien que la loi Godfrain, c’est du pénal et que la loi pénale française est applicable dès qu’un Français ou une société française est victime (art. 113-2-1 du Code pénal)
  • mes propres constatations me font penser que Common Crawl (voir infra) ne respecte pas toujours le droit d’auteur des pays européens de droit continental — quand bien même les sites européens ne constituent pas la majorité de son contenu. En effet, si la directive européenne sur le droit d’auteur d’avril 2019 a introduit, comme nous l’avons vu plus haut, une exception légale au droit d’auteur qui légalise par défaut le "scraping" des bots, c’est *sauf* le cas où le propriétaire du site a expressément interdit cela [24]. Or certains sites, sans viser spécifiquement l’entraînement des IA, avaient déjà, avant l’apparition publique de ChatGPT, de telles mentions dans leurs CGU
  • OpenAI admet ne pouvoir (vouloir plutôt) se passer de contenu soumis au droit d’auteur : il serait selon eux impossible de créer des outils tels que son chatbot sans accéder à du matériel protégé par le droit d’auteur [25]. Ce qui n’est pas totalement faux si le LLM doit prendre en compte les connaissances les plus récentes (l’actualité)
  • OpenAI aurait proposé entre un et cinq millions de dollars à certains éditeurs par an, pour pouvoir utiliser leurs articles afin d’entraîner ses LLM. Des somme infimes, même pour les petits éditeurs. Apple, qui tente de rattraper son retard dans l’IA générative, serait plus généreux, mais plus exigeant également [26]. OpenAI a passé des accords avec Axel Springer [27], Associated Press (AP), Prisa en Espagne, Le Monde en France pour entre 2 et 3 millions d’euros par an [28], le groupe News Corp, propriétaire notamment du Wall Street Journal (WSJ) et du New York Post [29], et le Financial Times (FT) en Grande-Bretagne [30] par exemple, mais n’a pas réussi avec le New York Times qui l’a donc assigné en justice [31] pour mieux négocier [32] (voir en commentaire). OpenAI a également été attaqué en justice en avril 2024 pour violation du droit d’auteur par huit autres journaux américains propriété du groupe Alden Global Capital, dont le Chicago Tribune et Denver Post [33]. En France, l’Alliance de la presse d’information générale va envoyer aux acteurs de l’IA une liste des éditeurs ayant mis en place un "opt-out" afin de demander l’ouverture de négociations. Et, en parallèle, l’organisation représentant presque 300 titres n’exclut pas de lancer des poursuites en justice
  • dans sa décision de sanction du 15 mars 2024, l’Autorité de la concurrence constate que « Google a utilisé du contenu issu de [sites] d’éditeurs de presse et d’agences de presse au stade de l’entraînement du modèle fondateur de son service d’IA, du grounding (l’envoi d’une requête par le service d’IA à Google Search en vue de proposer une réponse à la question posée par l’utilisateur) et de l’affichage des réponses à l’utilisateur sans que ni les éditeurs et agences de presse, ni l’Autorité n’aient été informés de ces utilisations » et ce, contrairement aux 1er et 6e engagements rendus obligatoires par la décision de l’ADLC du 21 juin 2022. Ces engagements concernent les modalités d’application par Google de la loi n° 2019-775 du 24 juillet 2019, qui vise à établir un droit voisin au bénéfice des agences et des éditeurs de presse. On n’est donc pas ici sur le terrain du droit d’auteur classique ni de l’exception de fouille de données, ce qui fait que cette décision ADLC de 2024 n’est pas transposable [34]
  • Ed Newton-Rex, dirigeant de Fairly Trained, a fondé cette ONG en janvier 2024 après avoir quitté son poste de direction au sein de la startup Stability AI, spécialisée dans la génération d’images, parce qu’il n’était pas d’accord avec sa politique de récupération de contenu sans autorisation
  • à la mi-juillet 2023, l’hébergeur de Books3, une collection d’environ 200 000 ebooks illégaux appelée Books3 et provenant d’un service de partage de fichiers allemand illégal, s’est conformé à la demande de la Danish Rights Alliance de retirer Books3 de son site web [35]. Books3 a également été cité comme source de contenu volé dans un procès intenté par deux auteurs américains contre OpenAI, le développeur de ChatGPT [36]. Books3 a également été cité comme source de données dans un article universitaire publié par EleutherAI sur Arxiv.org, qui souligne l’importance de Books3 pour l’apprentissage des IA : « Nous avons inclus [books3] parce que les livres sont inestimables pour la recherche sur la modélisation du contexte à long terme et la narration cohérente » [37]
  • selon un blogueur américain [38], des parties importantes des mystérieux Books1 et Books2 pourraient être identiques au dataset BookCorpus. Or le contenu de BookCorpus vient en fait d’une petite sélection effectuées dans le site de distribution d’ebooks Smashwords et Google, qui fut le premier à utiliser BooksCorpus pour développer BERT, n’a jamais demandé le consentement des auteurs de ces ebooks. BookCorpus a directement violé le droit d’auteur pour des centaines de livres qui n’auraient pas dû être redistribués par le biais d’un ensemble de données gratuit. Par exemple, plus de 200 livres de BookCorpus indiquent explicitement qu’ils « ne peuvent être reproduits, copiés et distribués à des fins commerciales ou non commerciales » [39].
  • Microsoft s’engage à payer les frais de justice si ses clients sont poursuivis pour avoir utilisé son IA Copilot [40].

Le pire, c’est que ce pillage n’était pas nécessaire. D’abord, de nombreux groupes de presse sont prêts à céder des licences : comme on vient de le voir, il suffit de ne pas les payer avec des cacahuètes. Ensuite, une preuve a contrario vient d’être administrée avec la publication en mars 2024 du plus grand ensemble de données d’IA disponible pour les modèles de langage, composé uniquement de contenu du domaine public. Common Corpus, comme on l’appelle, est une collection de textes dont la taille est à peu près la même que celle des données utilisées pour entraîner GPT-3 et qui a été mise en ligne sur la plateforme d’IA open source Hugging Face. L’ensemble de données a été constitué à partir de sources telles que des journaux du domaine public numérisés par la Bibliothèque du Congrès des États-Unis et la Bibliothèque nationale de France. Pierre-Carl Langlais, coordinateur du projet Common Corpus, estime qu’il s’agit d’un « corpus suffisamment important pour entraîner un LLM de pointe » [41]

Cela dit, de plus en plus d’entreprises mettent discrètement à jour leurs politiques de confidentialité, donc leurs CGU, afin d’utiliser les données collectées auprès des utilisateurs pour les revendre pour former des modèles d’IA (par d’autres ou eux-mêmes). Twitter/X ou Reddit, par exemple. Et là, c’est contractuel, donc c’est — au moins aux Etats-Unis — très largement légal/licite.

Voici une bibliographie juridique très sélective sur le sujet, avec des extraits saignants :

IA génératives de contenus : pour une obligation de transparence des bases de données !, par Stéphanie Le Cam et Frédéric Maupomé, Dalloz Actualité, 11 mai 2023 :

« Se poser la question de savoir si l’exercice de l’opt-out n’intervient pas trop tard. Depuis 2019, ce sont des millions d’images et de textes protégés qui sont venus nourrir ces bases de données, avant même que les auteurs et titulaires n’aient eu le temps d’être informés de leurs possibilités d’actions. »

Intelligence artificielle : « Le droit d’auteur protège une création précise, mais pas une manière de créer », Liberation.fr, 31 décembre 2022
Utilisation d’œuvres protégées, statut des images créées par des générateurs… La professeure de droit Alexandra Bensamoun fait le point sur les problèmes juridiques créés par le développement des IA :

« Peut-on commercialiser des images "à la manière de" Picasso ou de Monet ou d’Annie Leibovitz ?

On voit fleurir dans différents secteurs artistiques des créations "à la manière de", comme empruntant le style d’un auteur, par exemple The Next Rembrandt, à la manière du peintre hollandais, ou Daddy’s Car, des chansons à la manière des Beatles. Le style d’un auteur ne peut pas être réservé. Le droit d’auteur ne protège pas les idées mais les réalisations de forme. On protège une création précise, mais pas une manière de créer. De façon générale, la propriété intellectuelle ne permet pas de réserver des idées, méthodes, théories, mais seulement leur traduction dans l’univers sensible des formes. Aussi, il est tout à fait possible de réaliser des créations "à la manière de", qui se contentent d’emprunter le style sans retenir la forme d’une œuvre. C’est exactement ce que fait l’IA : dans le cadre de la fouille, elle déconstruit le contenu pour en extraire des tendances. La reconstruction ne reproduit pas les éléments de forme de l’œuvre fouillée, protégés par le droit d’auteur.

Tout cela doit cependant être nuancé : d’abord, il est possible, si l’œuvre est toujours protégée par le droit, que l’auteur se soit opposé à ce que son contenu soit fouillé en ayant exercé son opt-out ; ensuite, si le droit d’auteur n’a pas vocation à s’appliquer dans cette hypothèse, d’autres mécanismes juridiques pourraient être convoqués (mais avec moins d’efficacité), comme par exemple le parasitisme. »

Voir aussi :

Le cas de ce blog. Ou comment CommonCrawl s’est approprié des milliers d’heures de travail sans autorisation et sans rien payer ... et en toute légalité

Common Crawl, une organisation à but non lucratif (mais clairement liée aux GAFAMO [42] par le CV de ses dirigeants [43], ses buts et son hébergement gratuit par AWS [44]), qui prend une "photographie" de sites de référence partout dans le monde, a copié mon blog [45]. Cette copie a entraîné GPT-3 et des LLM de Google (T5) et Meta (LLaMA) sans que je sois prévenu et sans aucune rémunération. Alors que le contenu de ce blog équivaut à quelques milliers d’heures de travail depuis 2004 ... Certains me diront que C4 ne contient que 1900 tokens extraits de mon site, soit environ 1452 mots ou 6 pages A4 [46] mais d’une part, peut-être sont-ce les parties les plus informatives et d’autre part, C4 est une sélection *filtrée* de CommonCrawl. Ce dernier pourrait donc en avoir scrapé bien plus [47].

NB : les buts de Common Crawl ne sont pas purement liés à la philanthropie car tout acteur privé, tout moteur de recherche, toute IA peut utiliser leur jeu de données ("dataset"). Comme indirectement évoqué plus haut, leur dataset est inclus dans celui produit par Google, le C4.

Sur ce coup, la Commission européenne a très mal défendu les auteurs ... La réponse du commissaire Breton en 2023 à une question parlementaire est éloquente à cet égard : « À ce stade, la Commission estime que la création d’œuvres d’art par l’IA ne mérite pas une intervention législative spécifique. Elle n’envisage donc pas de réviser cette directive. » La Commission reconnaît ainsi ne pas se tenir aux côtés des auteurs. Quant au moissonnage des sites web, il n’est n’est même pas mentionné.

Et l’AI Act européen en cours d’élaboration n’a pas été l’occasion de réparer le trou dans la raquette en remplaçant l’ "opt in" par défaut par un "opt out", même si ce texte a quand même prévu une obligation de transparence des datasets utilisés pour l’entraînement des LLM, afin d’éventuellement s’y opposer ou demander une rémunération en échange.

La position de l’exécutif français dans la négociation de l’AI Act et celle de l’ancien ministre du Numérique Cédric O [48] laisse entendre que pour favoriser un acteur français [49] — la startup LLM Mistral.ai — elle entend limiter les contraintes prévues dans le projet de règlement européen.

La Commission à l’époque communiquait surtout sur une exception de "fouille de texte" (et non IA, machine learning, chatbot ou LLM) et ce "pour la *recherche*" (alors que n’importe quelle société peut crawler votre site pour alimenter des IA). Le terme même de "crawl" est sujet à caution. En effet, à l’origine, en informatique/Internet, il est utilisé pour décrire le travail des "bots" qui indexent le Web pour alimenter les moteurs de recherche. Or cette indexation est précédée, on ne le dit pas assez, d’une *copie*. "Crawler", c’est en réalité d’abord copier. Au lieu de fouille ou de "crawl", on devrait parler de "harvest" donc de récolte ou moisson. Personnellement, je serais tenté de renommer CommonCrawl en CommonCopy voire CommonSteal si ce n’était pas hélas légal comme expliqué supra.

La seule parade — je ne le savais pas à l’époque (et je n’étais pas le seul) — consiste à s’opposer expressément à cela.

En pratique, mieux vaut le faire ET dans son fichier robots.text ET dans le code de ses pages ET dans ses CGU. Ceinture et bretelles, car je serais surpris que les bots de Common Crawl aient assez d’IA en eux pour lire les CGU ...

Ce tweet de l’auteur de bande dessinée Thomas Cadène illustre assez bien mon état d’esprit vis-à-vis des bots moissonnant les sites perso et des PME et vis-à-vis de la position de la Commission sur l’exception de fouille de texte :

« What we are witnessing is the wealthiest companies in history (Microsoft, Apple, Google, Meta, Amazon …) unilaterally seizing the sum total of human knowledge that exists in digital, scrapable form and walling it off inside proprietary products ... »

Dans le cas du data set LAION, il s’agit carrément en bonne partie de scraping d’oeuvres protégées, autrement dit de violations frontales du droit d’auteur [50]. Ce qui ne peut que rappeller la devise interne du dirigeant de Facebook (devenu Meta) : « Move fast and break things » [51]. En un mot : « Pour une efficacité maximale, violez la loi ».

Le cas de l’éditeur juridique LexisNexis France

Début juillet la maison mère américaine de l’éditeur juridique LexisNexis (JurisClasseurs etc.) indiquait qu’elle interdisait l’utilisation de son contenu dans une IA générative.

Mi-septembre 2023, les CGU de la plateforme de sa filiale française Lexis 360 sont modifiées [52] :
« L’Utilisateur s’interdit :

  • tout usage du Service à des fins autres que purement documentaires
  • toute extraction ou réutilisation qualitativement ou quantitativement substantielle du contenu de la base de données, ainsi qu’à l’extraction ou à la réutilisation répétée et systématique de parties qualitativement ou quantitativement non substantielles du contenu de la base de données. »

J’ai l’impression que l’interdiction expresse liée au droit du producteur de base de données (dit "sui generis") suffit pour interdire tout crawl par un robot, car un crawl consiste en une extraction qualitativement ou quantitativement substantielle, pas en une reproduction supra limitée.

Mais dans le cas présent, l’éditeur procède à un "overkill" :

  • dans ses nouvelles CGU, LexisNexis a ajouté : « il est interdit à l’Utilisateur notamment de procéder à [...] toute utilisation du Service y compris du contenu délivré à l’Utilisateur, en conjonction avec une solution d’IA générative quelque soit la méthode de livraison des données ». Ceci couvre les cas de copier-coller dans ChatGPT, GPT-4 et al.
  • le fichier robots.txt de Lexis 360 Intelligence est ainsi configuré qu’il interdit tout passage à tout robot sauf son propre outil de mesure SEO :
    User-agent: OnCrawl
     Disallow:
    User-agent: *
     Disallow: /

Le cas des revues en open access en SHS et Theses.fr

Open Edition et Theses.fr sont dans le jeu de données C4 de Google servant à l’entraînement ses LLM/IA (source article précité du WaPo) :

Cairn, Persée et HAL n’y sont apparemment pas, selon la même source.

S’ils veulent éviter de se faire utiliser sans aucune rémunération ni avantage par l’entraînement des "large language models" (LLM = IA et chatbots type GPT et al.), il faudrait que les acteurs de l’OA pensent bien :

  • à inclure une mention d’interdiction dans leurs CGU. Du style :

    Ce site a fait l’objet d’un investissement humain et financier, substantiel (article L 341-1 du CPI) et il a la forme d’une "base de données" au sens de l’article L 112-3 du CPI. Toute extraction substantielle de ce site non expressément autorisée est interdite (articles L 342-1 à L 342-5 du CPI).
    En application de l’article L 122-5-34-.III du CPI [1], les actes de fouille/exploration de textes et de données sur la totalité de ce site sont expressément interdits.

  • et ces deux lignes dans leur fichier robots.txt (à répliquer pour les crawlers des autres jeux de données utilisés par les LLM ; sinon faire une interdiction générales des bots après avoir autorisé ceux de Google et Bing, comme l’a intelligemment fait le webmestre de Persée, cf infra) :
    User-agent: CCBot
    Disallow: /

Par exemple, les mentions légales d’Open Edition, Persée, Cairn et HAL sont à mon avis insuffisantes :

Open Edition :

« Toute autre reproduction ou représentation, intégrale ou substantielle du contenu de ce site, par quelque procédé que ce soit, doit faire l’objet d’une autorisation. »

Persée :

« Toute reproduction totale ou partielle du Site et/ou des éléments le composant (tels que décrits ci-dessus) par quelque procédé que ce soit, sans l’autorisation expresse de Persée est dès lors interdite et constituerait une contrefaçon sanctionnée par les articles L. 335-2 et suivants du Code de la propriété intellectuelle.
Les Tutelles sont co-propriétaires des droits sui-generis sur la Base de Données Persée à partir de laquelle les Jeux de Données sont extraits, ainsi que des droits de propriété intellectuelle sur les Jeux de Données.
A ce titre, les droits qui Vous sont concédés ci-après sur les Jeux de Données n’entraînent aucun transfert de propriété, notamment intellectuelle, total ou partiel, à votre bénéfice.
Vous vous engagez à ne pas porter atteinte directement ou par l’intermédiaire de tiers auxquels Vous seriez associé, aux droits des Tutelles. »

Cairn :

« Il est cependant interdit à l’utilisateur, en dehors de cet usage, de copier, modifier, distribuer, transmettre, diffuser, représenter, reproduire, publier, concéder sous forme de licence, transférer ou exploiter de toute autre manière les informations présentes sur le site www.cairn.info. En conséquence, toute autre utilisation est constitutive de contrefaçon et sanctionnée au titre de la propriété intellectuelle, sauf autorisation préalable et écrite de CAIRN.INFO SAS. »

HAL :

[rien sur le sujet dans ses mentions légales/CGU]

En outre, les fichiers robots.txt d’Open Edition, Cairn, HAL et Theses.fr ne comprennent aucune interdiction du bot de Common Crawl ni de celui d’OpenAI.

Persée a été plus malin : son robots.txt autorise Google et Bing à indexer leur site mais pas les autres bots :

User-agent: Googlebot
User-agent: Bingbot
[...]
Disallow: /votre-avis/
Disallow: /web/guest/forum-demo/
Allow: /

User-agent: *
Disallow: /

Mais à malin, malin et demi : Bingbot de Microsoft alimente *à la fois* le moteur de recherche de Microsoft et son IA ... En ce qui concerne Google, celui-ci a dissocié Googlebot, l’agent dédié à son moteur de recherche, et Google-Extended, celui alimentant Gemini et ses autres IA génératives. Quant à OpenAI, son robot de moissonnage s’appelle GPTBot. Celui d’Anthropic.ai (LLM Claude) se nomme anthropic-ai.

Emmanuel Barthe
documentaliste juridique, veilleur, formateur et très "geek" sur les bords

Notes

[1Google, Anthropic, Facebook/Meta, Amazon, Microsoft, OpenAI, Mistral, Perplexity.

[2S’ils ne les respectent pas, en droit pénal français, qui est applicable dès qu’une victime est française, on peut alors attaquer sur la base de la loi Godfrain.

[3« La plupart des commentateurs ont estimé que la loi existante n’avait pas besoin d’être modifiée, car l’usage loyal est une doctrine souple et capable de s’adapter à l’utilisation d’œuvres protégées par le droit d’auteur dans un contexte d’IA » (traduit en français et extrait de : Public views on artificial intelligence and intellectual property policy, un rapport du U.S. Patent & Trademark Office, octobre 2020, PDF, 56 pages.). Cité par : Does training AI violate copyright law ?, par Jenny Quang, Berkeley Technology Law Journal, Vol. 36, n° 4, p. 1407.

[4Le 1er juillet 2019, Google a proposé que le Robots Exclusion Protocol (REP) devienne une norme officielle dans le cadre de l’Internet Engineering Task Force (IETF). Une proposition de norme a été publiée en septembre 2022 en tant que RFC 9309.

[5The text file that runs the internet, par David Pierce, The Verge, 14 février 2024.

[6Robots.txt meant for search engines don’t work well for web archives, par Mark Graham, Internet Archive Blogs, 17 avril 2017.

[7Robots Welcome ? Ethical and Legal Considerations for Web Crawling and Scraping, par Zachary Gold et Mark Latonero, 13 Washington Journal of Law, Techonology and Arts (J. L. Tech. & Arts) 275 (2018). Les principales bases légales aux Etats-Unis pouvant permettre de restreindre le "scraping" par des sociétés sont l’action de "trespass" et le Computer Fraud and Abuse Act of 1986 (CFAA).

[8Stack Overflow Will Charge AI Giants for Training Data, par Paresh Dave, Wired, 20 avril 2023. X/Twitter has updated its Terms of Service to let it use Posts for AI training, par Alex Ivanovs, Stackdiary, 1er septembre 2023. Twitter’s Terms of Service now bans AI data scraping but does that protect you ?, par Allisa James, Techradar, 8 septembre 2023. Reddit Signs AI Content Licensing Deal Ahead of IPO, par Amy Or, Bloomberg, 16 février 2024. Reddit in AI content licensing deal with Google, par Anna Tong, Echo Wang and Martin Coulter, Reuters, 22 février 2024.

[9The Murky Battlefield of Intellectual Property Theft and AI, par Maria Webb, Techopedia, 5 janvier 2024.

[10La Commission européenne ouvre une plateforme de données au secteur financier, par Alexandra Oubrier, L’Agefi, 21 mars 2024.

[11The Pros And Cons Of Using Synthetic Data For Training AI, par Kim Bozzella, 20 novembre 2023.

[12James Somers, un écrivain, programmeur et chroniqueur nouvelles technologies pour le New Yorker, estime ainsi qu’à terme, si elle est basée sur des liens hypertextes, « une IA sera capable d’observer, à partir de ses propres transcriptions de chat, qu’elle est sujette à des hallucinations dans un domaine particulier ; il sera tout à fait naturel de laisser cette tendance guider son ingestion vers des sujets qu’elle connaît le moins bien — la curiosité dans sa forme la plus élémentaire. » Il imagine donc « une conversation avec une future version de ChatGPT dans laquelle, après une période d’inactivité, il commence à me poser des questions. Un tel système ressemblerait à Stack Overflow, Wikipedia et Reddit combinés, sauf qu’au lieu de déposer le savoir sur la place publique, il s’accumulerait en privé, dans l’esprit d’un génie toujours plus grand. Observer le Web s’effondrer ainsi en un gigantesque chatbot serait un peu comme regarder une galaxie se transformer en un trou noir. ». How Will A.I. Learn Next ?, by James Somers, The New Yorker, 5 octobre 2023.

[14Ou bien — simple hypothèse — suite à un calcul par les ayant-droits les plus puissants pour se laisser la possibilité d’aspirer le contenu d’autres ayant-droits.

[15L’algorithme BERT de Google sort le 25 octobre 2019.

[16Merci au compte Twitter TheXeophon pour le truc.

[17Judge rejects most ChatGPT copyright claims from book authors, par Ashley Belanger, Ars Technica, 13 février 2024.

[18Résultat inachevé typique, a priori, d’un lobbying réussi.

[20Intelligence artificielle : la guerre des données, par Jacques Henno, Les Echos.fr, 25 juin 2024.

[21Fair Use or Infringement : Does Machine Learning Have to Respect Copyright ?, par Diana Bikbaeva, Lexology, 29 décembre 2022.

[22Perplexity Is a Bullshit Machine, par Dhruv Mehrotra et Tim Marchman, Wired, 19 juin 2024.

[23Piratage informatique : délits d’accès et de maintien frauduleux dans STAD, par Avi Bitton et Julie Palayer, Village de la Justice, 28 octobre 2020. Regards sur la loi Godfrain du 5 janvier 1988 relative à la fraude informatique, par Marc Watin-Augouard, directeur du Centre de recherche de l’Ecole des officiers de la Gendarmerie nationale (EOGN), fondateur du Forum International de la cybersécurité (FIC), président du Centre expert de lutte contre la cybercriminalité Français (CECyF), 2017. Histoire et actualité de la protection des STAD par le droit pénal, par Cédric Dubucq, 12 août 2020. La loi Godfrain : explications et illustrations, par Tris Acatrinei, Hackers Republic, 9 juillet 2012.

[25OpenAI—written evidence (LLM0113), House of Lords Communications and Digital Select Committee inquiry : Large language models. ChatGPT : OpenAI admet ne pouvoir se passer de contenu soumis au droit d’auteur, par Hocine Bouhadjera, Actualitté, 9 janvier 2024.

[26OpenAI Offers Publishers as Little as $1 Million a Year, par Sahil Patel et Stephanie Palazzolo, The Information, 4 janvier 2024.

[28Ce qu’implique l’accord entre OpenAI et « Le Monde », par Marina Alcaraz, Les Echos.fr, 14 mars 2024. « Le Monde » va toucher plusieurs millions par an de la part d’OpenAI, par M. Alcatraz, Les Echos.fr, 24 mai 2024.

[30OpenAI va pouvoir entraîner ses modèles avec les articles du « Financial Times », par Raphaël Balenieri, Les Echos.fr, 29 avril 2024.

[32The New York Times lawsuit : the case and its wider implications, par Andres Guadamuz, Technollama, 5 janvier 2024. New York Times Co.’s OpenAI-Microsoft Suit Is a Negotiating Tactic, par Cory Weinberg, The Information : The Briefing, 27 décembre 2023.

[34Google écope d’une amende de 250 millions d’euros en France, L’Agefi/Reuters, 20 mars 2024. Communiqué ADLC, 20 mars 2024. Google s’est engagé à ne pas contester les faits dans le cadre de la procédure de règlement, a déclaré l’ADLC, ajoutant que l’entreprise a également proposé une série de mesures correctives pour remédier à certaines lacunes.

[37The Pile : An 800GB Dataset of Diverse Text for Language Modeling, par Leo Gao, Stella Biderman, Sid Black et al., Arxiv, 31 décembre 2020.

[39Dirty Secrets of BookCorpus, a Key Dataset in Machine Learning, par Jack Bandy, Towards Data Science, 12 mai 202. Article scientifique : Addressing "Documentation Debt" in Machine Learning Research : A Retrospective Datasheet for BookCorpus, par Jack Bandy et Nicholas Vincent, Arxiv, 11 May 2021.

[41Here’s Proof You Can Train an AI Model Without Slurping Copyrighted Content, par Kate Knibbs, Wired, 20 mars 2024. Common Corpus est une collaboration coordonnée par la startup française Pleias, en association avec divers autres groupes d’IA, dont Allen AI, Nomic AI et EleutherAI. Il est soutenu par le ministère français de la culture et se targue d’inclure le plus grand ensemble de données ouvertes en français à ce jour. Le nouvel ensemble de données comporte également des limites. De nombreuses données du domaine public sont obsolètes - aux États-Unis, par exemple, la protection des droits d’auteur dure généralement plus de soixante-dix ans à compter de la mort de l’auteur -, de sorte que ce type de données ne permettra pas de fonder un modèle d’IA sur l’actualité ou sur des sujets de société.

[42GAFAMO = GAFAM + OpenAI.

[43Par exemple, le président fondateur de la Common Crawl Foundation, Gil Elbaz, a cofondé, avec Adam Weissman, la société Applied Semantics (ASI). ASI est connue pour son produit AdSense, devenu la régie publicitaire de Google.

[44Selon un article du Washington Post sur le dataset C4 (Inside the secret list of websites that make AI like ChatGPT sound smart, par Kevin Schaul, Szu Yu Chen et Nitasha Tiku, 19 avril 2023), « l’hébergement des données de Common Crawl est sponsorisé dans le cadre du programme de parrainage des données ouvertes d’Amazon Web Services ».

[45Inside the secret list of websites that make AI like ChatGPT sound smart, par Kevin Schaul, Szu Yu Chen et Nitasha Tiku, Washington Post, 19 avril 2023.

[46100 tokens = 75 mots. Source : ChatGPT LLM tokenizer, un site d’OpenAI.

[47J’ai certes demandé à CommonCrawl de cesser de crawler mon site et de retirer mes données de ses datasets. Mais cela ne vaut que pour le futur. Elles sont définitivement intégrées aux LLM qui ont utilisé CommonCrawl comme dataset d’entraînement avant ce retrait.

[49Dans lequel les fonds américains comme Andreessen Horowitz et Lightspeed Venture ont massivement investi lors de sa deuxième levée de fonds ...

[50De deux manières : par incorporation de CommonCrawl — encore lui — et d’images récoltées sur Internet.

[51Plus précisément, selon l’article de 2009 de Business Insider : « Unless you are breaking stuff, you are not moving fast enough. »

[52Les anciennes CGU (de Lexis 360 tout court, donc), sont encore disponibles à titre de comparaison.