Appuyez sur Entrée pour voir vos résultats ou Echap pour annuler.

La pollution qui remplit Internet. Ou comment détecter les textes générés par une IA, au-delà du copywriting

L’auteure du compte Twitter Madame Curves, une spécialiste OSINT, travaillait autrefois dans le rédactionnel web. Elle était donneur d’ordres pour des copywriters [1] ou encore rédacteurs web/publicitaires/marketing.

Elle résume dans un excellent fil Twitter de fin décembre 2022 les aspects techniques de ce métier, dont les productions ont envahi le Web.

Les "community contributors" ou "content creators" des jeux vidéo ne font rien d’autre, au fond. Eux aussi gagnent leur vie à faire de la publicité, indirectement, pour un produit.

ChatGPT et ses avatars d’IA générationnelles devraient encore augmenter la pollution d’Internet [2] par ces contenus le plus souvent sans saveur — et qui vous apprennent si peu. Comme l’écrivent Les Echos [3] :

« Il suffit de faire un tour sur des sites de génération de texte, comme Rytr.me ou Jasper.ai, pour comprendre que le marketing et la communication sont les cibles privilégiées de ces nouveaux outils.
La rédaction automatisée d’articles de blogs optimisant le référencement, de posts sur les réseaux sociaux, d’e-mails de démarchage, de fiches produits, de titres de vidéos accrocheurs, voire de publicités Facebook ou Google ou encore la recherche d’un nom de marque sont les principaux cas d’usage mis en avant par ces services. »

Pour continuer notre travail, nous autres spécialistes de l’information, veilleurs, documentalistes, il va bien falloir que nous détections ces productions d’IA genératives.

Car selon des chercheurs de l’Université Cornell, les gens trouvent crédibles les fake news générées par GPT-2 dans environ 66 % des cas [4]. Et ChatGPT a du succès auprès des étudiants. À Lyon, le 10 janvier 2023, le journal Le Progrès dévoilait que plus de 50% d’une classe avait utilisé le robot conversationnel dans un devoir. Les textes de la moitié des élèves présentaient des "similitudes troublantes" et étaient construits exactement de la même manière. L’enseignant, démuni, leur avait tout de même attribué la note de 11,75 sur 20.

Madame Curves propose :

« Désormais, je vais m’intéresser à la structure type des phrases ChapGPT. Aux symétries entre les nombres de mots, la ponctuation, etc. Un texte long et élaboré nécessitera toujours l’intervention d’un humain qui en aura conçu le plan intelligemment. »

Yann Houry, directeur de l’innovation au lycée français de Honk Kong, propose des outils et critères de détection des IA génératives de texte dans un fil Twitter et un billet sur son blog. Cet article de la MIT Technology Review en propose d’autres [5].

En résumé, les outils pour l’instant, ce n’est pas encore tout à fait ça :

  • les "large language models" (LLM) eux-mêmes peuvent également être utilisés pour détecter les textes générés par l’IA. L’une des méthodes les plus efficaces consiste à réentraîner le modèle sur des textes écrits par des humains et d’autres créés par des machines, afin qu’il apprenne à faire la différence entre les deux [6]
  • GPTrue or False, une extension pour Chrome, mais dédiée à détecter des textes générés par GPT-2
  • GPT-2 Output Detector de HuggingFace. Hélas, mon test indique que ChatGPT l’embrouille très facilement (voir copies écran infra)
  • des chercheurs de Harvard et d’IBM ont développé un outil appelé Giant Language Model Test Room (GLTR), qui aide les humains en mettant en évidence les passages qui pourraient avoir été générés par un programme informatique. Le "paper" sur GLTR est . Hélas, avec ChatGPT, la différence entre un article du NYT et mon test (directive droit d’auteur et intelligence artificielle) ne se voit presque pas
  • Originality.ai. Cette application de vérification d’originalité est censée détecter les plagiats et les textes générés par les IA. Mais le consultant en IA/ML Danny Richman la trompe assez facilement en adaptant le prompt
  • les solutions techniques supra ont de grosses limites. La plupart d’entre elles n’ont aucune chance contre la dernière génération de LLM, car elles sont construites sur le modèle GPT-2 ou d’autres modèles antérieurs, comme ce jeu, basé sur GPT-2 et datant de 2019 (GPT-3 et ChatGPT le mettraient à mal). Il leur faut beaucoup, beaucoup de texte ; elles seront donc moins efficaces contre les chatbots. Celles basées sur GPT-3 font mieux mais si vous "tweekez" le prompt (en lui demandant d’écrire comme un bloggeur ou un ouvrier mécontent ou autre ou de modifier la tonalité/style), vous les trompez assez aisément. De plus, l’utilisation de grands modèles linguistiques pour la détection nécessite des ordinateurs très puissants ...
  • les solutions techniques qui suivent marchent mieux, sans être pour autant parfaites :
    • AI Text Classifier est le détecteur proposé gratuitement par OpenAI eux-mêmes. Mais, sur leur blog, ils préviennent que même si ce nouvel instrument est plus perfectionné que ceux qui existent à l’heure actuelle, il n’est pas totalement « fiable ». Ainsi, lors de ses évaluations sur un ensemble de textes en anglais, il « a correctement identifié 26 % des textes écrits par l’IA (vrais positifs) comme étant "probablement écrits par l’IA" ». A l’inverse, il a incorrectement étiqueté des textes écrits par des humains comme étant écrits par l’IA dans 9 % des cas (faux positifs). Il fonctionne moins bien sur des textes courts (moins de 1.000 signes). Il marche mieux en anglais. Les Échos l’ont testé sur du français puis sa traduction en anglais par DeepL et trouvent qu’il marche plutôt bien
  • GPTZero, développé par Edward Tian. Gratuit. Plus les phrases et la structure du texte apparaissent aléatoires à GPTZero et plus la probabilité que le texte ait été produit par une IA est faible, ce que GPTZero traduit par un score élevé. Et inversement [7]. Cela dit, même sur un texte d’une originalité très faible, GPTZero n’est pas affirmatif à 100%. Une de ses limites est que GPTZero est développé sur GPT-2 et non GPT-3. Mais E. Tian a déjà développé une version payante améliorée. Cela dit, sur le contenu en français, elle ne me semble pas super performante
  • Detector DNG : détecteur ChatGPT - GPT3. Même principe de fonctionnement que GPTZero apparemment. Résultats un petit peu mieux que la version gratuite de GPTZero. Fonctionne en anglais seulement pour l’instant, mais les concepteurs (apparemment québécois) travaillent activement sur une version multilingue. Gratuit. Comme pour GPTZero, leur but est d’aider les enseignants et les plateformes de contenu à identifier les contenus IA
  • DetectGPT, encore un outil dédié à l’enseignement supérieur et lancé par l’Université de Stanford
  • OpenAI développe des "watermarks" pour les textes longs générés par des modèles tels que GPT-3 — « un signal secret autrement imperceptible dans ses choix de mots, que vous pouvez utiliser pour prouver plus tard que, oui, cela vient de GPT ». Mais de tels textes peuvent aisément être édités ou réécrits en partie par des humains.


Un résultat de GPTZero


Une production de ChatGPT


GPT-2 Output Detector ne détecte pas la production supra de ChatGPT

Il faut donc pour l’instant se rabattre en partie sur ce que mentionnait plus haut Madame Curves :

  • l’IA affirme d’énormes conneries sans sourciller
  • les mots sont courants. Aucun emploi rare
  • il n’y aucune erreur du type coquille et aucune erreur de typographie non plus. Les "language models" des IA génératives ne font pas de fautes de frappe. Ils sont parfaits pour générer des textes ... parfaits
  • si le texte est assez long, un indice très facile à repérer sont les mots "le" et "un" qui apparaissent trop souvent. Etant donné que les LLM fonctionnent en prédisant le mot suivant dans une phrase, ils sont plus susceptibles d’utiliser des mots courants comme "le", "l’", "les", "un","il" ou "est" au lieu de mots rares et bizarres [8]
  • ChatGPT et les versions 1 à 3 de GPT ne citent absolument pas la source des informations données : ni lien hypertexte ni note de bas de page ni référence citée entre parenthèses. De plus, si après des recherches, le texte que vous lisez ne repose sur aucune source, vous avez un indice supplémentaire
  • le plus efficace à notre avis est d’utiliser régulièrement ChatGPT, afin de s’habituer par exemple au côté le plus souvent "lisse", évident et répétitif de ses phrases pour mieux le détecter ailleurs.

En ce qui concerne l’évaluation des étudiants (TDs, devoirs, examens, dissertations etc.), l’utilisation d’une IA générative sera impossible à prouver (mais pas à fortement supposer). Les enseignants en droit en sont conscients [9]. Sciences Po a déjà demandé à ses enseignants d’interdire l’utilisation de ChatGPT [10].

Mais comment faire ? Il est à parier que les applications de détection de plagiat intégreront vite un détecteur GPT. Pour autant, la preuve sera impossible parce que ce n’est pas du plagiat donc pas une reproduction au moins partielle à l’identique. Mais laisser les devoir et examens devenir de simples exercices de prompt n’est pas un service à rendre aux étudiants pour leur future carrière. Voir notamment cette discussion sur Twitter entre David Monniaux et votre serviteur.

Emmanuel Barthe
documentaliste, veilleur, formateur

Notes

[1On parle aussi de "content writing".

[2Generative AI Could Pollute the Internet to Death, par Alberto Romero, The Algorithmic Bridge, 28 octobre 2022.

[3La communication et le marketing, terrains de jeu rêvés pour l’IA, par Stéphane Loignon, Les Echos.fr, 2 janvier 2023.

[5How to spot AI-generated text, par Melissa Heikkilä, MIT Technology Review, 19 décembre 2022.

[6Automatic Detection of Machine Generated Text : A Critical Survey, par Ganesh Jawahar et al., University of British Columbia, Vancouver, Canada.

[8Automatic Detection of Generated Text is Easiest when Humans are Fooled, par Daphne Ippolito et al., Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, p. 1808-1822, 5 -10 juillet 2020.

[9Fil Twitter initié par Brunessen Bertrand, professeur de droit public à l’Univesité de Rennes et travaillant notamment sur le droit européen de la cybersécurité et de l’IA, 27 décembre 2022.