Appuyez sur Entrée pour voir vos résultats ou Echap pour annuler.

La pollution qui remplit Internet. Ou comment détecter les textes générés par une IA, au-delà du copywriting
ChatGPT detectors

Sommaire :

GPT et al. et l’extension du domaine de la lutte anti-fake
Les détecteurs de GPTs ne marchent pas
Au-delà des détecteurs : une forme et un style "IA"
L’inévitable réforme des modes d’évaluation des étudiants

GPT et al. et l’extension du domaine de la lutte anti-fake

L’auteure du compte Twitter Madame Curves, une spécialiste OSINT, travaillait autrefois dans le rédactionnel web. Elle était donneur d’ordres pour des copywriters [1] ou encore rédacteurs web/publicitaires/marketing.

Elle résume dans un excellent fil Twitter de fin décembre 2022 les aspects techniques de ce métier, dont les productions ont envahi le Web.

Les "community contributors" ou "content creators" des jeux vidéo ne font rien d’autre, au fond. Eux aussi gagnent leur vie à faire de la publicité, indirectement, pour un produit.

ChatGPT et ses avatars d’IA générationnelles devraient encore augmenter la pollution d’Internet [2] par ces contenus le plus souvent sans saveur — et qui vous apprennent si peu. Comme l’écrivent Les Echos [3] :

« Il suffit de faire un tour sur des sites de génération de texte, comme Rytr.me ou Jasper.ai, pour comprendre que le marketing et la communication sont les cibles privilégiées de ces nouveaux outils.
La rédaction automatisée d’articles de blogs optimisant le référencement, de posts sur les réseaux sociaux, d’e-mails de démarchage, de fiches produits, de titres de vidéos accrocheurs, voire de publicités Facebook ou Google ou encore la recherche d’un nom de marque sont les principaux cas d’usage mis en avant par ces services. »

Pour continuer notre travail, nous autres spécialistes de l’information, veilleurs, documentalistes, il va bien falloir que nous détections ces productions d’IA genératives.

Car selon des chercheurs de l’Université Cornell, les gens trouvent crédibles les fake news générées par GPT-2 dans environ 66 % des cas [4]. Et ChatGPT a du succès auprès des étudiants. À Lyon, le 10 janvier 2023, le journal Le Progrès dévoilait que plus de 50% d’une classe avait utilisé le robot conversationnel dans un devoir. Les textes de la moitié des élèves présentaient des "similitudes troublantes" et étaient construits exactement de la même manière. L’enseignant, démuni, leur avait tout de même attribué la note de 11,75 sur 20.

Madame Curves propose :

« Désormais, je vais m’intéresser à la structure type des phrases ChapGPT. Aux symétries entre les nombres de mots, la ponctuation, etc. Un texte long et élaboré nécessitera toujours l’intervention d’un humain qui en aura conçu le plan intelligemment. »

Les détecteurs de GPTs ne marchent pas

Yann Houry, directeur de l’innovation au lycée français de Honk Kong, propose des outils et critères de détection des IA génératives de texte dans un fil Twitter et un billet sur son blog. Cet article de la MIT Technology Review en propose d’autres [5].

Les "large language models" (LLM) eux-mêmes peuvent également être utilisés pour détecter les textes générés par l’IA. L’une des méthodes les plus efficaces consiste à réentraîner le modèle sur des textes écrits par des humains et d’autres créés par des machines, afin qu’il apprenne à faire la différence entre les deux [6].

Mais globalement, c’est un échec, et OpenAI, après avoir tenté elle-même tenté quelque chose, a fait marche arrière et reconnaissait en septembre 2023 dans une FAQ sur ChatGPT destinée aux enseignants qu’aucun détecteur ne permet de « distinguer de manière fiable les contenus générés par l’IA de ceux générés par l’homme » [7].

En résumé, les outils de détection des productions des chatbots LLMs, pour l’instant, ce n’est pas ça. Même si les plus récents font mieux que les anciens, leur taux d’erreur reste beaucoup trop élevé pour leur faire confiance.

 Des outils qui marchent plus ou moins bien et plutôt mal que bien :

  • AI Text Classifier est le détecteur proposé gratuitement par OpenAI eux-mêmes.
    Mais, sur leur blog, ils préviennent que même si ce nouvel instrument est plus perfectionné que ceux qui existent à l’heure actuelle, il n’est pas totalement « fiable ». Ainsi, lors de ses évaluations sur un ensemble de textes en anglais, il « a correctement identifié 26 % des textes écrits par l’IA (vrais positifs) comme étant "probablement écrits par l’IA" ». A l’inverse, il a incorrectement étiqueté des textes écrits par des humains comme étant écrits par l’IA dans 9 % des cas (faux positifs). Il fonctionne moins bien sur des textes courts (moins de 1.000 signes). Il marche mieux en anglais. Les Echos l’ont testé sur du français puis sa traduction en anglais par DeepL et trouvent qu’il marche plutôt bien.
    En juillet 20232, OpenAI a retiré ce détecteur, signe qu’il est peu efficace [8]
  • GPTZero, développé par Edward Tian. Gratuit. Plus les phrases et la structure du texte apparaissent aléatoires à GPTZero et plus la probabilité que le texte ait été produit par une IA est faible, ce que GPTZero traduit par un score élevé. Et inversement [9]. Cela dit, même sur un texte d’une originalité très faible, GPTZero n’est pas affirmatif à 100%. Une de ses limites est que GPTZero est développé sur GPT-2 et non GPT-3. Mais E. Tian a déjà développé une version payante améliorée. Cela dit, sur le contenu en français, elle ne me semble pas super performante
  • Detector DNG : détecteur ChatGPT - GPT3. Même principe de fonctionnement que GPTZero apparemment. Résultats un petit peu mieux que la version gratuite de GPTZero. Fonctionne en anglais seulement pour l’instant, mais les concepteurs (apparemment québécois) travaillent activement sur une version multilingue. Gratuit. Comme pour GPTZero, leur but est d’aider les enseignants et les plateformes de contenu à identifier les contenus IA
  • DetectGPT, encore un outil dédié à l’enseignement supérieur et lancé par l’Université de Stanford.

 Des outils anciens qui ne "marchent" plus :

  • GPTrue or False, une extension pour Chrome, mais dédiée à détecter des textes générés par GPT-2
  • GPT-2 Output Detector de HuggingFace. Hélas, mon test indique que ChatGPT l’embrouille très facilement (voir copies écran infra)
  • des chercheurs de Harvard et d’IBM ont développé un outil appelé Giant Language Model Test Room (GLTR), qui aide les humains en mettant en évidence les passages qui pourraient avoir été générés par un programme informatique. Le "paper" sur GLTR est . Hélas, avec ChatGPT, la différence entre un article du NYT et mon test (directive droit d’auteur et intelligence artificielle) ne se voit presque pas
  • Originality.ai. Cette application de vérification d’originalité est censée détecter les plagiats et les textes générés par les IA. Mais le consultant en IA/ML Danny Richman la trompe assez facilement en adaptant le prompt
  • les solutions techniques supra ont de grosses limites. La plupart d’entre elles n’ont aucune chance contre la dernière génération de LLM, car elles sont construites sur le modèle GPT-2 ou d’autres modèles antérieurs, comme ce jeu, basé sur GPT-2 et datant de 2019 (GPT-3 et ChatGPT le mettraient à mal). Il leur faut beaucoup, beaucoup de texte ; elles seront donc moins efficaces contre les chatbots. Celles basées sur GPT-3 font mieux mais si vous "tweekez" le prompt (en lui demandant d’écrire comme un bloggeur ou un ouvrier mécontent ou autre ou de modifier la tonalité/style), vous les trompez assez aisément. De plus, l’utilisation de grands modèles linguistiques pour la détection nécessite des ordinateurs très puissants ...


Un résultat de GPTZero


Une production de ChatGPT


GPT-2 Output Detector ne détecte pas la production supra de ChatGPT

Les productions de GPT-4 sont très difficile à détecter. Ce constat a été étayé en mars dans un article académique produit par ChatGPT Plus lui-même... Tout le monde s’est fait berner.

Au-delà des détecteurs : une forme et un style "IA"

Il faut donc pour l’instant se rabattre en partie sur ce que mentionnait plus haut Madame Curves — et ajoutons y des indices donnés par MakeUseOf [10] :

  • l’IA affirme d’énormes conneries sans sourciller
  • répétitions de mots ou d’expressions
  • les transitions ne sont pas naturelles
  • beaucoup de faits assénés mais très peu d’opinions
  • pas d’émotions ni d’expériences personnelles
  • les mots sont courants. Aucun emploi rare
  • il n’y aucune erreur du type coquille et aucune erreur de typographie non plus. Les "language models" des IA génératives ne font pas de fautes de frappe. Ils sont parfaits pour générer des textes ... parfaits
  • si le texte est assez long, un indice très facile à repérer sont les mots "le" et "un" qui apparaissent trop souvent. Etant donné que les LLM fonctionnent en prédisant le mot suivant dans une phrase, ils sont plus susceptibles d’utiliser des mots courants comme "le", "l’", "les", "un","il" ou "est" au lieu de mots rares et bizarres [11]
  • ChatGPT et les versions 1 à 3 de GPT ne citent absolument pas la source des informations données : ni lien hypertexte ni note de bas de page ni référence citée entre parenthèses. De plus, si après des recherches, le texte que vous lisez ne repose sur aucune source, vous avez un indice supplémentaire. Une bonne méthode de détection des textes générés par ChatGPT est donc de passer ses productions à l’anti-plagiat : on détecte alors des citations et des références qui n’existent nulle part et inventées de toute pièce par ChatGPT (qui ne sait pas citer ses sources — en revanche Bing AI est censé savoir le faire)
  • le plus efficace à notre avis est d’utiliser régulièrement ChatGPT, afin de s’habituer par exemple au côté le plus souvent "lisse", évident et répétitif de ses phrases pour mieux le détecter ailleurs.

Evidemment, comme le note Pierre-Carl Langlais, ces caractéristiques disparaisssent si on demande à l’IA de suivre le style d’un écrivain. On obtient alors facilement des termes rares et une expression assez personnelle/émotive.

L’inévitable réforme des modes d’évaluation des étudiants

En ce qui concerne l’évaluation des étudiants (TDs, devoirs, examens, dissertations etc.), l’utilisation d’une IA générative sera impossible à prouver (mais pas à fortement supposer).

Les enseignants en droit en sont conscients [12]. Sciences Po a déjà demandé à ses enseignants d’interdire l’utilisation de ChatGPT [13].

Mais comment faire ? Il est à parier que les applications de détection de plagiat intégreront vite un détecteur GPT. Pour autant, la preuve sera impossible parce que ce n’est pas du plagiat donc pas une reproduction au moins partielle à l’identique. Mais laisser les devoir et examens devenir de simples exercices de prompt n’est pas un service à rendre aux étudiants pour leur future carrière. Voir notamment cette discussion sur Twitter entre David Monniaux et votre serviteur.

Emmanuel Barthe
documentaliste, veilleur, formateur

Notes

[1On parle aussi de "content writing".

[2Generative AI Could Pollute the Internet to Death, par Alberto Romero, The Algorithmic Bridge, 28 octobre 2022.

[3La communication et le marketing, terrains de jeu rêvés pour l’IA, par Stéphane Loignon, Les Echos.fr, 2 janvier 2023.

[5How to spot AI-generated text, par Melissa Heikkilä, MIT Technology Review, 19 décembre 2022.

[6Automatic Detection of Machine Generated Text : A Critical Survey, par Ganesh Jawahar et al., University of British Columbia, Vancouver, Canada.

[7OpenAI confirms that AI writing detectors don’t work, par Nenj Edwads, Ars Technica, 8 septembre 2023

[8OpenAI discontinues its AI writing detector due to "low rate of accuracy", par Benj Edwards, Arc Technica 26 juillet 2023.

[10The Dangers of AI Writing and How to Spot AI-Generated Text, par Denis Manyinsa, MakeUseOf, 30 janvier 2023.

[11Automatic Detection of Generated Text is Easiest when Humans are Fooled, par Daphne Ippolito et al., Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, p. 1808-1822, 5 -10 juillet 2020.

[12Fil Twitter initié par Brunessen Bertrand, professeur de droit public à l’Univesité de Rennes et travaillant notamment sur le droit européen de la cybersécurité et de l’IA, 27 décembre 2022.