Détection de contenus IA : explication + liste des meilleurs outils

Nous vous proposons cette excellente contribution de Web Rank Info

En complément de cet article, vous ne manquerez pas de lire ma liste des meilleurs prompts ChatGPT pour le SEO. Vous y découvrirez que je déconseille d’exploiter tels quels les contenus générés par l’IA de ChatGPT…

Pour m’assurer d’avoir des informations à jour et d’un haut niveau d’expertise, j’ai interrogé deux amis spécialistes de l’IA et du SEO : Vincent Terrasi et Sylvain Peyronnet. Je les remercie fortement !

Vincent Terrasi

Vincent Terrasi fait partie des pionniers de la data science et du machine learning pour le SEO. Il est cofondateur de Draft & Goal, une startup qui développe une solution de flux de production contenu IA automatisé avec une garantie de l’éthique et de la qualité des contenus générés.

Sylvain Peyronnet

Sylvain Peyronnet est un grand spécialiste des algorithmes, notamment ceux utilisés dans le search marketing. Après avoir été professeur en université, il dirige désormais Babbar, une entreprise technologique qui édite les outils SEO yourtext.guru et babbar.tech.

 

C’est parti…

Procédés de détection des contenus rédigés par de l’IA

Comment fait-on pour détecter si un contenu a été généré par IA ?

Vincent :

Pour détecter l’IA, les outils utilisent principalement des méthodes de classification pour détecter les empreintes de l’IA, il est même possible de savoir quel passage de la phrase à été généré par l’IA.

Cette approche fonctionne plus ou moins bien car un utilisateur peut venir faire des modifications et rendre le texte plus difficile à détecter.

C’est pourquoi avec DnG, nous utilisons d’autres approches comme la détection de répétitions, d’exagérations et d’autres critères et c’est ainsi qu’on arrive à mieux détecter l’IA. GPT-4 sera très performant et nous anticipons son arrivée.

Sylvain :

Il y a vraiment beaucoup de méthodes, mais si j’oublie les méthodes « actives » de type watermarking et autres, la plupart sont basées sur IA vs IA, on va donc créer des classifieurs qui vont donner une probabilité d’être généré par tel ou tel modèle à chaque texte.

Certains sont basés sur des statistiques toutes bêtes sur les mots (taux de compression, densité des mots clés, résidus post lemmatisation, etc.). D’autres se basent sur des encodages dans des espaces latents (en utilisant des modèles de la langue). En termes d’algos, on trouve de tout, aussi bien avec que sans réseaux de neurones.

L’idée de la plupart des méthodes c’est de trouver les facteurs discriminants qui ne sont pas « perdus » dans les statistiques que suivent les modèles de la langue. Je m’explique : un générateur IA va construire des contenus qui obéissent à des statistiques « naturelles » de la langue. Mais les statistiques « perdent » de l’information (comme quand on parle de salaire moyen, on perd de l’info car on ne connaît pas la vraie distribution). Les méthodes de détection vont donc se focaliser sur les comportements humains non captés par les modèles et voir s’ils sont présents. Ils vont aussi voir les comportement IA que les humains n’ont pas afin de les détecter.

Il y a une zone grise. C’est amusant et je ne vais pas donner de nom, mais j’ai vu un outil tous les premiers termes des paragraphes d’intro c’est des « en effet », « malgré que », « en conséquence », « on note », « il est important », etc. C’est un pattern typiquement non humain (les humains ont une compréhension implicite des articulations logiques donc en utilisent moins que l’IA).

Ça marche aussi quand le texte IA a été (légèrement) remanié par un humain ?

Sylvain : C’est très variable, mais si les modifications sont peu nombreuses ça doit l’être. Cela dit, même le mélange de certains contenus issus de modèles différents peut suffire à casser la détection. Ça va vraiment dépendre des fonctionnalités qu’on utilise pour la détection.

Y a-t-il des algos connus de détection ?

Vincent :

Oui, OpenAI a publié son classifier il y a 3 ans. Il a été entraîné avec GPT-2 mais fonctionne encore avec GPT-3. Par contre, il devient moins fiable avec ChatGPT et surtout les retouches humaines. Trois ans, c’est juste une éternité dans le monde de l’IA…

Sylvain :

C’est de la classification, il n’y a pas spécialement de nouvel algo c’est hyper balisé. Il faut aussi se pencher sur les modèles qui sont utilisés par ces algos. Il y a beaucoup d’approches différentes, les premières datent de 2010, voire avant peut-être je pense.

Depuis 2019, il y a de nombreuses approches basées sur GPT2, Grover (qui a été conçu pour ça par le Allen Institute), BERT, RoBERTa, mais aussi les anciens algos comme xgboost ou autres.

Concernant les features, on distingue les features statistiques standards et celles issues des modèles à base de réseaux de neurones (on dit NLM pour Neural Language Model).

D’un point de vue académique, c’est étudié mais il n’y a pas une grosse littérature (ça prend du temps), je ne connais que 3 ou 4 articles sur la détection de GPT3 par exemple.

Est-ce mieux de créer son propre algo de détection ?

Vincent : Chez Draft&Goal, nous avons créé notre algorithme de détection pour pouvoir le personnaliser sur de nombreux types de textes et de langues. En plus, chaque algorithme de détection aura sa particularité, notre objectif est d’aider les enseignants et en autres d’aider les universités et les écoles en identifiant la triche, les fake news, les faux commentaires.

Sylvain : C’est très couteux d’un point de vue data, donc dans l’absolu oui mais c’est compliqué.

Comment s’assurer qu’il ne se fera pas avoir par les évolutions des outils de génération de contenu ?

Vincent :

Concernant les évolutions futures des outils de génération de contenu, notre approche est de détecter différents types d’empreintes pour ne pas être contourné.

OpenAI va mettre en place des signatures dans les textes, c’est-à-dire des informations cachées dans les textes qui permettent de savoir que c’est un texte généré.

Encore une fois, si le texte est retravaillé ou paraphrasé, je pense que la détection sera difficile. Par contre , les contenus IA de qualité qui sont parfaitement retravaillés ou validés par l’humain, n’ont pas vocation à être détectés.

Avec Draft&Goal, nous souhaitons mettre en avant l’utilisation d’une IA éthique qui est responsable et respectueuse des individus. Demander à l’IA de faire ses devoirs à sa place n’apporte rien à un élève à part savoir faire copier/coller !

Sylvain :

C’est impossible sauf à utiliser un tiers comme « oracle », c’est-à-dire avoir une source de données analysées qui est mise à jour périodiquement. Par ailleurs plus les modèles évoluent, plus ils captent de statistiques mêmes extremes des contenus humains, donc plus c’est compliqué de faire la détection. C’est pour ça que des chercheurs travaillent sur le watermarking de contenus IA.

C’est comme pour les outils d’optimisation sémantique, avec YTG on utilise Google comme Oracle pour fine-tune la data, c’est pour ça que plus Google s’améliore, plus les résultats de positionnements de YTG sont bons.

Est-ce coûteux en calculs de faire ces détections ?

Vincent : Oui, cela peut être coûteux si on entraîne son système de classification. Faire tourner un détecteur entraîne des coûts de processing, c’est un des plus gros challenges.

Sylvain : Ce qui est coûteux c’est de fabriquer le modèle et les classifieurs, mais l’inférence ce n’est pas couteux. C’est couteux comme Panda est couteux.

Google (ou Bing et les autres) peut-il se permettre de faire cette détection sur l’ensemble des contenus qu’il crawle ?

Vincent : Les moteurs de recherche ont un grand intérêt à détecter les contenus créés par l’intelligence artificielle car celui-ci comporte un certain nombre d’informations erronées et on sait que Google a travers des mises à jour sanctionne ce type de contenu.

Sylvain : Bien sûr, c’est passer un classifieur sur chaque contenu crawlé, même chez Babbar on le fait, alors chez Google autant dire que c’est rien du tout. Par contre cela impose de la planification comme tout passage en prod à très grande échelle : plus de machines, revoir le séquençage du pipeline d’analyse, etc. Cela ne se fait pas en 2 semaines. C’est un peu comme quand Navneet Panda a créé l’algo qui porte son nom, industrialiser c’est du travail, et c’est du travail qui demande de la rigueur et du temps.

Contenus IA, consignes Google et SEO

À ton avis, Google a-t-il mis en place une détection des contenus IA ?

(je ne demande pas s’il sait le faire mais s’il le fait à grand échelle)

Vincent : Google peut détecter le contenu IA mais pas sur toutes les pages, il analyse certaines parties pour déterminer la qualité d’un texte. Encore une fois, si le texte est de qualité et bien écrit , il ne sera pas sanctionné. S’il s’agit de textes qui ont pour habitude d’être dupliqué comme de la description produit, il ne sera pas sanctionné non plus. Google a beaucoup communiqué sur le sujet depuis ce début d’année.

Sylvain : Pour l’instant je dis non si tu veux dire une détection systématique. Au cas par cas sur des sites (par exemple pour valider une insertion sur Google Ads) peut-être, mais je ne mettrais pas ma main à couper.

À ton avis, si Google repère que le contenu est 100% IA, n’est-ce pas un point pénalisant dans l’algo de ranking ?

Vincent : Je pense qu’il faut prendre la réflexion à l’envers, si un contenu 100% IA ranke mieux que l’humain, dans ce cas c’est Google qui va le générer avec son ChatBot. Certains types de contenu froid vont avoir beaucoup de mal à se positionner dans Google dans un futur proche. Ensuite, les contenus IA peuvent véhiculer des informations fausses ou dangereuses, Google combat donc activement les contenus qui peuvent être nuisibles aux utilisateurs.

Sylvain : Je pense que non pour le search. Pour les ads là aussi c’est peut être une autre histoire.

Consignes de Google pour l’IA, risque de pénalité SEO

Je n’ai pas posé la question à Vincent et Sylvain, en tout cas voici ce qu’on trouve dans les consignes officielles :

Le contenu généré automatiquement qui inclut du spam désigne un contenu généré de manière programmatique sans produire quoi que ce soit d’original ni apporter de valeur ajoutée. Au lieu de cela, il a été généré dans le but principal de manipuler le classement dans les résultats de recherche et non d’aider les utilisateurs. En voici quelques exemples :

  • Texte qui contient des mots clés de recherche, mais qui n’a aucun sens pour le lecteur
  • Texte traduit par un outil automatisé sans intervention humaine, ni correction avant publication
  • Texte généré par des processus automatisés sans tenir compte de la qualité ni de l’expérience utilisateur
  • Texte généré à l’aide de techniques automatisées de synonymie, de paraphrase ou d’obscurcissement
  • Texte généré par un scraping des flux ou des résultats de recherche
  • Assemblage ou combinaison de contenus issus de différentes pages Web sans ajout de valeur

Google Search Central, Contenu généré automatiquement qui inclut du spam (source)

Voici par exemple ce qu’a rappelé Danny Sullivan :

Nous n’avons pas dit que le contenu IA est mauvais. Nous avons dit, assez clairement, que le ce qui pose problème c’est le contenu écrit principalement pour les moteurs de recherche plutôt que pour les humains. C’est sur cela que nous nous concentrons.

Danny Sullivan, 7 novembre 2022 (source)

Dans l’article de Google à propos de l’algo pour le contenu utile, il est indiqué qu’il est destiné à promouvoir les contenus générés par des personnes pour des personnes. Selon Danny Sullivan, la nuance est qu’il est peu probable que le contenu IA soit écrit par des personnes sans un certain degré de révision humaine. Il précise que si on essaie de comprendre comment l’IA peut contribuer à une bonne ou mauvaise visibilité sur Google, on se concentre trop sur l’outil et non sur le contenu. Le contenu que l’on produit doit être utile, fiable et axé sur les personnes. C’est tout.

En janvier 2023, Danny a encore répondu à ces questions :

Comme nous l’avons déjà dit lorsque nous avons été interrogés sur l’IA, le contenu créé principalement pour le positionnement dans les moteurs de recherche, quelle que soit la manière dont il est fait, est contraire à nos recommandations. Si le contenu est utile et créé pour les gens d’abord, ce n’est pas un problème.

Danny Sullivan au nom de Google SearchLiaison, 12 janvier 2023 (source)

Je vous laisse conclure, mais d’après la communication officielle, il semblerait que Google ne considère pas que le fait qu’un texte ait été généré par IA mérite en soi d’être pénalisé.

Liste des outils détecteurs de contenus IA

Voici la liste que j’ai pu constituer. Dites-moi en commentaires si vous en connaissez d’autres.

Est-ce qu’ils fonctionnent bien ?

J’ai remarqué qu’ils peuvent être mis en erreur si quelques retouches sont faites à la main sur le texte, ou si on passe par un traducteur automatique, ou si le texte est trop court.

Enfin, certains ne fonctionnent qu’en anglais.

Par contre, on pourrait dire qu’ils fonctionnent relativement bien pour repérer les contenus générés par IA de mauvaise qualité, c’est-à-dire ceux que Google souhaite repérer et pénaliser (via son algo HCU et autres core updates).

On attend encore la sortie d’outils exploitant des techniques de AI Watermarking, c’est-à-dire que l’outil qui génère le texte insère un marquage invisible pour l’humain mais identifiable par quiconque disposerait de l’algorithme pour le repérer. Ce serait utile par exemple dans le secteur de l’éducation (professeurs).

Draft&Goal

Lien : detector.dng.ai/fr

Draft&Goal propose depuis janvier 2023 un détecteur ChatGPT – GPT3. Il analyse les différentes empreintes laissées par les modèles d’IA afin de déterminer si un texte a été écrit par une IA ou un humain. L’entreprise s’engage sur une IA éthique qui n’est pas utilisée de manière trompeuse.

GPT Radar

Lien : gptradar.com

GPT Radar utilise OpenAI GPT-3 pour analyser un texte et effectuer des calculs complexes afin de déterminer si le contenu a été écrit par un ordinateur ou par une personne. GPTRadar a été développé chez Neuraltext par Alessio Nittoli et Antonio Cappiello.

GPTZero

Lien : gptzero.me

Développé par Edward Tian, étudiant à l’université de Princeton, GPTZero recherche la « perplexité » et l' »éclat » (burstiness) pour déterminer si le texte a été écrit par un humain ou par ChatGPT.

Originality

Lien : originality.ai

L’outil se présente comme un vérificateur de plagiat et un détecteur d’IA pour des contenus générés avec GPT 3, GPT 3.5 ou ChatGPT. Il existe une extension Chrome pour faciliter les tests.

Originality.AI a été conçu par une équipe d’experts en marketing de contenu et en intelligence artificielle GPT-3. En plus de la détection de l’écriture par intelligence artificielle, l’outil comprend des fonctionnalités telles que la gestion d’équipe, l’analyse complète du site (bientôt disponible), la facturation automatique, l’historique des analyses par utilisateur.

Content At Scale detector

Lien : https://contentatscale.ai/ai-content-detector/

Il est capable de détecter les contenus générés par GPT 3, GPT 3.5 et ChatGPT. Il fonctionne aussi en français.

Copyleaks AI Content Detector

Lien : https://copyleaks.com/features/ai-content-detector

En utilisant une approche de « lutte contre le feu par le feu », ce détecteur de contenu IA exploite la puissance de la technologie IA pour détecter la présence de l’IA. Copyleaks indique pouvoir détecter le contenu généré par presque tous les robots de texte IA, y compris ChatGPT.

Grover

Lien : https://grover.allenai.org/detect

L’outil est présenté comme une solution de pointe pour la détection des fake news générées par IA.

Writer AI content detector tool

Lien : https://writer.com/ai-content-detector/

Il est capable de détecter les contenus générés par GPT 3, GPT 3.5 et ChatGPT.

PoemOfQuotes

Lien : https://www.poemofquotes.com/tools/ai-content-detector.php

Cet outil de détection de contenu IA vous aide à identifier si le contenu a été écrit par un humain ou par GPT-3 ou GPT-2 ou un autre modèle d’intelligence artificielle.

Crossplag

Lien : https://crossplag.com/ai-content-detector/

Ce détecteur de contenus générés par intelligence artificielle cherche à prédire l’origine du texte en utilisant une combinaison d’algorithmes d’apprentissage automatique et de techniques de traitement du langage naturel. En utilisant un vaste ensemble de données de contenu créé par l’IA et de contenu écrit par l’homme, l’outil est formé pour apprendre les modèles et les caractéristiques de chaque forme d’écriture afin de les détecter.

Sapling

Lien : https://sapling.ai/utilities/ai-content-detector

Cet outil indique la probabilité qu’un élément de contenu ait été généré par l’IA par un modèle tel que GPT-3 ou ChatGPT.

GPT-2 Output Detector Demo

Lien : https://openai-openai-detector.hf.space/

Il s’agit d’une démo d’un code disponible sur Github, basé sur l’implémentation /Transformers de RoBERTa pour détecter des contenus générés par GPT2 (c’est donc dépassé).

Voir aussi

Laisser un commentaire

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici

Copy link
Powered by Social Snap