Depuis bientôt un an, les IA (intelligences artificielles) génératives sont devenues incontournables dans le monde numérique. Capables de produire des contenus (textes, images, sons…etc.) à partir d’autres données, créées par des humains, elles ont besoin de s’entraîner pour évoluer et proposer des résultats toujours plus pertinents. Parmi les plus connues, se trouvent :
- ChatGPT, le désormais célèbre robot d’OpenAI qui génère des contenus et répond aux questions de ses utilisateurs ;
- DALL-E, un outil également développé par OpenAI qui produit des images à partir de requêtes textuelles, et peut les retoucher, les décliner en diverses versions ;
- Bard, la réplique de Google à ChatGPT qui a un fonctionnement similaire à celui-ci ;
- Midjourney, une IA d’un laboratoire indépendant, puissante et concurrente de DALL-E qui est capable de générer des images très réalistes.
Autant d’outils IA innovants donc, auxquels il est difficile d’échapper aujourd’hui. En particulier pour les sites Internet, dont les données sont utilisées par les IA génératives pour s’entraîner. Or, cela n’est pas du goût de tous les propriétaires, administrateurs, créateurs qui n’hésitent plus à les empêcher d’accéder à leurs données. Il est en effet possible de bloquer leurs robots d’indexation, comme nous allons vous l’expliquer dans cet article.
IA générative : un puissant moyen pour récolter, analyser et exploiter les données d’un site Internet
Pour améliorer leur précision et la qualité des images, des textes qu’elles génèrent, les IA génératives ont besoin de s’entraîner. Concrètement, grâce à leurs robots d’indexation, elles récoltent des données sur les pages des sites web qui leur permettent d’accroître leurs capacités et leur fiabilité. Mais cela a des conséquences sur les sites concernés par cette collecte de données qui :
- sont dépossédés de leurs images, de leurs textes ;
- voient leur trafic diminuer ;
- ne reçoivent aucune contrepartie malgré une exploitation de leurs données.
Face à cette situation, ils ont donc décidé d’agir en restreignant, partiellement ou totalement, l’accès à leurs données aux robots d’indexation des IA génératives. Une manière pour eux de se protéger, et de conserver la propriété de leurs créations.
Le crawler d’OpenAI bloqué par de plus en plus de sites Internet en France et dans le monde
Début août 2023, OpenAI dévoilait son robot d’indexation GPTBot qui a pour objectif d’extraire des données des pages de sites pour aider ses IA à devenir plus précises. Anticipant les réactions des plateformes en ligne, l’entreprise a précisé que son robot pouvait « filtrer et supprimer les sources qui nécessitent un accès payant, qui sont connues pour recueillir des informations personnelles identifiables (IPI) ou dont le contenu enfreint nos politiques ».
Mais cela n’a pas suffi à les rassurer. Rapidement, dès la mi-août 2023, des médias généralistes ont bloqué l’accès à GPTBot dont :
- le New York Times ;
- The Guardian ;
- CNN ;
- Reuters ;
- Radio France ;
- le groupe TF1 ;
- France Médias Monde.
Puis, ils ont été suivis par d’autres sites, des géants de l’e-commerce notamment, tels que :
- Ikea ;
- Amazon ;
- Airbnb ;
- Lonely Planet ;
- Shutterstock…
Une liste non-exhaustive, qui s’allonge au fil des mois, et qui prouve la méfiance inspirée par ces IA génératives.
Pourquoi de tels blocages et restrictions ?
Cette inquiétude à l’égard de ces outils ne date pas de cet été. Dès leur arrivée massive sur Internet, de nombreux professionnels ont exprimé leurs craintes concernant :
- l’avenir de différents métiers ;
- l’utilisation des données par ces IA ;
- la diffusion de « fake news » (fausses informations en français) qu’elles favorisent.
Cependant, depuis l’annonce par OpenAI du déploiement de GPTBot, cette défiance s’est accentuée. Comme le rapporte le Blog du Modérateur dans un article, plusieurs médias ont exprimé publiquement leur position dont The Guardian. Son porte-parole a ainsi expliqué que : « la collecte de la propriété intellectuelle du site web du Guardian à des fins commerciales est, et a toujours été, contraire à nos conditions générales d’utilisation ».
Dès lors, pour de nombreux sites et plateformes, cette collecte s’apparente à une utilisation abusive de leurs données. D’autant qu’il s’agit de textes, d’images, de musiques qui sont les fruits d’un travail. Et bien que ces IA génératives n’aient pas accès aux contenus privés ou payants (réservés à des abonnés par exemple), le fait qu’elles puissent réutiliser des données accessibles à tous, pour s’entraîner, est difficilement accepté.
Ainsi, à ce jour, plusieurs raisons sont évoquées pour justifier ce blocage des robots d’indexation des IA génératives, dont :
- la mauvaise utilisation ou mauvaise interprétation de contenus ;
- le non-respect des droits d’auteur et de la propriété intellectuelle ;
- la crainte de l’accès à des données sensibles ou confidentielles bien qu’en principe, leur collecte soit exclue par les robots.
La marche à suivre pour restreindre l’accès de ces IA aux données d’un site
Les IA génératives accèdent par défaut aux données d’un site accessibles à tous, gratuitement. Elles s’entraînent également à l’aide des conversations de leurs utilisateurs sur les chatbots. Cependant, il est possible d’empêcher ou de limiter la récupération et l’utilisation de ces données. Plusieurs sites et plateformes bien connus du grand public l’ont déjà fait, comme nous l’avons précédemment expliqué. Une restriction d’accès qui n’est pas réservée aux géants du web puisque n’importe quel site peut la mettre en place. Il existe d’ailleurs plusieurs méthodes, qui permettent un blocage partiel ou total.
Désactiver l’historique des discussions sur ChatGPT
Les utilisateurs de ChatGPT sur navigateur web ou sur smartphone peuvent désactiver l’historique de leurs conversations avec l’outil. Cela se fait assez simplement :
- sur un navigateur web, il faut cliquer sur le menu (les 3 points en bas à gauche de l’écran), puis sur « Settings ». Une fenêtre apparaît alors. Il faut ensuite cliquer sur « Data Controls », et désélectionner l’option « Chat history & training ».
- Sur Android et iOs, il faut cliquer sur le menu en haut à gauche de l’écran (les 3 tirets »), puis sur « Settings » et enfin, sur « Data Controls » pour décocher l’option « Chat history & training ».
Cette désactivation de l’historique n’étant pas synchronisée sur la version web et la version mobile, il faut le faire sur chaque interface.
Utiliser un fichier robots.txt habilement renseigné
Pour empêcher les IA génératives, ChatGPT en tête, d’accéder aux données d’un site pour les collecter, il est possible de modifier le robots.txt. OpenAI détaille d’ailleurs la procédure sur son site en expliquant qu’il faut ajouter dans un fichier robots.txt les mentions suivantes :
pour un blocage total :
User-agent: ChatGPT-User
Disallow: /
interdire l’exploration d’un répertoire et de son contenu :
User-agent: ChatGPT-User
Disallow: /tennis/
Disallow: /rugby/
Disallow: /basket/joueur/tony-parker/
interdire l’exploration de tout le site Web, sauf un sous-répertoire :
User-agent: ChatGPT-User
Disallow: /
Allow: /foot/
Il est également possible de bloquer les robots d’exploration de ChatGPT en ajoutant l’instruction suivante dans le fichier robots.txt de votre site Internet. Pour Common Crawl, le User Agent à utiliser dans le fichier robots.txt est CCBot.
User-agent: CCBot
Disallow: /
Pour mettre toutes les chances de son côté, voici les quelques lignes à ajouter dans son fichier robots.txt pour interdire la moindre exploration de ChatGPT sur son site Internet.
# Interdire les robots de OpenAI
User-agent: ChatGPT-User
Disallow: /
User-agent: GPTBot
Disallow: /
User-agent: CCBot
Disallow: /
Remplir le formulaire de « désinscription des artistes et propriétaires de contenu »
Une autre solution est à la disposition des sites pour protéger leurs données et éviter leur utilisation par les IA génératives. Elle a également été proposée par OpenAI, et concerne donc uniquement ChatGPT. Elle prend cette fois la forme d’un formulaire qui permet, aux auteurs de contenus créatifs, de lui demander de supprimer les données qui y sont liées. En d’autres termes, elles ne seront pas utilisées pour l’entraînement de ChatGPT. Une manière de protéger leurs contenus, leurs créations.
Disponible en ligne, ce formulaire doit être rempli par les auteurs de contenus (artistes, titulaires de droits de propriété intellectuelle). Ensuite, la demande est examinée par OpenAI, qui peut les contacter pour obtenir des informations supplémentaires. Puis, lorsque les informations sont vérifiées, la société s’engage à supprimer les contenus concernés des « futurs ensembles de données de formation ».
En revanche, ne sont pas supprimés les contenus concédés à des licences qui sont détenues par OpenAI. Pour en savoir plus sur le blocage d’accès des robots d’indexation des IA génératives à un site, n’hésitez pas à nous contacter. Nos experts pourront vous aider dans vos démarches, en particulier dans la modification de votre fichier robots.txt.