Pas de robots sur ce site, merci

22 janvier 2024

Ce billet est le 301ème que compte ce site. J'y ai repris sérieusement l'écriture en mars 2018, à l'occasion de mon passage en indépendant. Je constate d'ailleurs que j'ai perdu ou supprimé tous les articles antérieurs à cette date. Plus rien entre 2011 et 2018. C'est dommage. Ou pas, j'hésite. C'est dommage, parce que je me dis de plus en plus que c'est intéressant, parfois émouvant de se relire 10 ans plus tard. Et peut-être pas, peut-être que c'est bien aussi d'oublier, de ne pas tout stocker, de lâcher prise.

Alors que 2024 commence, je viens d'éditer le fichier robots.txt de mon site pour demander aux divers « AI scrapers » (je ne sais pas comment traduire ce terme, aspirateurs ?) de ne pas se nourrir de mon contenu. Merci au site Dark Visitors de tenir à jour une liste de ces bots, crawlers, et autres pourritures de notre web moderne (sic). Merci également à Martin Vassor de rappeler sur Mastodon que :

[...] « robots.txt ne « bloque » rien, et ne « protège » pas un site. C'est juste une demande polie aux robots de ne pas regarder tel dossier, d'ailleurs surtout dans le but d'informer lesdits robots que lesdits dossiers ne contiennent rien d'utile pour lesdits robots. En aucun cas lesdits robots sont tenus de respecter le robots.txt; voire même les informe de l'existence de tels dossiers. »

Ce geste de refuser l'accès à des aspirateurs de contenus pour entrainer des modèles d'IA ne provient pas d'une volonté de protéger mon contenu (il est sous licence libre), ou une stratégie économique (je n'en ai pas). Ce n'est pas non plus un geste technique ou juridique, puisque comme évoqué plus haut, il est relativement vain de croire qu'il sera durablement respecté par lesdits aspirateurs de données. C'est un geste purement politique : je refuse de contribuer à une infrastructure de l'intelligence artificielle, qui se prétend « éthique », mais qui, par essence, ne peut pas l'être. Elle ne peut pas l'être quand on sait tout ce que requiert cette mégamachine. Des tonnes de minerais, des litres d'eau polluée, des centaines de milliers d'esclaves humains, de l'énergie à gogo, et le plus pernicieux dans tout ça : une binarisation, une standardisation progressive du monde. Pour toutes les sources utiles et pour approfondir ce sujet, lire l'indispensable Contre-atlas de l’intelligence artificielle.

Même sujet, autre choix de réponse. Il y a dix jours, j'étais contacté par une représentante des dictionnaires Collins. Elle m'écrivait :

Je vous écris de la part des dictionnaires Collins, pour vous demander l’autorisation d’ajouter le contenu de Louis Derrac à notre corpus. Notre corpus est une gigantesque base de données de la langue française, à la fois écrite et parlée, que nous utilisons pour que nos dictionnaires soient précis et bien à jour. Nous exploitons une large variété de sources pour développer ce corpus et nous aimerions obtenir votre autorisation d’ajouter du contenu extrait de Louis Derrac. Nous utiliserions vos flux RSS déjà existants ainsi que les pages qui y sont répertoriées pour récupérer ces données.

Comme quoi, les blogs sont toujours utiles et les flux RSS bien vivants. Les uns comme les autres ne sont pas que des lubies old school. La preuve, les deux sont sollicités pour alimenter les gigantesques corpus de texte de grands éditeurs (re-sic). J'ai hésité quelques jours sur la réponse à donner à cette requête. D'un côté, j'ai apprécié l'approche de demander mon autorisation, quand tant de crawlers et autres bots ne la demandent pas, cette autorisation, cf le premier sujet de ce billet. De l'autre, ce blog a une licence assez claire : CC BY SA. Contenu partageable, modifiable, à condition de citer l'auteur et de repartager à l'identique. Et aucune de ces conditions n'était respectée dans le cas d'une reprise de contenu par les dictionnaires Collins. Je n'ai pas vérifié auprès d'eux si c'était pour cette raison qu'ils m'avaient contacté, ce qui démontrerait de leur part une connaissance subtile des licences Creative Commons. Toujours est-il que pour une raison qui m'échappe encore en partie, j'ai accepté d'ajouter mon contenu à leur corpus. Était-ce par amour pour la langue ? Par fierté que les dizaines de milliers de mots de mes 300 articles fassent partie d'un tout bien plus grand ? Qui sait, sans doute un peu de tout ça.

Ce billet a été écrit en écoutant l'album Les égarés (lien Youtube, utilisez l'extension LibRedirect pour préserver votre vie privée)

Photo à la une de Possessed Photography sur Unsplash

D'autres articles à lire :