Les systèmes d’intelligence artificielle générative naviguent sur de nombreux sites Internet afin de collecter un maximum d’informations et se créer de géantes bases de données. Dans le cas d’Apple Intelligence, Apple autorise les sites à refuser la collecte de données. Et il se trouve que beaucoup d’entre eux refusent.

Pas de collecte de données par Apple Intelligence selon les sites

Pendant des années, Apple a utilisé Applebot, son robot d’indexation du Web, afin d’alimenter diverses fonctionnalités, telles que la technologie de recherche intégrée à de nombreuses expériences utilisateur de l’écosystème d’Apple, notamment Spotlight, Siri et Safari. Ce système est parfois critiqué parce qu’Apple et Google utilisent des données qui sont protégées par des droits, alors que les deux sociétés n’ont pas d’autorisations particulières.

Pour Apple Intelligence, le robot a pour nom Applebot-Extended. Avec Applebot-Extended, les éditeurs Web peuvent choisir de refuser que le contenu de leurs sites soit utilisé pour former les modèles servant de socle aux fonctionnalités d’IA générative des produits Apple.

Il suffit de mettre une règle dans le fichier robots.txt de son site pour refuser la collecte de données. Wired a justement jeté un coup d’œil au fichier robots.txt de nombreux sites (sachant que l’accès est public) et révèle que beaucoup d’entre eux ne veulent pas qu’Apple Intelligence utilise leurs données. On retrouve notamment Facebook, Instagram, Craigslist, Tumblr, le New York Times, le Financial Times, The Atlantic, Vox Media, USA Today ou encore Condé Nast, qui regroupe plusieurs médias.

La raison du blocage

Dans une analyse distincte réalisée cette semaine, le journaliste Ben Welsh a constaté qu’un peu plus d’un quart des sites d’information qu’il a étudiés (294 sur 1 167 publications principalement anglophones basées aux États-Unis) bloquent Applebot-Extended.

Pourquoi ce blocage ? Essentiellement parce qu’Apple utilise les données et se veut gagnant à l’arrivée (c’est-à-dire qu’Apple Intelligence enrichit sa base de données), là où les médias et d’autres sites ne gagnent rien.

Apple aurait conclu des accords avec certains médias, payant une redevance en échange du droit d’utiliser leur contenu pour la formation de son IA. Il est probable que c’est ce qui motive au moins certains sites qui bloquent actuellement Apple – en attendant une offre de paiement.