Il modello economico di Internet si è sempre basato su uno scambio equilibrato: i motori di ricerca indicizzano i contenuti e rimandano gli utenti ai siti originali, generando traffico e ricavi pubblicitari per i creatori. Questo ciclo virtuoso è ora spezzato.
I crawler AI raccolgono contenuti come testi, articoli e immagini per generare risposte dirette, senza mai rimandare gli utenti alla fonte originale.
L’ampiezza di questo fenomeno è sbalorditiva. Secondo i dati di Cloudflare, che gestisce il 20% del traffico web mondiale, i bot AI accedono quotidianamente al 39% dei primi milioni di siti Internet più popolari. Bytespider di ByteDance/TikTok guida la classifica con il 40,4% dei siti web visitati, seguito da GPTBot di OpenAI al 35,46% e ClaudeBot di Anthropic all’11,17%.
Per comprendere la portata di questa trasformazione, consideriamo la differenza fondamentale:
Il Modello tradizionale (Google Search):
- Un utente cerca “come cucinare la carbonara”
- Google mostra risultati con titoli e snippet
- L’utente clicca su un link e visita il sito dello chef
- Il sito riceve traffico, visualizzazioni pubblicitarie e potenziali conversioni
- Il creatore del contenuto viene ricompensato per il suo lavoro
Il Nuovo modello (AI Generativa):
- Un utente chiede a ChatGPT “come cucinare la carbonara”
- L’AI genera una risposta completa utilizzando dati estratti da centinaia di ricette
- L’utente ottiene la risposta senza mai lasciare la piattaforma AI
- Nessun sito web riceve traffico
- Nessun creatore riceve riconoscimento o compenso
- La conoscenza viene “atomizzata” e ridistribuita senza attribuzione
Questo priva i creatori di contenuti non solo dei ricavi diretti (pubblicità, affiliazioni, vendite), ma anche di metriche fondamentali come visualizzazioni di pagina, tempo di permanenza, e conversioni. Viene inoltre eliminata la soddisfazione professionale di sapere che qualcuno sta leggendo, apprezzando e traendo beneficio dal proprio lavoro.
La Resistenza: Cloudflare e la battaglia per il controllo
Di fronte a questa “crisi di consenso”, aziende come Cloudflare stanno sviluppando soluzioni innovative. Nel settembre 2024, Cloudflare ha lanciato un bottone per bloccare tutti i bot AI con un solo clic, e oltre un milione di clienti hanno già scelto questa opzione.
La novità rivoluzionaria è che Cloudflare ora blocca i crawler AI per impostazione predefinita per tutti i nuovi domini. Questo rappresenta un cambio di paradigma: invece di dover configurare manualmente le impostazioni per escludere i bot, ora i proprietari dei siti web devono esplicitamente consentire l’accesso.
Oltre il blocco: Il modello “Pay Per Crawl”
Cloudflare non si limita al blocco. L’azienda sta introducendo un modello “Pay Per Crawl” che permette ai proprietari di contenuti di far pagare le aziende AI per l’accesso ai loro dati. Questo approccio ha ricevuto il supporto di importanti editori come: The Associated Press, The Atlantic, BuzzFeed, Fortune, Reddit, Sky News, Stack Overflow.
Come ha dichiarato Matthew Prince, CEO di Cloudflare: “Se Internet deve sopravvivere all’era dell’AI, dobbiamo dare agli editori il controllo che meritano e costruire un nuovo modello economico che funzioni per tutti: creatori, consumatori, futuri fondatori di AI e il futuro del web stesso”.
Il dilemma di Google: tra indicizzazione e AI
Qui emerge una complessità particolare che rende la situazione ancora più problematica per i creatori di contenuti. Google utilizza lo stesso crawler (Googlebot) sia per l’indicizzazione tradizionale che per l’addestramento dei suoi modelli AI, come Gemini e Bard.
Questo crea un dilemma impossibile per i proprietari di siti web:
- Bloccare Googlebot significa rinunciare completamente alla visibilità sui motori di ricerca, eliminando il traffico organico che è vitale per la maggior parte dei business online
- Permettere a Googlebot di accedere significa automaticamente fornire i propri contenuti sia per l’indicizzazione tradizionale (che genera traffico) che per l’addestramento AI (che lo riduce)
Non esiste attualmente un modo per distinguere tra queste due funzioni. Un sito web non può dire “sì all’indicizzazione per la ricerca, no all’addestramento AI” perché Google utilizza la stessa infrastruttura di crawling per entrambi gli scopi.
Questa situazione costringe i creatori di contenuti in una trappola strategica: devono essenzialmente finanziare la propria obsolescenza. I loro contenuti vengono utilizzati per addestrare sistemi che poi forniranno le stesse informazioni direttamente agli utenti, bypassando il sito originale.
Come sottolineato dal New York Times, molte delle fonti web più importanti hanno iniziato a limitare l’uso dei loro dati, ma questa resistenza è limitata ai crawler AI chiaramente identificabili. Il crawler di Google rimane essenzialmente “intoccabile”.
La (parziale) soluzione: la sovranità del dato
Il problema non è di facile risoluzione. Tralasciando il caso particolare di Google, se anche ci fosse un accordo sul modello pay-per-crawl gli economics sarebbero tutti da capire: Chi ne stabilisce il prezzo? E’ meglio per una testata digitale avere la propria base di abbonati oppure ricevere un pagamento dai produttori di modelli LLM (hint: temo la prima ma che non possano efficacemente bloccare la seconda)?
Va detto che i modelli LLM, voraci di dati, traggono beneficio sia dalle pubblicazioni editoriali che dai dati utilizzati nei prompt dai propri clienti. Almeno su questa seconda frontiera esiste una soluzione efficace. La private AI di cui Brainyware è uno dei principali esponenti in Italia garantisce la piena sovranità del dato installando un Hardware ed un Software on premise e dando la piena garanzia che i dati non lasceranno mai il perimetro aziendale.
Se hai a cuore la tua azienda, non scherzare con i tuoi dati. Proteggili come se tu fossi un creatore di contenuti.