Negli ultimi anni, l’esplosione dell’intelligenza artificiale ha trasformato il modo in cui i dati vengono raccolti su internet. Ogni contenuto pubblico sul web – testi, immagini, codice – è potenzialmente una fonte preziosa per addestrare modelli di AI sempre più avanzati. Ma a chi appartengono davvero quei dati? E soprattutto, chi li sta raccogliendo?
Traffico invisibile, ma non silenzioso.
I crawler delle AI: silenziosi ma famelici
Grandi aziende come OpenAI, Google, Meta, Amazon e Anthropic hanno sviluppato bot automatizzati per raccogliere dati pubblici su larga scala. Alcuni di questi strumenti sono trasparenti: si identificano correttamente nell’user agent e rispettano le direttive contenute nel file robots.txt, il meccanismo standard del web per indicare ai crawler cosa può o non può essere indicizzato.
Ad esempio:
- OpenAI consente ai siti di bloccare il suo crawler GPTBot con una semplice regola nel
robots.txt. - Anthropic ha introdotto il suo bot
ClaudeBot, anch’esso bloccabile. - Amazon e Google offrono policy simili per i loro crawler AI.
Ma c’è un problema: molte aziende non seguono queste buone pratiche.
Il problema dell’identità nascosta
Non tutti i crawler si comportano in modo trasparente. Esistono realtà – anche molto grandi – che preferiscono non dichiarare l’identità del loro bot, o peggio ancora, mascherarsi da normali browser per eludere i controlli e accedere a contenuti altrimenti protetti.
Abbiamo rilevato casi concreti di traffico anomalo e intenso proveniente da server associati ad Alibaba, il gigante tech cinese. Questo traffico, spesso non accompagnato da user agent identificativi validi, presenta tutti i segnali tipici di scraping sistematico, con l’obiettivo molto probabile di alimentare dataset per modelli di intelligenza artificiale.
robots.txt? Utile ma insufficiente
Il file robots.txt è una buona prima linea di difesa. Permette di specificare regole precise, come:
User-agent: GPTBot
Disallow: /
User-agent: ClaudeBot
Disallow: /
User-agent: Amazonbot
Disallow: /
Tuttavia, solo i crawler “onesti” lo rispettano. I bot più aggressivi o opachi, invece, lo ignorano deliberatamente. In questi casi, l’unico modo per proteggere realmente i contenuti è il blocco diretto a livello di IP o l’uso di soluzioni WAF (Web Application Firewall) capaci di rilevare e contrastare il traffico sospetto.
L’urgenza di una protezione attiva
Per i siti web – in particolare quelli che offrono contenuti originali, banche dati o servizi professionali – è diventato fondamentale monitorare attivamente il traffico in ingresso. Alcuni suggerimenti:
- Analizza i log regolarmente per identificare picchi anomali e user agent sospetti.
- Implementa rate limiting per evitare scraping massiccio.
- Blocca IP e subnet noti per comportamenti scorretti o sospetti (ad esempio alcune reti di cloud pubblici usate per scraping).
- Proteggi le API con autenticazione e controlli anti-abuso.
Un web che serve tutti, non solo le AI
L’addestramento dei modelli di AI su dati pubblici solleva domande etiche e legali sempre più urgenti. Se è vero che la conoscenza sul web dovrebbe essere accessibile, è anche vero che non può essere saccheggiata indiscriminatamente senza consenso, trasparenza o rispetto per il lavoro di chi la produce.
È ora che il mondo digitale chieda maggiore responsabilità anche alle aziende AI. E che i gestori dei siti web imparino a difendere attivamente i propri contenuti, prima che diventino solo un altro mattoncino nei dataset di qualcun altro.










