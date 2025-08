Cloudflare, una delle principali aziende di sicurezza e infrastrutture del Web, ha pubblicato un rapporto dettagliato che accusa Perplexity, un popolare motore di ricerca potenziato dall’intelligenza artificiale, di utilizzare dei crawler nascosti per raccogliere i contenuti dai siti che hanno esplicitamente vietato tale attività.

Il comportamento scorretto

Secondo l’indagine condotta da Cloudflare, Perplexity utilizza in un primo momento i suoi crawler dichiarati, ma quando si trova di fronte ad un blocco, sembra nascondere la propria identità nel tentativo di aggirare le preferenze del sito in questione.

Cloudflare ha documentato delle prove continue che mostrano come Perplexity modifichi ripetutamente l’identificativo del proprio crawler e cambi gli ASN di origine per nascondere la propria attività.

La sperimentazione di Cloudflare

Per verificare questi comportamenti, Cloudflare ha condotto un esperimento controllato:

ha creato diversi domini completamente nuovi, mai indicizzati dai motori di ricerca;

ha implementato dei file robots.txt che vietavano esplicitamente qualsiasi accesso automatizzato;

ha configurato delle regole specifiche nel WAF per bloccare i crawler dichiarati di Perplexity.

Nonostante tutte queste precauzioni, interrogando Perplexity con delle domande sui contenuti di questi domini protetti, il sistema è stato in grado di fornire delle informazioni dettagliate sui contenuti ospitati, dimostrando che aveva comunque avuto accesso ai dati.

Due tipi di crawler

L’analisi di Cloudflare ha rivelato che Perplexity utilizza due diversi approcci:

il crawler dichiarato : si identifica correttamente come “Perplexity-User” e genera circa 20–25 milioni di richieste giornaliere;

: si identifica correttamente come “Perplexity-User” e genera circa 20–25 milioni di richieste giornaliere; e il crawler nascosto: si maschera da normale browser (più precisamente, da Chrome su macOS) e genera 3–6 milioni di richieste giornaliere aggiuntive.

Il crawler nascosto utilizza degli indirizzi IP multipli non elencati nell’elenco ufficiale di Perplexity e li modifica continuamente per evitare i blocchi.

Cloudflare ha evidenziato come altre aziende dell’intelligenza artificiale, come OpenAI, rispettino invece le regole stabilite. Quando hanno testato lo stesso esperimento con il sistema di OpenAI, questo ha rispettato correttamente i divieti nel file robots.txt e non ha tentato di aggirare i blocchi.

Le contromisure adottate

In risposta a questi comportamenti, Cloudflare ha:

rimosso Perplexity dalla lista dei bot verificati;

aggiunto delle regole specifiche per bloccare l’attività di crawling nascosta;

implementato dei sistemi di identificazione basati sull’apprendimento automatico;

reso disponibili queste protezioni a tutti i clienti, inclusi quelli del piano gratuito.

L’importanza della trasparenza

Internet come lo conosciamo da tre decenni si basa sulla fiducia, sottolinea Cloudflare nel suo rapporto. I crawler dovrebbero essere trasparenti, servire per uno scopo chiaro e, soprattutto, rispettare le direttive e le preferenze dei vari siti.

Il caso di Perplexity evidenzia le crescenti tensioni tra i sistemi di intelligenza artificiale, che necessitano di grandi quantità di dati, e i diritti dei proprietari di contenuti, che hanno la necessità di controllare come i loro materiali vengano utilizzati.

Le prospettive future

Cloudflare prevede che questo tipo di comportamenti continuerà ad evolversi e che le tecniche utilizzate dai gestori di bot, per evitare il rilevamento, diventeranno sempre più sofisticate.

L’azienda sta collaborando con diversi esperti tecnici e normativi a livello mondiale per stabilire dei principi chiari che i gestori di crawler dovrebbero rispettare.

Attualmente, più di due milioni e mezzo di siti hanno scelto di vietare completamente l’addestramento dell’intelligenza artificiale utilizzando le funzionalità di Cloudflare, dimostrando la crescente preoccupazione dei proprietari di contenuti per l’uso non autorizzato dei loro materiali.

Fonte.