Bot AI sotto accusa: il caso diaspora* e il sovraccarico dei server
🎯 Punti salienti
- Il social network diaspora* sta affrontando una crisi dovuta all’attività intensiva dei bot di addestramento AI, con il 70% di 11,3 milioni di richieste provenienti da bot delle principali aziende tech.
- OpenAI è il maggior responsabile con GPTBot che genera 2,78 milioni di richieste, seguito da significativi volumi di traffico da AmazonBot e ClaudeBot di Anthropic.
- I bot AI mostrano un comportamento aggressivo e invasivo, ignorando le direttive robots.txt e effettuando scansioni ridondanti ogni sei ore, in netto contrasto con i crawler tradizionali che generano solo lo 0,14% del traffico.
- La situazione è particolarmente critica per la cronologia delle modifiche del Wiki, e i tentativi di blocco sono complicati dalle strategie evasive dei bot come il cambio di IP e User Agent.
- Il caso viene definito un “DDoS sull’intero internet“, sollevando questioni etiche sulla responsabilità delle aziende AI e la necessità di protocolli più rispettosi per la raccolta dati.
Il social network decentralizzato diaspora* sta affrontando una sfida significativa causata dall’attività intensiva dei bot di addestramento delle intelligenze artificiali. Un’analisi dettagliata del traffico degli ultimi 60 giorni ha rivelato uno scenario preoccupante: su 11,3 milioni di richieste totali, il 70% proviene da bot AI appartenenti alle principali aziende tech.
OpenAI si distingue negativamente con il suo GPTBot, responsabile di quasi un quarto del traffico totale (2,78 milioni di richieste). Anche AmazonBot e ClaudeBot di Anthropic contribuiscono significativamente al carico anomalo sulla piattaforma, generando milioni di richieste.
Il comportamento di questi bot si differenzia nettamente da quello dei crawler tradizionali come Googlebot e Bingbot, che hanno generato appena lo 0,14% del traffico totale. I bot AI non solo ignorano le direttive contenute nel file robots.txt, ma effettuano richieste ridondanti e aggressive, arrivando a scansionare alcune pagine ogni sei ore senza una reale necessità.
Particolarmente problematica è l’indicizzazione indiscriminata della cronologia delle modifiche del Wiki, che causa rallentamenti e interruzioni del servizio per gli utenti reali. I tentativi di bloccare questi bot si sono rivelati complessi a causa delle loro strategie evasive, come il cambio frequente di indirizzi IP e User Agent.
La situazione di diaspora* potrebbe rappresentare solo la punta dell’iceberg di un fenomeno più ampio. L’amministratore della piattaforma non esita a definirlo un “DDoS sull’intero internet“, evidenziando come l’attività incontrollata dei bot AI stia diventando una minaccia concreta per la stabilità delle infrastrutture web.
Questo caso solleva importanti questioni etiche sulla responsabilità delle aziende di AI nel gestire i loro bot di addestramento e sulla necessità di stabilire protocolli più rispettosi per la raccolta dei dati online.
Update:
L’articolo su xeiaso.net discute l’attività del crawler di Amazon, noto come Amazonbot, evidenziando le sue pratiche di scansione del web. L’autore esprime una forte frustrazione verso Amazon, evidenziando che il loro crawler, Amazonbot, ignora le direttive del file robots.txt e sovraccarica i server con richieste eccessive. In un appello diretto, l’autore implora Amazon di configurare correttamente il proprio crawler per rispettare le regole stabilite dai siti web, sottolineando l’importanza di una scansione etica e rispettosa delle risorse altrui.
Lascia un commento