Un nuovo test AGI sfida i limiti dell’intelligenza artificiale attuale

Punti salienti

  • Nuovo test AGI: ARC-AGI-2 valuta la capacità dell’AI di generalizzare e risolvere problemi inediti.
  • Prestazioni basse: I modelli più avanzati non superano l’1,3% di accuratezza nel test.
  • Confronto umano: I partecipanti umani ottengono in media il 60%, dimostrando un netto vantaggio cognitivo.
  • ARC-AGI-2 è più severo: A differenza del test precedente, introduce limiti di efficienza e riduce le scorciatoie computazionali.
  • Implicazioni profonde: Il test rivela quanto l’AI attuale sia ancora lontana da una vera intelligenza generale artificiale (AGI).

L’intelligenza artificiale ha compiuto passi da gigante, ma è davvero pronta per affrontare problemi nuovi e complessi senza averli mai visti prima? La risposta, per ora, è no. A dimostrarlo è il nuovo test ARC-AGI-2, introdotto dalla Arc Prize Foundation e pensato per misurare la capacità di adattamento e ragionamento generale dei modelli AI.

Il test, ideato da François Chollet, punta a spingere i sistemi oltre i confini della semplice previsione statistica, chiedendo loro di trovare pattern in griglie colorate che imitano la logica astratta e visiva, come se fossero puzzle. Una sorta di “test di intelligenza fluida” per macchine.

I risultati? Sconfortanti per l’AI:

Per fare un confronto, oltre 400 partecipanti umani hanno ottenuto in media il 60% sullo stesso test.

Il motivo del divario? ARC-AGI-2 è stato progettato per eliminare trucchi e memorizzazioni: i modelli devono lavorare con limiti computazionali simili a quelli umani, risolvendo i problemi in tempo reale, senza sfruttare potenza di calcolo massiva.

Questo test rappresenta una svolta nella valutazione dell’intelligenza artificiale, spingendo verso lo sviluppo di modelli più adattabili e realmente intelligenti, in grado di comprendere contesti nuovi, come fa il cervello umano.

Risorse

Lascia un commento

Come l’Agente AI trasformerà il mondo dell’email

Gli Agent AI stanno trasformando l’uso dell’email: non solo leggono e scrivono, ma agiscono per nostro conto.

Bot AI sotto accusa: il caso diaspora* e il sovraccarico dei server

Il social network decentralizzato diaspora* sta affrontando una sfida significativa causata dall'attività intensiva dei bot di addestramento delle intelligenze artificiali.

Google testa gli Audio Overviews: podcast AI direttamente nei risultati di ricerca

Google avvia una sperimentazione per integrare riassunti audio generati dall'IA direttamente nei risultati di ricerca, offrendo un'esperienza più interattiva e accessibile agli utenti.

Presenta