Una nuova architettura per rendere le reti neurali più comprensibili

Punti salienti:

  • Le KAN sono reti neurali “trasparenti” che mostrano come arrivano alle conclusioni, superando il problema della “scatola nera” dell’IA tradizionale.
  • Sviluppate al MIT nel 2024, si basano su un teorema matematico degli anni ’50 precedentemente considerato inapplicabile all’apprendimento automatico.
  • Usano funzioni complete anziché semplici pesi numerici, permettendo di scoprire formule matematiche esatte per fenomeni complessi.
  • Eccellono nelle applicazioni scientifiche dove serve interpretabilità, ma sono meno efficaci in visione artificiale ed elaborazione audio.

Le reti neurali rappresentano attualmente gli strumenti più potenti nel campo dell’intelligenza artificiale. Come afferma Sebastian Wetzel, ricercatore presso il Perimeter Institute for Theoretical Physics, “quando le ampliamo per gestire set di dati più grandi, niente può competere con loro”. Tuttavia, questi potenti strumenti hanno sempre avuto un importante svantaggio: la loro natura di “scatola nera”.

Il problema della “scatola nera”

Il componente fondamentale di molte reti neurali di successo è noto come percettore multistrato (MLP). Nonostante i numerosi successi, gli esseri umani non riescono a comprendere come queste reti arrivino alle loro conclusioni o se esista un principio sottostante che spieghi tali risultati. Le straordinarie capacità delle reti neurali rimangono segrete, nascoste dietro quella che comunemente viene chiamata “black box”.

Da tempo i ricercatori di IA si chiedono se sia possibile progettare un tipo diverso di rete che fornisca risultati altrettanto affidabili in modo più trasparente.

L’innovazione delle reti KAN

Un recente studio pubblicato nell’aprile 2024 ha introdotto un design alternativo di rete neurale, chiamato rete di Kolmogorov-Arnold (KAN), che risulta più trasparente pur mantenendo quasi tutte le capacità di una normale rete neurale per determinati problemi. Questa architettura si basa su un’idea matematica della metà del XX secolo che è stata riscoperta e riconfigurata per l’era del deep learning.

Sebbene questa innovazione sia recente, il nuovo design ha già attirato un ampio interesse nelle comunità di ricerca e di programmazione. Alan Yuille, informatico della Johns Hopkins University, sottolinea: “Le KAN sono più interpretabili e possono essere particolarmente utili per applicazioni scientifiche in cui possono estrarre regole scientifiche dai dati. Rappresentano un’alternativa innovativa ed entusiasmante agli onnipresenti MLP.”

Come funzionano le reti KAN

Le KAN affrontano il problema dell’adattamento delle funzioni – collegare i punti dell’output della rete – in modo fondamentalmente diverso rispetto agli MLP. Invece di basarsi su connessioni con pesi numerici, le KAN utilizzano funzioni. Queste funzioni di connessione sono non lineari, il che significa che possono rappresentare curve più complesse. Sono anche “apprendibili”, quindi possono essere modificate con una sensibilità molto maggiore rispetto ai semplici pesi numerici degli MLP.

Per i precedenti 35 anni, le KAN erano considerate fondamentalmente impraticabili. Un articolo del 1989 co-firmato da Tomaso Poggio, un fisico diventato neuroscienziato computazionale al MIT, affermava esplicitamente che l’idea matematica alla base di una KAN era “irrilevante nel contesto delle reti per l’apprendimento”.

La svolta

La svolta è arrivata nel gennaio scorso, quando Ziming Liu, dottorando in fisica al MIT, ha deciso di rivisitare il concetto. Liu e il suo relatore, il fisico del MIT Max Tegmark, stavano lavorando per rendere le reti neurali più comprensibili per applicazioni scientifiche, ma i risultati non erano soddisfacenti. In un atto di disperazione, Liu decise di esaminare il teorema di Kolmogorov-Arnold: “Perché non provarlo e vedere come funziona, anche se le persone non gli avevano dato molta attenzione in passato?”

Inizialmente, Liu sviluppò alcuni prototipi di sistema KAN, tutti con due strati – le reti più semplici possibili. Ma con sua delusione, nessuno dei prototipi funzionava bene per i compiti scientifici che aveva in mente. Fu allora che Tegmark suggerì un’idea innovativa: perché non provare una KAN con più di due strati, che potrebbe gestire attività più sofisticate?

Questa intuizione si rivelò decisiva. Le reti di Liu iniziarono a mostrare risultati promettenti, portando alla formazione di un team più ampio che includeva colleghi del MIT, del California Institute of Technology e della Northeastern University.

Risultati concreti

Nel loro studio di aprile, il gruppo ha dimostrato che le KAN con tre strati erano effettivamente possibili, fornendo un esempio di una KAN a tre strati in grado di rappresentare esattamente una funzione (mentre una KAN a due strati non poteva farlo). Il gruppo ha poi sperimentato fino a sei strati, con ogni livello aggiuntivo che permetteva alla rete di allinearsi con una funzione di output più complessa. “Abbiamo scoperto che potevamo impilare tutti gli strati che volevamo, essenzialmente”, ha affermato Yixuan Wang, uno dei co-autori.

Gli autori hanno anche testato le loro reti su due problemi reali:

  1. Il primo riguarda la teoria dei nodi in matematica. Nel 2021, un team di DeepMind aveva costruito un MLP in grado di prevedere una certa proprietà topologica per un dato nodo. La nuova KAN ha duplicato questo risultato, ma è andata oltre dimostrando come la proprietà prevista fosse correlata a tutte le altre – qualcosa che, secondo Liu, “gli MLP non possono fare affatto”.
  2. Il secondo problema riguarda un fenomeno di fisica della materia condensata chiamato localizzazione di Anderson. L’obiettivo era prevedere il confine in cui avverrà una particolare transizione di fase e determinare la formula matematica che descrive tale processo. Nessun MLP è mai stato in grado di farlo. La loro KAN ci è riuscita.

Il vantaggio dell’interpretabilità

Il più grande vantaggio delle KAN rispetto ad altre forme di reti neurali, e la principale motivazione dietro il loro recente sviluppo, secondo Tegmark, risiede nella loro interpretabilità. In entrambi gli esempi citati, la KAN non si è limitata a fornire una risposta, ma ha offerto una spiegazione. “Cosa significa che qualcosa sia interpretabile?” ha chiesto Tegmark. “Se mi dai dei dati, ti fornirò una formula che puoi scrivere su una maglietta.”

Questa capacità delle KAN, sebbene finora limitata, suggerisce che queste reti potrebbero teoricamente insegnarci qualcosa di nuovo sul mondo, come sottolinea Brice Ménard, fisico della Johns Hopkins che studia l’apprendimento automatico: “Se il problema è effettivamente descritto da un’equazione semplice, la rete KAN è piuttosto brava a trovarla.”

Ménard avverte però che il dominio in cui le KAN funzionano meglio è probabilmente limitato a problemi – come quelli trovati in fisica – dove le equazioni tendono ad avere pochissime variabili.

Liu e Tegmark concordano, ma non lo considerano uno svantaggio. “Quasi tutte le famose formule scientifiche” – come E = mc² – “possono essere scritte in termini di funzioni di una o due variabili”, ha affermato Tegmark. “La stragrande maggioranza dei calcoli che facciamo dipende da una o due variabili. Le KAN sfruttano questo fatto e cercano soluzioni di quella forma.”

Sviluppi futuri

Lo studio di Liu e Tegmark sulle KAN ha rapidamente suscitato interesse, raccogliendo 75 citazioni in circa tre mesi. Presto altri gruppi hanno iniziato a lavorare sulle proprie KAN. Uno studio di Yizheng Wang dell’Università Tsinghua e altri, apparso online a giugno, ha mostrato che la loro rete neurale basata su Kolmogorov-Arnold (KINN) “supera significativamente” gli MLP nella risoluzione di equazioni differenziali parziali (PDE). Questione non da poco, come sottolinea Wang: “Le PDE sono ovunque nella scienza.”

Uno studio di luglio dei ricercatori della National University of Singapore ha presentato risultati più variegati, concludendo che le KAN superavano gli MLP in compiti legati all’interpretabilità, ma gli MLP ottenevano risultati migliori nella visione artificiale e nell’elaborazione audio. Le due reti erano grosso modo equivalenti nell’elaborazione del linguaggio naturale e in altri compiti di apprendimento automatico.

Nel frattempo, Liu sta lavorando per rendere le KAN più pratiche e facili da usare. Ad agosto, lui e i suoi collaboratori hanno pubblicato “KAN 2.0”, descritto come “più un manuale utente che un articolo convenzionale”. Questa versione è più user-friendly, offrendo uno strumento per la moltiplicazione, tra le altre funzionalità, che mancava nel modello originale.

Verso una scienza guidata dalla curiosità

Questo tipo di rete rappresenta più di un semplice mezzo per raggiungere un fine. Le KAN promuovono quella che il gruppo chiama “scienza guidata dalla curiosità”, che completa la “scienza guidata dalle applicazioni” che ha dominato a lungo l’apprendimento automatico.

Quando si osserva il movimento dei corpi celesti, ad esempio, i ricercatori guidati dalle applicazioni si concentrano sulla previsione dei loro stati futuri, mentre i ricercatori guidati dalla curiosità sperano di scoprire la fisica dietro il movimento.

Attraverso le KAN, Liu spera che i ricercatori possano ottenere dalle reti neurali più di un semplice aiuto su un problema computazionale altrimenti arduo, concentrandosi invece sulla comprensione fine a se stessa.

Devstral 2 e il futuro del codice aperto

Devstral 2, il nuovo modello di codifica AI a peso aperto di Mistral AI, porta una brezza di cambiamento nel panorama tecnologico.

DeepSeek: guida completa

DeepSeek è un progetto AI cinese fondato nel 2021 da Liang Wenfeng, con un approccio "open-core" che combina codice aperto e componenti proprietarie.

Google Traduttore porta la traduzione live su tutti gli auricolari Android

Google Traduttore rompe i confini della bolla Google, portando la traduzione live su tutti gli auricolari connessi a dispositivi Android.

Presenta