PaTH Attention: una rilevante innovazione per i modelli linguistici di grandi dimensioni
L’architettura espressiva sviluppata dai ricercatori del MIT-IBM Watson AI Lab porta un significativo progresso nel campo dell’intelligenza artificiale. Questa innovazione comporta un miglioramento nel tracciamento dello stato e nella ragionamento sequenziale nei modelli linguistici di grandi dimensioni (LLMs) applicati a testi estesi.
Un problema fondamentale che affligge i LLMs è la difficoltà nel gestire i cambiamenti di stato che sono comuni nei testi lunghi. Ad esempio, consideriamo come un gatto potrebbe interagire con una scatola nel tempo e come la scatola potrebbe deteriorarsi. Questo è esattamente il tipo di fenomeno che la nuova tecnica sviluppata presso il MIT-IBM Watson AI Lab, chiamata ‘PaTH Attention’, può affrontare con maggiore efficacia rispetto all’attuale metodo di punta, RoPE.
Il meccanismo di attenzione esistente nei transformers, l’architettura principale utilizzata nei LLMs per determinare l’importanza delle parole, ha limitazioni teoriche ed empiriche quando si tratta di gestire tali capacità. Per superare queste restrizioni, la tecnica PaTH Attention rende le informazioni posizionali adattive e consapevoli del contesto, invece che statiche come con RoPE.
Questa innovazione si rivela particolarmente utile in domini altamente strutturati, come la lingua. PaTH Attention, infatti, considera le parole intermedie come un percorso fatto di piccole trasformazioni dipendenti dai dati. Questo approccio permette ai transformers di tenere traccia di come le entità e le relazioni cambiano nel tempo, conferendo loro una sorta di ‘memoria posizionale’.
Le prestazioni di PaTH Attention sono state testate su compiti sintetici e reali, compresi ragionamento, benchmark di lungo contesto e addestramento completo di LLM, per vedere se migliorava la capacità del modello di tracciare le informazioni nel tempo. Risultati positivi sono emersi sia nelle prove diagnostiche, che in quelle di modellazione del linguaggio, dove il nuovo approccio è riuscito a superare i meccanismi di attenzione esistenti.
Inoltre, i ricercatori hanno esplorato come il meccanismo di PaTH Attention si comporterebbe se simulasse più strettamente la cognizione umana, combinandolo con un altro schema di codifica posizionale noto come Forgetting Transformer (FoX). Il sistema risultante, PaTH-FoX, ha ottenuto risultati notevoli.
Ci troviamo di fronte a un tassello importante nel mosaico dell’intelligenza artificiale, un passo avanti significativo che promette di potenziare ulteriormente il complesso universo dei modelli linguistici di grandi dimensioni.
Lascia un commento