DeepMind mette alla prova i limiti dei grandi sistemi linguistici di intelligenza artificiale con un modello da 280 miliardi di parametri

0
212

La generazione del linguaggio è la cosa più in voga nell'intelligenza artificiale in questo momento, con una classe di sistemi noti come “modelli linguistici di grandi dimensioni” (o LLM) utilizzati per qualsiasi cosa, dal miglioramento del motore di ricerca di Google alla creazione di fantasia basata sul testo Giochi. Ma questi programmi hanno anche seri problemi, tra cui il rigurgito di un linguaggio sessista e razzista e il fallimento dei test di ragionamento logico. Una grande domanda è: queste debolezze possono essere migliorate semplicemente aggiungendo più dati e potenza di calcolo, o stiamo raggiungendo i limiti di questo paradigma tecnologico?

Questo è uno degli argomenti che il laboratorio di intelligenza artificiale DeepMind di Alphabet sta affrontando in un trio di documenti di ricerca pubblicati oggi. La conclusione dell'azienda è che aumentare ulteriormente questi sistemi dovrebbe fornire molti miglioramenti. “Un risultato chiave del documento è che i progressi e le capacità dei modelli linguistici di grandi dimensioni sono ancora in aumento. Questa non è un'area che si è stabilizzata”, ha detto lo scienziato ricercatore di DeepMind Jack Rae ai giornalisti in una chiamata informativa.

“Questa non è un'area che si è stabilizzata”.

DeepMind, che alimenta regolarmente il suo lavoro nei prodotti Google, ha sondato le capacità di questo LLM costruendo un modello linguistico con 280 miliardi di parametri chiamato Gopher. I parametri sono una misura rapida delle dimensioni e della complessità dei modelli di un linguaggio, il che significa che Gopher è più grande del GPT-3 di OpenAI (175 miliardi di parametri) ma non grande come alcuni sistemi più sperimentali, come il modello Megatron di Microsoft e Nvidia (530 miliardi di parametri).

È generalmente vero nel mondo dell'intelligenza artificiale che più grande è meglio, con modelli più grandi che di solito offrono prestazioni più elevate. La ricerca di DeepMind conferma questa tendenza e suggerisce che l'aumento degli LLM offre prestazioni migliorate sui benchmark più comuni che testano cose come l'analisi del sentiment e il riepilogo. Tuttavia, i ricercatori hanno anche avvertito che alcuni problemi inerenti ai modelli linguistici richiederanno più di semplici dati e calcolo per essere risolti.

“Penso che in questo momento sembri davvero che il modello possa fallire in vari modi”, ha detto Rae. “Alcuni sottogruppi di questi modi sono dovuti al fatto che il modello non ha una comprensione sufficientemente buona di ciò che sta leggendo, e sento che, per quella classe di problemi, vedremo solo prestazioni migliorate con più dati e scala.”< /p> Non tutti i problemi con i sistemi di linguaggio AI possono essere risolti con scale

Ma, ha aggiunto, ci sono “altre categorie di problemi, come il modello che perpetua pregiudizi stereotipati o il modello che viene persuaso a dare menzogne, che […] nessuno a DeepMind pensa che la scala sarà la soluzione [a]”. In questi casi, i modelli linguistici avranno bisogno di “routine di formazione aggiuntive” come il feedback degli utenti umani, ha osservato.

Per giungere a queste conclusioni, i ricercatori di DeepMind hanno valutato una gamma di modelli linguistici di dimensioni diverse su 152 compiti linguistici o benchmark. Hanno scoperto che i modelli più grandi generalmente fornivano risultati migliori, con lo stesso Gopher che offriva prestazioni all'avanguardia su circa l'80% dei test selezionati dagli scienziati.

In un altro documento, l'azienda ha anche esaminato l'ampia gamma di potenziali danni associati all'implementazione di LLM. Questi includono l'uso da parte dei sistemi di un linguaggio tossico, la loro capacità di condividere informazioni errate e il loro potenziale utilizzo per scopi dannosi, come la condivisione di spam o propaganda. Tutti questi problemi diventeranno sempre più importanti man mano che i modelli linguistici di intelligenza artificiale diventeranno più ampiamente diffusi, ad esempio come chatbot e agenti di vendita.

Tuttavia, vale la pena ricordare che le prestazioni sui benchmark non sono l'elemento fondamentale nella valutazione dei sistemi di apprendimento automatico. In un recente articolo, un certo numero di ricercatori di intelligenza artificiale (tra cui due di Google) ha esplorato i limiti dei benchmark, osservando che questi set di dati saranno sempre di portata limitata e incapaci di eguagliare la complessità del mondo reale. Come spesso accade con le nuove tecnologie, l'unico modo affidabile per testare questi sistemi è vedere come si comportano nella realtà. Con i modelli linguistici di grandi dimensioni, vedremo molto presto più di queste applicazioni.