Andrea Signorelli – Milanese, classe 1982, giornalista freelance. Scrive di innovazione digitale e del suo impatto sulla società per La Stampa, Wired Italia, Domani, Il Tascabile, Esquire Italia, cheFare e altri.
Ciclicamente, si ripropone la stessa scena: un nuovo e più evoluto modello di deep learning viene presentato e noi ci convinciamo di essere di fronte, o molto vicini, all’avvento di una vera intelligenza artificiale.
E questo vale a maggior ragione se l’algoritmo in questione è in grado di utilizzare il linguaggio , che è la caratteristica maggiormente distintiva dell’essere umano e che quindi più associamo alla comprensione del mondo e all’intelligenza.
Solo restando agli ultimi anni, questa situazione si è verificata la prima volta nel 2018, quando il CEO di Google, Sundar Pichai, ha mostrato a una platea sbalordita come il software di intelligenza artificiale noto come Duplex fosse in grado di telefonare a un parrucchiere per prenotare un appuntamento senza che la persona all’altro capo del telefono si rendesse conto di avere a che fare con un robot.
“È stato superato il test di Turing?” , ci si è chiesti all’epoca. Eravamo ufficialmente entrati nell’epoca delle macchine intelligenti? Nel giugno del 2022 è stata poi la volta del sistema di intelligenza artificiale LaMDA e dell’ingegnere di Google Blake Lemoine, che dopo aver conversato a lungo con questo chatbot si era convinto che LaMDA fosse diventato senziente.
Da ultimo, c’è ovviamente stato il caso di ChatGPT, il chatbot (ovvero un sistema con cui dialogare per via testuale) creato da OpenAI sulla base di GPT-3: un colossale sistema di deep learning dotato di oltre 200 miliardi di paramentri (che potremmo grossolanamente considerare l’equivalente digitale dei nostri neuroni) e addestrato con oltre 800 gigabyte di informazioni, compresa l’intera Wikipedia in lingua inglese.
In questo articolo vedremo in particolare:
Iscriviti alla nostra newsletter
Unisciti agli oltre 10.00 iscritti che leggono la nostra newsletter per approfondire le tematiche legate alla trasformazione digitale a 360 gradi.
ChatGPT e GPT-4: progresso o regresso?
La capacità di ChatGPT di dare vita a testi di ogni tipo rispondendo a dei nostri semplici comandi (per esempio, è possibile chiedergli di creare una poesia in stile shakespeariano con un tocco di ironia o di produrre un paper scientifico su un qualunque tema) ha generato tantissima attenzione , facendo sì che venisse trattato come se fosse un’assoluta novità.
Per quanto le dimensioni di questa rete neurale e la mole di dati con cui è stata addestrata siano effettivamente senza precedenti, ChatGPT non rappresenta nulla di nuovo, ma solo un ulteriore passo avanti compiuto dai sistemi di deep learning.
Lo stesso varrà anche per l’imminente GPT-4, che possiederà una mole ancora superiore di parametri e sarà addestrato con una quantità ancora più impressionante di dati, ma avrà le stesse caratteristiche di apprendimento (sul funzionamento di questi sistemi torneremo più avanti), avrà gli stessi pregi e a darà prova, ancora una volta, degli stessi limiti e degli stessi difetti.
Come aveva spiegato il docente di Scienze Neurali Gary Marcus in occasione della presentazione di Duplex, questi sistemi sono ancora limitati perché rappresentano la fase embrionale di una vera intelligenza: “la realtà è invece che gli esperti di intelligenza artificiale non hanno nessuna idea di come riuscire a fare meglio di così”.
Limiti attuali degli algoritmi di deep learning
Visti i costanti progressi dell’intelligenza artificiale – per quanto sempre incrementali e non rivoluzionari – forse affermare che gli scienziati informatici non hanno idea di come far progredire questi sistemi è eccessivo.
Quel che però è certo è che tutti i sistemi di cui abbiamo finora parlato e tutti gli altri algoritmi di deep learning – ovvero il metodo di apprendimento oggi alla base delle intelligenze artificiali – ci stanno mostrando quali sono i limiti e gli ostacoli (alcuni dei quali, come vedremo, forse invalicabili) a cui questi strumenti stanno andando incontro.
Prima di tutto, praticamente qualunque sistema di deep learning è ancora oggi una “artificial narrow intelligence” (ANI): un’intelligenza artificiale limitata , in grado di svolgere uno e un solo compito per volta. Può essere in grado di tradurre le lingue oppure di giocare a scacchi, ma se dovesse passare da un compito all’altro sarebbe necessario cancellare tutto ciò che sa e ripartire da capo nell’addestramento (un difetto chiamato in Scienze Informatiche “catastrophic forgetting” ).
Non potendo passare a un nuovo compito conservando quanto appreso nell’addestramento del precedente – riconoscere immagini, tradurre una lingua, consigliarvi il prossimo film su Netflix, ecc. – per gli algoritmi di deep learning è anche impossibile sfruttare le conoscenze pregresse per ottimizzare l’apprendimento di un compito nuovo (un po’ come noi sfruttiamo quanto appreso andando in bicicletta per imparare ad andare in motorino).
Anche uno strumento avanzato come ChatGPT , che sembra in grado di fare tantissime cose diverse (scrivere poesie, rispondere a domande di storia, riassumere la biografia di un personaggio famoso, ecc.) è in verità capace di fare una cosa soltanto : ricombinare il materiale testuale a sua disposizione per avere la più alta probabilità di rispondere correttamente alla richiesta che gli è stata posta.
Lo stesso vale anche per gli altri già citati sistemi. Duplex era in grado di dialogare con una persona che voleva prenotare il parrucchiere (o il ristorante) perché era stato addestrato con una marea di dati relativi esclusivamente a conversazioni tra persone che prenotano parrucchieri e ristoranti. Specializzandosi in quel campo, aveva imparato quale fosse la risposta che aveva la maggiore probabilità di essere corretta; ma non sarebbe mai stato in grado di sostenere una conversazione in un ambito differente.
Il più recente sistema di Google, LaMDA, ha invece la capacità di sostenere conversazioni su svariati temi non perché sia diventato più intelligente, ma perché è in grado di scovare correlazioni in un dataset più ampio e variegato.
Lo stesso vale anche per ChatGPT , che in molti casi sarà anche in grado di produrre contenuti sorprendenti e magari fattualmente accurati, ma in altri si rivela un estensore di assurdità (com’è il caso del testo in cui spiega come i churros siano un ottimo strumento per eseguire operazioni chirurgiche) e in altre di pericolose fake news elaborate in maniera verosimile (come nel caso dell’articolo in cui – citando pubblicazioni scientifiche inventate – spiega come i vaccini siano efficaci solo in due casi su cento).
Peggio ancora, ChatGPT non ha modo di sapere se ciò che sta affermando corrisponde a falsità o verità , e anche le sue ricostruzioni storiche (o di qualunque altro tipo) possono essere a volte precise, ma in altre occasioni saranno piene di errori e falsità. L’unico modo per rendersene conto è essere competenti nella materia su cui si è interrogato ChatGPT , facendo venire meno la ragione stessa di utilizzare strumenti di questo tipo come fonte di conoscenza. Non solo: gli stessi programmatori di ChatGPT hanno spiegato quanto sia difficile superare questo limite , dal momento che è “impossibile fornire al modello una fonte di verità”.
“Una volta che te ne sei accorto non puoi più far finta di niente: il deep learning non ci porterà verso un’intelligenza artificiale che ragiona in maniera astratta e che è in grado di generalizzare la conoscenza sul mondo “, ha scritto Jason Pontin su Wired . E questo vale anche quando si analizzano i casi limite, quelli che a prima vista sembrano superare almeno parzialmente i limiti finora descritti.
Qualunque sistema di deep learning è ancora oggi una “artificial narrow intelligence” (ANI): un’intelligenza artificiale limitata, in grado di svolgere uno e un solo compito per volta.
Gato e la sua intelligenza artificiale
Nel maggio 2022, DeepMind (uno dei laboratori di ricerca sull’intelligenza artificiale più avanzati al mondo, di proprietà di Google) ha presentato il sistema di deep learning Gato, in grado di eseguire 604 compiti differenti. È il primo passo verso la creazione di un’intelligenza artificiale generale, capace come l’essere umano di eseguire una marea di compiti e di passare con facilità dall’uno all’altro?
È innegabile che Gato sia in grado di svolgere vari compiti (giocare ai videogiochi Atari, riconoscere immagini, gestire un braccio robotico e altro ancora), ma alcuni dei limiti di questo modello raffreddano i facili entusiasmi. Come spiegato sulla MIT Tech Review , Gato ottiene risultati molto inferiori rispetto agli algoritmi specializzati (ma questo è anche comprensibile e, volendo, quasi umano).
Soprattutto siamo però ancora lontanissimi dalle intelligenze artificiali “generali”, che hanno la capacità di adattarsi a compiti diversi da quelli per cui è stato addestrato: Gato può infatti ancora soltanto eseguire i compiti per cui ha ottenuto uno specifico addestramento.
È inevitabile: come spiega sempre Pontin, il deep learning “è un metodo statistico in cui i computer imparano a classificare i pattern utilizzando le reti neurali. Questi network hanno una struttura che ricorda quella dei neuroni nei nostri cervelli e sono chiamati “profondi” (deep) perché posseggono molteplici strati nascosti che contengono svariati nodi con una ramificata moltitudine di connessioni” .
Si può arrivare alle intelligenze artificiali generali?
Grazie a questa architettura informatica, i sistemi di intelligenza artificiale che usiamo oggi sono in grado di scovare correlazioni all’interno di una marea di dati, che sarebbero invisibili a occhio umano , e di calcolare statisticamente quando queste si ripresentano.
Per esempio, per reagire alle mosse dell’avversario, un sistema di deep learning che gioca a scacchi non fa che cercare nel suo database tutte le situazioni in cui si è presentato quello stesso identico scenario. Una volta individuate, calcola quale mossa eseguita nelle partite con cui è stato addestrato ha portato alla vittoria il maggior numero di volte. Sfruttando questa tecnica, gli algoritmi di deep learning ottengono risultati (spesso) molto accurati – e a volte impressionanti – in campi diversissimi tra loro e anche molto difficili: la traduzione da una lingua all’altra, la previsione di cosa ci piacerebbe ascoltare su Spotify, il riconoscimento delle immagini, la selezione di cosa vogliamo veder comparire sul feed di Facebook o Instagram e altro ancora.
Tutto ciò non va in alcun modo sottostimato: il deep learning ha cambiato il mondo ed è sempre più integrato nelle attività che svolgiamo , spesso senza nemmeno che ce ne rendiamo conto. Ma un limite rimane comunque invalicabile: in questi sistemi non c’è alcuna comprensione di ciò che stanno facendo . Come abbiamo visto, un sistema di intelligenza artificiale può vincere a scacchi senza avere alcuna comprensione del gioco degli scacchi e senza nemmeno conoscere le regole.
Questo meccanismo è stato particolarmente evidente proprio nelle conversazioni avvenute tra LaMDA e il suo programmatore Blake Lemoine , durante le quali lui stesso si è convinto (bizzarramente, com’è in effetti bizzarro anche il personaggio ) che questo chatbot fosse senziente. Alla domanda di Lemoine “come ti piace passare il tuo tempo libero?”, LaMDA ha infatti risposto: “Con gli amici e con la mia famiglia”. Ovviamente, LaMDA non ha né amici né tantomeno famiglia: si è quindi limitata a calcolare statisticamente quale risposta – tra i dati creati da esseri umani conservati nel suo database – avesse la maggior probabilità di soddisfare la domanda posta.
Un sistema di deep learning non sa generalizzare e astrarre la conoscenza in suo possesso. Non è in grado di capire che il gatto, la lince e la tigre hanno delle caratteristiche in comune (a meno che non venga addestrato a riconoscere solo la categoria “felino”). Un robot che sfrutta il deep learning per imparare a raccogliere una bottiglia non è in grado di riapplicare questa conoscenza per prendere anche una tazza, ma deve ricominciare l’addestramento da capo (come ha spiegato Pedro Domingos, autore de “L’algoritmo definitivo”).
Aumenta il potenziale della tua azienda. Un messaggio alla volta.
L’importanza di avere un consulente marketing esterno
Il perché dell’insuccesso attuale della guida autonoma
L’impossibilità di astrarre e generalizzare i concetti ottenuti (che indica l’assenza di una vera comprensione) è per esempio la ragione per cui fino a oggi la guida autonoma non ha avuto successo. In questo ambito, il sistema di deep learning che governa l’auto viene addestrato ad affrontare una tale quantità di potenziali scenari (oltre a riconoscere i cartelli stradali, i semafori, ecc.) da imparare, in teoria, il modo di affrontare correttamente una rotonda, di immettersi in una corsia autostradale, di fermarsi alle strisce pedonali ecc. ecc.
Ma c’è un problema: nell’ambito della guida, le variabili e le incognite aumentano talmente tanto che il sistema di intelligenza artificiale non è più in grado di trovare correlazioni che lo istruiscano sul comportamento corretto da tenere. Qualche successo, comunque, c’è stato: Waymo, la società di Google valutata 30 miliardi di dollari, ha annunciato l’ottobre scorso che in una porzione della città di Phoenix è ora possibile sfruttare liberamente la sua flotta di taxi autonomi.
Dando uno sguardo alla capitale dell’Arizona si capisce perché sia una delle poche città in cui le auto autonome stanno diventando realtà: gli ampi viali, le strade che corrono sempre parallele e perpendicolari e lo scarso traffico sono tutti elementi che facilitano di molto la vita delle self driving cars. Altrettanto fanno le condizioni climatiche: in una città desertica dove il sole splende sempre (in media ci sono 17 giorni di pioggia l’anno), i sensori montati sui robotaxi non rischiano di avere problemi di visibilità a causa della pioggia, di farsi confondere dalle foglie trasportate dal vento o di andare in tilt a causa delle nebbia.
Come reagirebbe invece un’auto autonoma abbandonata tra i confusionari vicoli del centro di Milano, in mezzo ai motorini che sfrecciano a Roma, sotto la pioggia di Londra o nel traffico di Istanbul? Per il momento, nessuna startup ha nemmeno osato sperimentare i suoi veicoli nel centro delle complicatissime città europee. Fino a pochi anni fa, sembrava fosse però solo una questione di tempo: dopo le prime sperimentazioni in metropoli dalle ampie corsie stradali e dalle buone condizioni climatiche, si sarebbero gradualmente conquistate le competenze necessarie a guidare anche negli ambienti più caotici.
Con il passare del tempo, ci si sta però rendendo conto che non è possibile individuare per via solamente statistica il modo migliore di affrontare ogni situazione che si verifica nel traffico cittadino del mondo reale , dove le incognite, gli imprevisti, gli eventi inattesi e le infrazioni sono all’ordine del giorno. Come ha recentemente ammesso il responsabile per la guida autonoma di Volvo Marcus Rothoff, “la casualità dei comportamenti non può essere gestita dalla tecnologia di oggi”.
Deep learning: più qualità e meno quantità
Ci sono altri aspetti da valutare e che fanno temere che si stiano spingendo le potenzialità del deep learning al loro limite (ipotesi sostenuta dal già citato Gary Marcus, ma non per esempio da Yann LeCun, vincitore del Turing Award per il suo ruolo nell’invenzione del deep learning stesso).
Per esempio, per ottenere progressi significativi è ormai necessario un incremento delle capacità computazionali del sistema molto superiore ai miglioramenti ottenuti. I ritorni sono insomma decrescenti e i costi di conseguenza crescono sempre di più, al punto che si stima che il solo addestramento del modello di OpenAI GPT-3 sia costato oltre 12 milioni di dollari.
Un potere computazionale sempre crescente per ottenere risultati migliori (e nonostante la continua ottimizzazione dei modelli informatici) crea un altro inevitabile problema: addestrare e usare questi sistemi consuma moltissimo e ha un impatto sull’ambiente che non è più trascurabile (soprattutto se in futuro useremo questi sistemi nel mercato di massa).
In un recente paper , un gruppo di ricercatori dell’università del Massachusetts ha testato i consumi energetici prodotti da alcuni dei più comuni modelli di intelligenza artificiale, scoprendo che il loro addestramento può emettere fino a 280 tonnellate di anidride carbonica, quasi cinque volte le emissioni provocate da una classica automobile nel corso del suo ciclo di vita (inclusa la produzione dell’auto stessa).
Risorse informatiche crescenti, costi, inquinamento. Sono le esternalità di un sistema che progredisce per scala quantitativa: più dati elaborati da reti più profonde a una velocità sempre crescente. Per arrivare dove? “Le persone ingenuamente credono che se prendi il deep learning e aggiungi 100 strati ulteriori e utilizzi mille volte più dati, una rete neurale sarà in grado di fare tutto ciò che un essere umano può fare “, ha spiegato il ricercatore di Google François Chollet. “Ma questo, semplicemente, non è vero “.
In poche parole, per raggiungere – un giorno – una vera intelligenza artificiale generale, di tipo umano, non bastano i progressi quantitativi del deep learning. C’è invece bisogno di progressi qualitativi. Di una nuova invenzione che permetta alle intelligenze artificiali di fare, per l’appunto, il salto di qualità. Ma di tutto questo, per il momento, non si vede nemmeno l’ombra.