Prompt> Large Language Models
La rubrica di Nello Cristianini per spiegare in ogni episodio i concetti chiave del dibattito sulla tecnologia da cui dipende il nostro futuro
Se l’intelligenza è la capacità di affrontare situazioni nuove e impreviste, i modelli sono dei meccanismi (matematici, fisici, o altro) che ci aiutano a prevedere gli sviluppi di tali situazioni e le conseguenze delle nostre azioni.
Nello Cristianini
Buongiorno a tutte e tutti,
ieri sera a Torino abbiamo presentato La Confessione in una splendida libreria indipendente, La Trebisonda, con Federica Tourn e Antonio Messina, il protagonista del podcast, il ragazzo di Enna che ha avuto la forza di denunciare per dieci anni gli abusi di don Rugolo e gli insabbiamenti del vescovo Rosario Gisana.
Sarò troppo ottimista, forse, ma comincio ad avere l’impressione che il podcast stia cambiando qualcosa, che diffonda una certa consapevolezza. L’opinione pubblica si cambia una persona alla volta, un dibattito alla volta.
Oggi vi aspetto a Milano per l’evento organizzato dall’Institute for European Policymaking e da Le Grand Continent per parlare di disinformazione ed elezioni europee. Ci troviamo alle 18 alla libreria Egea (tutti i dettagli sotto), ma l’evento si potrà seguire anche in streaming a questo link.
Ringrazio anche i tanti che hanno reagito, con commenti pubblici, messaggi privati e WhatsApp al post di ieri sul nuovo libro, Dieci rivoluzioni e al mio bilancio di un anno di cambiamenti che ho fatto qui su Appunti.
Per oggi vi lascio al secondo appuntamento con la rubrica di Nello Cristianini Prompt, che spiega in modo chiaro i concetti chiave del dibattito sull’intelligenza artificiale.
Parlavo ieri sera con una insegnante alle scuole medie, qui a Torino, che mi spiegava quanto è difficile discutere di questi temi con alunni e genitori. Appunti - mi ha detto - è diventato un utile spunto per farsi un’idea e aprire un confronto.
Buona giornata,
Stefano
Appunti è possibile grazie al sostegno delle abbonate e degli abbonati. E’ con il loro contributo che Appunti può crescere e svilupparsi anche con progetti ambiziosi come La Confessione. Se pensi che quello che facciamo è importante, regala un abbonamento a qualcuno a cui tieni.
Prompt 2> Large Language Models
di Nello Cristianini
Che cosa succede se lascio cadere il mio nuovo libro dalla torre di Pisa? Sono certo che non l'abbia mai fatto nessuno, eppure non tutti gli esiti mi sorprenderebbero allo stesso modo. Qui entrano in ballo il concetto di modello e quello di intelligenza, vediamo perché.
Se l’intelligenza è la capacità di affrontare situazioni nuove e impreviste, i modelli sono dei meccanismi (matematici, fisici, o altro) che ci aiutano a prevedere gli sviluppi di tali situazioni e le conseguenze delle nostre azioni.
Nell’esempio di sopra, mi aspetto che il libro cada verticalmente verso il basso, perché nel mio modello del mondo la traiettoria e’ determinata dalla sua massa, non dai suoi contenuti (grazie Newton!).
Lo stesso discorso vale anche per un agente che deve operare in un ambiente linguistico, come un chatbot o un filtro anti-spam: quasi ogni frase di sufficiente lunghezza è unica, e quindi memorizzare la risposta giusta per ogni situazione è impossibile: ci vuole un modello del linguaggio.
E’ su questo fronte che c’e’ stata la grande svolta nell’IA degli ultimi anni. Andiamo con ordine.
All’interno di agenti come ChatGPT ci sono modelli del linguaggio (large language models), per esempio GPT-4, che li aiutano a predire come una frase andrà a finire, dopo averne visto la parte iniziale. Questo meccanismo, usato con creativià, può produrre risposte, riassunti, traduzioni, e molto altro. Il problema e’: come si costruisce un modello del linguaggio?
La svolta è arrivata nel 2017, con la creazione di un nuovo algoritmo di machine learning, un tipo di rete neurale chiamato “Transformer”, in grado di leggere rapidamente quantità immense di testo, e usarle per creare un modello di linguaggio.
Ecco quindi i tre livelli da tenere distinti: l’agente (ChatGPT), il modello (GPT-4) e l’algoritmo che lo ha appreso (Transformer). Addestrato su miliardi di documenti, il Transformer ne ha distillato i contenuti, creando un modello in grado di completare le parti mancanti in un testo.
La cosa sorprendente è successa durante i primi test: GPT dimostrava di avere appreso ben di più che l’abilità di completare i testi. Sapeva completare sillogismi, eseguire traduzioni, e rispondere alle domande.
Ora devo aggiungere la parte imbarazzante per noi studiosi: non abbiamo alcuna teoria che spieghi le proprieta’ emergenti, cosi’ che non possiamo né predire né escludere che ne emergeranno delle altre.
Dal momento di quelle prime osservazioni di abilità emergenti, è iniziata una corsa alla costruzione di modelli sempre piu’ grandi, pre-addestrati una volta per tutte e con grande spesa, destinati poi ad essere inseriti all’interno di molti agenti e sistemi diversi. Ne avrebbero costituito le fondamenta, o la base: quelli che oggi chiamiamo Foundation Models in inglese, e Modelli di Base, in italiano.
A proposito: come chiamereste un algoritmo che genera testi (generative), che è pre-addestrato (pretrained) e usa il transformer? Generative Pretrained Transformer, ovvero: GPT.
Questi modelli sono difficili da ispezionare (la conoscenza di GPT 3.5 è racchiusa in 175 miliardi di parametri, ovvero valori numerici regolati durante l’addestramento, immaginate una spreadsheet di un chilometro quadrato). E sono anche difficili da regolamentare.
Eppure il loro valore economico può essere immenso, e nessuno Stato o industria può permettersi di ignorarli.
Ecco un esempio tra i mille che mi vengono in mente, basato sul mio lavoro quotidiano: immaginate di mostrare due articoli scientifici a un computer e chiedergli di riassumerne le differenze: questo richiederebbe ben più di un confronto tra le parole, ma tra i contenuti dei due documenti.
Immaginate ora di mostrarne 20.000, in lingue e materie diverse, e chiedere di scegliere quelli che sono più utili per rispondere a una data domanda.
Il modo in cui si interagisce con loro è molto semplice, ovvero attraverso il nostro linguaggio: gli si fornisce un’imbeccata, o uno spunto (prompt, in inglese) e questi continuano da soli, per esempio generando la risposta o la traduzione.
I nuovi modelli di base sono in grado di combinare immagini, audio e testo (sono multimodali), e sono in una fase di rapidissima evoluzione. Mi pare molto probabile che tali modelli (o i loro discendenti) finiranno in una posizione centrale nelle infrastrutture intelligenti del futuro.
Ma prima dovremo risolvere i problemi che stiamo osservando: dalle allucinazioni (quando il modello crede di avere visto un’informazione nei dati di addestramento, ma questa non esiste), alle varie forme di “jailbreaking” (trucchi inventati dagli hacker per indurre il modello a comportarsi in modi non appropriati); fino ai rischi di decisioni inique, dichiarazioni offensive, e cosi’ via.
La nuova legge europea sottopone questi modelli a degli obblighi di trasparenza (per esempio dichiarare i dati usati nell’addestramento), e - se molto grandi e con rischio sistemico - anche a delle verifiche approfondite sulle loro prestazioni, e all’obbligo di informare la Commissione dell'esistenza del modello e del relativo rischio sistemico, nonché di riportare ogni notizia di eventuali incidenti.
Nei prossimi anni possiamo aspettarci un numero crescente di prodotti che si basano sui modelli di base, e metodi sempre nuovi per tenerli sotto controllo, evitando i rischi di malfunzionamento.
Questo ci porta direttamente ai temi di “responsible AI” e “prompt engineering” che sono sul Gartner Hype Cycle e che discuteremo nei prossimi episodi.
Nello Cristianini è autore di Machina sapiens. L'algoritmo che ci ha rubato il segreto della conoscenza (Il Mulino 2024)
Per seguirlo sui social: LinkedIn; Instagram; Facebook
Nello Cristianini è professore di Intelligenza Artificiale all’Università di Bath, autore del volume La scorciatoia (Il Mulino, 2023), e di una serie di saggi e articoli specialistici sul tema dell’intelligenza artificiale, apprendimento automatico, analisi del linguaggio, conseguenze sociali dell’adozione delle tecnologie intelligenti.
Per Appunti cura la rubrica Prompt che, in ogni episodio, spiega in modo accessibile le parole chiave del dibattito sull’intelligenza artificiale.
Il mio nuovo libro
E’ uscito il mio nuovo libro, potete ordinarlo qui
Appunti è possibile grazie al sostegno delle abbonate e degli abbonati. E’ con il loro contributo che Appunti può crescere e svilupparsi anche con progetti ambiziosi come La Confessione. Se pensi che quello che facciamo è importante, regala un abbonamento a qualcuno a cui tieni.
Il Podcast: La Confessione
Ascolta La Confessione, il podcast di inchiesta che rivela per la prima volta da dentro come funziona il sistema di copertura e insabbiamento degli abusi sessuali nella Chiesa cattolica italiana. Un podcast realizzato da Stefano Feltri, Giorgio Meletti e Federica Tourn, realizzato grazie al sostegno della comunità di Appunti. Con la collaborazione di Carmelo Rosa e la consulenza per musiche ed effetti di Stefano Tumiati.
Gli eventi di Appunti
Milano, 4 aprile
Per chi c’è, ci vediamo a Milano giovedì 4 aprile, oggi, al secondo evento di un ciclo di incontri che organizziamo con l’Institute for European Policymaking della Bocconi con Il Grand Continent ed Egea, per parlare delle questioni più urgenti di geopolitica da una prospettiva europea.
Un’occasione per incontrare anche la comunità di Appunti! Dopo l’evento si continua a chiacchierare all’aperitivo… Il primo evento è andato benissimo, quindi vi consiglio di registrarvi qui per non perdere l’occasione di discutere con noi delle cose più rilevanti: LINK
L’evento del 4 aprile sarà in inglese e dedicato al tema della disinformazione:
Speakers
STEFANO DA EMPOLI i-Com
BILL EMMOTT, già direttore The Economist
GLORIA ORIGGI Institut Nicod, Ecole Normale Supérieure
MATTEO PUGLIESE University of Barcelona
GAIA RUBERA Bocconi University
Moderatore
STEFANO FELTRI
L
Grazie, articolo bellissimo nella sua semplicità!!
In pratica se si fa un accordo con OpenAI e si sviluppa solo un agente, a meno che questo non sia volutamente creato male è difficile incorrere in qualche sanzione in Europa.
E' come dire che stiamo regalando questa tecnologia agli U.S.A. grazie alle politiche dell'Unione europea, sbaglio?
Molto chiaro, grazie!