Jared Kaplan e le scaling laws: perché un fisico ha predetto ChatGPT
Chi è Jared Kaplan, cofondatore e Chief Science Officer di Anthropic, e perché il suo paper del 2020 ha disegnato la rotta di GPT-4, Claude e Gemini.

Se oggi esistono ChatGPT, Claude e Gemini è anche perché nel 2020 un fisico teorico della Johns Hopkins ha pubblicato un paper che diceva, in sostanza: se fai il modello più grande, gli dai più dati e più GPU, diventa prevedibilmente più bravo. Si chiama Jared Kaplan, è cofondatore di Anthropic, e vale la pena capire cosa ha fatto, concretamente.
Chi è Jared Kaplan
Kaplan non arriva dal machine learning. È un fisico teorico, professore alla Johns Hopkins University, con un background in teoria quantistica dei campi e cosmologia. Negli anni 2010 inizia a collaborare con OpenAI come consulente, portando dentro il mondo del deep learning uno sguardo da fisico: cercare leggi di scala, invarianti, curve pulite. È lo stesso approccio che in fisica ti fa vedere come si comporta un sistema quando cambi un parametro di vari ordini di grandezza.
Il paper del 2020, in parole semplici
Nel gennaio 2020 Kaplan firma come primo autore Scaling Laws for Neural Language Models (arxiv 2001.08361), insieme a Sam McCandlish, Dario Amodei e altri ricercatori OpenAI. Il messaggio del paper è sorprendentemente lineare: la loss di un language model, cioè quanto sbaglia nel prevedere la prossima parola, cala seguendo una legge di potenza rispetto a tre cose — il numero di parametri del modello, la quantità di dati di training, e il compute speso. Non in modo caotico. In modo prevedibile, su molti ordini di grandezza.
Tradotto: se oggi hai un modello da 100 milioni di parametri e vuoi sapere quanto andrà meglio quello da 10 miliardi, non devi più tirare a indovinare. Puoi estrapolare sulla curva.
Perché ha cambiato tutto
Sembra un dettaglio tecnico, e invece è la cosa che ha sbloccato gli investimenti da miliardi. Fino a quel momento spendere 50 milioni di dollari per addestrare un modello gigante era una scommessa. Dopo il paper di Kaplan era un calcolo: sappiamo dove finirà la curva, quindi sappiamo quanto bravo sarà il modello prima ancora di premere start.
Pochi mesi dopo OpenAI pubblica GPT-3, 175 miliardi di parametri, che è esattamente il tipo di salto che le scaling laws giustificavano. Da lì parte la corsa: GPT-4, Claude, Gemini, Llama. Tutti, più o meno, stanno cavalcando la stessa curva. Qualcuno l’ha chiamata la legge di Moore dell’AI, ed è una metafora imprecisa ma utile per farsi un’idea.
Chinchilla e la correzione di DeepMind
La storia però non finisce nel 2020. Nel 2022 DeepMind pubblica il paper di Chinchilla, che rimette in discussione un punto importante: Kaplan e colleghi avevano suggerito di puntare molto sui parametri rispetto ai dati. Chinchilla mostra che, a parità di compute, conviene avere modelli più piccoli addestrati su molti più token. Un modello da 70 miliardi ben nutrito batte uno da 175 miliardi affamato.
Non è una smentita, è una messa a punto. Le scaling laws restano, ma la ricetta ottimale era un po’ diversa da quella proposta inizialmente. È il motivo per cui oggi quasi tutti i lab puntano su training set enormi — trilioni di token — invece di limitarsi a gonfiare il conteggio dei parametri.
Cosa fa oggi in Anthropic
Nel 2021 Kaplan lascia OpenAI insieme a Dario e Daniela Amodei, Tom Brown, Sam McCandlish e altri per fondare Anthropic. Oggi è Chief Science Officer dell’azienda. In pratica è la persona che tiene insieme la direzione scientifica di chi costruisce Claude, ed è uno dei pochi cofondatori che continua a pubblicare ricerca di base.
Funzionano ancora, le scaling laws?
La risposta giusta è sempre: dipende. Dipende da cosa misuri. Se guardi la loss sul prossimo token, la curva continua a scendere in modo decente. Se guardi le capacità percepite — ragionamento, coding, compiti complessi — il dibattito è aperto. Negli ultimi due anni si sente parlare sempre più spesso di plateau, di rendimenti decrescenti, del fatto che GPT-5 e Claude non sembrano più fare i salti che si vedevano tra GPT-2 e GPT-3.
In parallelo è emerso un nuovo paradigma: lo scaling non è più solo al training, ma anche all’inference, cioè dare al modello più tempo di pensare. È l’idea dietro i modelli di ragionamento tipo o1 e o3. Non contraddice Kaplan, ma sposta il focus: la curva che conta potrebbe non essere più quella di sei anni fa.
Il mio take
Kaplan è interessante perché ha fatto una cosa molto poco hype: ha trasformato un’area speculativa in qualcosa di pianificabile. Senza il suo paper probabilmente avremmo avuto comunque i grandi modelli, ma più tardi e con meno convinzione. Detto questo, il rischio di leggere tutto in chiave di scaling laws è pensare che la ricetta sia solo aggiungere GPU. Non lo è mai stato — il paper stesso parlava di tre variabili — e oggi è ancora meno vero. La prossima svolta non sarà un modello da 10 trilioni di parametri. Sarà capire cosa misurare davvero quando diciamo che un modello è “più bravo”.
Leggi anche

Blogger dal 2001, Nativo Digitale, Developer.
Da 15 anni mi occupo di IT per una grande Azienda.
Lavoro per abbattere il Digital Divide.
Visita i miei altri progetti
sardiniamobility.com
www.cyberness.it