Llama 4: la scommessa open-weight di Meta tra promesse e polemiche
Llama 4 di Meta: architettura MoE, contesto 10M token, multimodale nativo. Tra benchmark dichiarati e accuse di gaming del LMarena.

Ad aprile 2025 Meta ha rilasciato Llama 4, la quarta generazione della sua famiglia di modelli open-weight. Tre varianti annunciate: Scout, Maverick e Behemoth. Le prime due disponibili al download, la terza ancora in training. Sulla carta i numeri sono notevoli: architettura Mixture of Experts, multimodalità nativa, finestra di contesto da 10 milioni di token su Scout. Nei fatti il lancio è stato accolto con entusiasmo misto a sospetti, e vale la pena capire perché.
Cosa c’è nella famiglia Llama 4
Meta ha presentato tre modelli, tutti basati sulla stessa architettura ma dimensionati diversamente. Scout è il modello piccolo, Maverick quello medio, Behemoth il grande in addestramento. La scelta di non rilasciare un modello monolitico ma una famiglia modulare segue quello che ormai è lo standard del settore.
- Llama 4 Scout: 17 miliardi di parametri attivi su 109 miliardi totali, 16 esperti, contesto fino a 10M token
- Llama 4 Maverick: 17 miliardi di parametri attivi su 400 miliardi totali, 128 esperti, contesto 1M token
- Llama 4 Behemoth: 288 miliardi di parametri attivi su circa 2 trilioni totali, ancora in training al momento dell’annuncio
Tutti e tre sono multimodali nativi, cioè elaborano immagini e testo nello stesso modello senza moduli bolt-on. È lo stesso approccio che ha preso Google con Gemini fin dal 2023, mentre Llama 3 era rimasto text-only.
Mixture of Experts: il taglio architetturale
Il passaggio a MoE è la novità più rilevante. Nei modelli densi classici ogni token attiva tutti i parametri del modello. In un MoE i parametri sono divisi in “esperti” e un router decide quali attivare per ogni token. Il risultato è che Scout ha 109 miliardi di parametri totali ma ne usa solo 17 miliardi per ogni inferenza. Costo computazionale basso, capacità del modello alta.
Non è un’invenzione di Meta. Mixtral di Mistral aveva già dimostrato la strada, e DeepSeek con V3 e R1 ha spinto MoE a scale enormi con costi di training dichiarati molto bassi. Anche Kimi K2 di Moonshot usa la stessa architettura. Llama 4 si allinea a questa tendenza dopo essere rimasta densa per tre generazioni.
10 milioni di token di contesto: cosa significa davvero
Il dato che ha fatto più rumore è il contesto di Scout. Dieci milioni di token sono una finestra enorme, circa venti volte Gemini 1.5 Pro all’epoca del suo lancio. In teoria entra un intero codebase, una collezione di documenti legali, la trascrizione di decine di ore di video.
In pratica il numero va preso con cautela. Il training è stato fatto con contesti molto più corti, l’estensione arriva da tecniche di interpolazione posizionale. I test needle-in-a-haystack pubblicati da terze parti mostrano degrado ben prima del limite dichiarato. Avere dieci milioni di token “nominali” non significa che il modello ragioni coerentemente su tutta quella lunghezza. È un asterisco che vale la pena tenere a mente prima di progettare pipeline RAG basate su quel claim.
La questione “open”
Llama 4 viene chiamato open-source ma non lo è nel senso tecnico del termine. La Llama Community License pone vincoli precisi:
- Le aziende con più di 700 milioni di utenti attivi mensili devono chiedere una licenza specifica a Meta
- L’uso commerciale è permesso ma con attribution obbligatoria
- Non si possono usare i modelli per migliorare altri modelli di terze parti
- Restano clausole di acceptable use che Meta può aggiornare
Per l’Open Source Initiative questa non è una licenza open source. Per la maggior parte degli sviluppatori nella pratica quotidiana la differenza è accademica: i pesi si scaricano, si possono fine-tunare, si possono self-hostare. Ma chiamarli “open” senza specificare introduce confusione, e il tema è tornato caldo proprio con Llama 4 perché Meta nel materiale di lancio ha spinto molto sulla narrativa dell’apertura.
Il caso LMarena
Qui la cronaca si fa imbarazzante. Llama 4 Maverick è apparso su LMarena, la classifica basata su preferenze umane, intorno al secondo posto assoluto, dietro solo a Gemini 2.5 Pro. Nei giorni successivi è emerso che la versione valutata su LMarena era una variante “experimental optimized for conversationality” diversa da quella rilasciata al pubblico. In pratica un modello tarato sullo stile delle risposte che tipicamente vincono quel tipo di confronto A/B.
LMarena ha aggiornato le policy e chiesto a Meta di chiarire. Gli utilizzatori che hanno provato i pesi rilasciati hanno riportato performance molto più in linea con modelli della generazione precedente, non col secondo posto in classifica. Non è frode, ma è il tipo di benchmark gaming che erode la fiducia. E in un ecosistema open dove la fiducia nei numeri dichiarati è l’unica cosa che permette di scegliere senza testare tutto, fa danni.
Cosa cambia nella pratica per chi sviluppa
Nonostante le polemiche, Llama resta il pilastro dell’ecosistema open-weight. Hugging Face, Ollama, vLLM, llama.cpp, tutti supportano Llama 4 dal day one. Chi ha esigenze di self-hosting trova un modello moderno, multimodale, con una community enorme di tooling, fine-tune, quantizzazioni.
Gli scenari in cui Llama 4 ha senso sono quelli noti: dati che non possono uscire dai propri server, costi di inferenza che devono essere prevedibili, fine-tuning specialistico su domini verticali. Per uso generale conversazionale probabilmente Claude, GPT-5 o Gemini restano più solidi, ma non si self-hostano. È il solito trade-off tra controllo e qualità di frontiera.
La posizione di Meta nel quadro generale
Meta sta giocando una partita diversa da OpenAI, Anthropic e Google. Il modello di business non è la API, è l’ecosistema Meta stesso, che trae valore indiretto dall’avere un AI di qualità integrata in Instagram, WhatsApp, Ray-Ban. Rilasciare i pesi è una mossa strategica: commoditizza lo strato di modelli di base e toglie ossigeno ai concorrenti che su quello strato hanno costruito il prodotto.
Il problema è che per mantenere quella strategia serve che i modelli siano davvero competitivi. Llama 4, stando ai test indipendenti, sembra un passo laterale più che avanti rispetto a Llama 3.3. Se la tendenza continua, la posizione di Meta come riferimento dell’open-weight potrebbe essere erosa da DeepSeek, Qwen, Mistral. La domanda vera non è se Llama 4 sia un buon modello. È se Meta riuscirà a far uscire Behemoth a un livello tale da giustificare i titoli che si è già presa.

Blogger dal 2001, Nativo Digitale, Developer.
Da 15 anni mi occupo di IT per una grande Azienda.
Lavoro per abbattere il Digital Divide.
Visita i miei altri progetti
sardiniamobility.com
www.cyberness.it