Claude Haiku 4.5: quando il modello veloce conviene davvero
Claude Haiku 4.5 costa un terzo di Sonnet e va il doppio. Ma non è per tutto. Ecco quando usarlo davvero e quando lasciar perdere.

Il 15 ottobre 2025 Anthropic ha rilasciato Claude Haiku 4.5, e la cosa interessante non è che sia il più piccolo della famiglia. È che costa un terzo di Sonnet 4 e va più del doppio della velocità, pur raggiungendo prestazioni di coding paragonabili. Vale la pena capire cosa cambia concretamente, perché la scelta fra Haiku, Sonnet e Opus oggi non è più una questione di budget: è una questione di mestiere.
Cos’è Haiku 4.5, in una riga
Haiku è da sempre la fascia “piccola e veloce” della line-up Claude. La 4.5 è la generazione che ha reso questa fascia interessante anche per chi prima storceva il naso. Secondo Anthropic, raggiunge circa il livello di coding di Sonnet 4 (il modello di punta di qualche mese fa) a un terzo del prezzo e a oltre il doppio della velocità. Context window di 200.000 token, fino a 64.000 token in output. Disponibile su API Claude, Amazon Bedrock e Google Vertex AI, ed è diventato il default per gli utenti free di Claude.ai.
Prezzo e velocità: i numeri che contano
Il listino sulla Claude API è lineare: 1 dollaro per milione di token in input, 5 dollari per milione in output. Per dare una misura, Sonnet 4.5 costa circa tre volte tanto in input e tre volte tanto in output. Con il batch processing scendi ancora del 50% sull’output, e la cache dei prompt abbatte i costi sui contenuti ricorrenti (circa 10 centesimi al milione in lettura).
Sulla latenza, i test indipendenti riportano risposte medie attorno ai 600-900 ms con prompt brevi. In pratica: è abbastanza veloce da stare dietro a un’interfaccia che reagisce in tempo reale, senza far venire il dubbio all’utente che il sistema si sia bloccato.
Quando Haiku 4.5 è la scelta giusta
Haiku brilla quando la quantità conta più della profondità. L’idea è semplice: non serve un cervellone da dottorato per etichettare diecimila email o riassumere un feed di notizie ogni cinque minuti.
- Classificazione e routing ad alto volume (ticket di supporto, intent detection, moderazione)
- Riassunti a raffica su flussi RSS, transcript, log, commenti
- Estrazione di campi strutturati da PDF, fatture, mail
- Interfacce conversazionali dove la latenza ammazza l’esperienza (autocomplete, chatbot di primo livello, agenti che fanno molti piccoli passi)
- Sub-task dentro sistemi multi-agente: l’orchestratore è Sonnet o Opus, i “braccianti” sono Haiku
Su SWE-bench Verified, il benchmark che misura la capacità di chiudere issue reali su GitHub, Haiku 4.5 si ferma secondo Anthropic attorno al 73%. Sonnet 4.5 è intorno al 77%. Quattro punti di differenza per un terzo del costo e il doppio della velocità sono un affare, per molti casi d’uso.
Quando invece sbagli a sceglierlo
Haiku non è Sonnet travestito da povero. Ci sono lavori dove risparmiare sul modello ti costa caro alla fine del mese, perché il risultato te lo ritrovi da sistemare a mano.
- Refactor di codice complesso su repo grandi, con dipendenze fra molti file
- Ragionamento lungo a più step dove un errore a metà inquina tutto il resto
- Analisi di documenti legali o tecnici dove servono sfumature e conclusioni difendibili
- Generazione di contenuti lunghi dove tono, coerenza e struttura contano quanto la correttezza
- Task agentici che devono ragionare su molte centinaia di pagine di contesto in un colpo solo
La regola: se il costo di un errore del modello è più alto del costo di usare Sonnet, non c’è partita. Haiku è per i task dove l’errore è recuperabile, misurabile, o statisticamente accettabile su grandi numeri.
Il verdetto
Non è un “Claude dei poveri”. È un modello diverso, pensato per un mestiere diverso. Un anno fa i modelli piccoli erano una scelta obbligata se non avevi budget. Oggi Haiku 4.5 è una scelta di architettura: lo metti dove ti serve velocità e volume, e tieni Sonnet o Opus per i punti del sistema dove la qualità del ragionamento fa la differenza.
La mossa vera, se stai costruendo qualcosa di serio, non è scegliere fra Haiku e Sonnet. È disegnare il sistema in modo che li usi tutti e due, ciascuno dove rende di più. Chi continua a ragionare a modello unico sta lasciando soldi sul tavolo, e spesso anche secondi di latenza che gli utenti notano.
Leggi anche

Blogger dal 2001, Nativo Digitale, Developer.
Da 15 anni mi occupo di IT per una grande Azienda.
Lavoro per abbattere il Digital Divide.
Visita i miei altri progetti
sardiniamobility.com
www.cyberness.it