BOLLETTINO OPERATIVO · GIO 18 GIU 2026 · 19:52 CET EN / IT / RSS / NEWSLETTER

Claude Haiku 4.5: quando il modello veloce conviene davvero

Claude Haiku 4.5 costa un terzo di Sonnet e va il doppio. Ma non è per tutto. Ecco quando usarlo davvero e quando lasciar perdere.

Il 15 ottobre 2025 Anthropic ha rilasciato Claude Haiku 4.5, e la cosa interessante non è che sia il più piccolo della famiglia. È che costa un terzo di Sonnet 4 e va più del doppio della velocità, pur raggiungendo prestazioni di coding paragonabili. Vale la pena capire cosa cambia concretamente, perché la scelta fra Haiku, Sonnet e Opus oggi non è più una questione di budget: è una questione di mestiere.

Cos’è Haiku 4.5, in una riga

Haiku è da sempre la fascia “piccola e veloce” della line-up Claude. La 4.5 è la generazione che ha reso questa fascia interessante anche per chi prima storceva il naso. Secondo Anthropic, raggiunge circa il livello di coding di Sonnet 4 (il modello di punta di qualche mese fa) a un terzo del prezzo e a oltre il doppio della velocità. Context window di 200.000 token, fino a 64.000 token in output. Disponibile su API Claude, Amazon Bedrock e Google Vertex AI, ed è diventato il default per gli utenti free di Claude.ai.

Prezzo e velocità: i numeri che contano

Il listino sulla Claude API è lineare: 1 dollaro per milione di token in input, 5 dollari per milione in output. Per dare una misura, Sonnet 4.5 costa circa tre volte tanto in input e tre volte tanto in output. Con il batch processing scendi ancora del 50% sull’output, e la cache dei prompt abbatte i costi sui contenuti ricorrenti (circa 10 centesimi al milione in lettura).

Sulla latenza, i test indipendenti riportano risposte medie attorno ai 600-900 ms con prompt brevi. In pratica: è abbastanza veloce da stare dietro a un’interfaccia che reagisce in tempo reale, senza far venire il dubbio all’utente che il sistema si sia bloccato.

Quando Haiku 4.5 è la scelta giusta

Haiku brilla quando la quantità conta più della profondità. L’idea è semplice: non serve un cervellone da dottorato per etichettare diecimila email o riassumere un feed di notizie ogni cinque minuti.

  • Classificazione e routing ad alto volume (ticket di supporto, intent detection, moderazione)
  • Riassunti a raffica su flussi RSS, transcript, log, commenti
  • Estrazione di campi strutturati da PDF, fatture, mail
  • Interfacce conversazionali dove la latenza ammazza l’esperienza (autocomplete, chatbot di primo livello, agenti che fanno molti piccoli passi)
  • Sub-task dentro sistemi multi-agente: l’orchestratore è Sonnet o Opus, i “braccianti” sono Haiku

Su SWE-bench Verified, il benchmark che misura la capacità di chiudere issue reali su GitHub, Haiku 4.5 si ferma secondo Anthropic attorno al 73%. Sonnet 4.5 è intorno al 77%. Quattro punti di differenza per un terzo del costo e il doppio della velocità sono un affare, per molti casi d’uso.

Quando invece sbagli a sceglierlo

Haiku non è Sonnet travestito da povero. Ci sono lavori dove risparmiare sul modello ti costa caro alla fine del mese, perché il risultato te lo ritrovi da sistemare a mano.

  • Refactor di codice complesso su repo grandi, con dipendenze fra molti file
  • Ragionamento lungo a più step dove un errore a metà inquina tutto il resto
  • Analisi di documenti legali o tecnici dove servono sfumature e conclusioni difendibili
  • Generazione di contenuti lunghi dove tono, coerenza e struttura contano quanto la correttezza
  • Task agentici che devono ragionare su molte centinaia di pagine di contesto in un colpo solo

La regola: se il costo di un errore del modello è più alto del costo di usare Sonnet, non c’è partita. Haiku è per i task dove l’errore è recuperabile, misurabile, o statisticamente accettabile su grandi numeri.

Il verdetto

Non è un “Claude dei poveri”. È un modello diverso, pensato per un mestiere diverso. Un anno fa i modelli piccoli erano una scelta obbligata se non avevi budget. Oggi Haiku 4.5 è una scelta di architettura: lo metti dove ti serve velocità e volume, e tieni Sonnet o Opus per i punti del sistema dove la qualità del ragionamento fa la differenza.

La mossa vera, se stai costruendo qualcosa di serio, non è scegliere fra Haiku e Sonnet. È disegnare il sistema in modo che li usi tutti e due, ciascuno dove rende di più. Chi continua a ragionare a modello unico sta lasciando soldi sul tavolo, e spesso anche secondi di latenza che gli utenti notano.

Leggi anche