Kimi K2 di Moonshot: il trillion-parameter cinese open-weight
Kimi K2 di Moonshot AI: MoE da 1T parametri totali, 32B attivi, open-weight. Forte su agentic coding, API economica, self-host possibile.

A luglio 2025 Moonshot AI, startup di Pechino nota in Cina per l’assistente consumer Kimi Chat, ha pubblicato Kimi K2. Un modello Mixture-of-Experts da circa un trilione di parametri totali, con 32 miliardi attivi per token. Open-weight, licenza permissiva, pesi su Hugging Face. Non un teaser, non un’API chiusa: il modello scaricabile, girabile in casa se hai l’hardware giusto.
La cosa che colpisce non sono i numeri sulla carta. Sono i benchmark su coding agentico e la catena di modelli open cinesi che continua a uscire con cadenza mensile, mentre l’occidente discute se rilasciare o meno i pesi.
Cosa è Moonshot AI
Moonshot nasce nel 2023, sede a Pechino, fondatore Yang Zhilin (ex ricercatore Carnegie Mellon e Google). Il prodotto consumer si chiama Kimi ed è uno dei chatbot più usati in Cina, con milioni di utenti attivi. A un certo punto la società ha deciso di giocare anche la partita open-weight, e K2 è il primo risultato serio.
La logica è quella che conosciamo già: il frontier closed di OpenAI e Anthropic tira la qualità in alto, i modelli cinesi open tirano il prezzo in basso e distribuiscono pesi che chiunque può ispezionare, fine-tunare, eseguire su infrastruttura propria.
Architettura e numeri
- Mixture-of-Experts, circa 1T parametri totali
- Circa 32B parametri attivi per token (solo una frazione degli esperti si accende a ogni passaggio)
- Context window lungo, pensato per lavori agentici multi-step
- Tokenizer e architettura documentati, pesi su Hugging Face
- Licenza permissiva in stile Llama: uso commerciale ammesso con poche restrizioni
Il trucco del MoE è questo: hai un modello enorme a riposo, ma a runtime lavorano solo 32B parametri. Costa meno in inferenza rispetto a un denso da 70B, pur avendo capacità che scalano con il totale. Il rovescio è la memoria: per caricarlo comunque servono i pesi completi, quindi GPU serie o setup multi-nodo.
Benchmark e agentic coding
Moonshot ha spinto K2 sul coding agentico, non solo sul coding in generale. La differenza è che il modello deve pianificare azioni, usare tool, leggere errori del compilatore, riprovare. Su SWE-bench, il benchmark che chiede di risolvere bug reali di repository GitHub, K2 si piazza in zona frontier, competitivo con modelli closed-source ben più costosi.
Non è il primo modello open che arriva lì. DeepSeek R1 aveva già fatto rumore sul ragionamento, Llama 4 di Meta gioca la partita open in occidente. Kimi K2 è il tassello che aggiunge l’uso di tool e la capacità di reggere workflow agentici lunghi senza perdersi.
Come provarlo
Tre strade, a seconda di cosa vuoi fare.
- API ufficiale Moonshot: endpoint compatibile OpenAI, prezzi per milione di token molto sotto Claude o GPT di fascia alta. Si paga con carta, chiave in pochi minuti.
- Inference community: vLLM e SGLang hanno già supporto, DeepInfra e Groq espongono K2 via API con latenza bassa. Utile se non vuoi dipendere dall’endpoint cinese.
- Self-host: pesi su Hugging Face, serve un cluster GPU serio (parliamo di più A100 o H100 per tenere tutto in memoria). Fattibile per aziende, meno per hobbisti.
Per un test veloce la strada sensata è DeepInfra o Groq. Cambi la base URL nel client OpenAI, metti la chiave, e sei operativo. Se invece il workload è sensibile, tipo codice cliente che non vuoi mandare a un endpoint esterno, il self-host diventa l’argomento principale.
Perché conta per chi sviluppa
Ci sono due scenari in cui un modello come K2 cambia i conti.
- Budget stretto su volumi alti: se processi milioni di token al giorno, la differenza tra API frontier e Kimi K2 è di ordini di grandezza. Vale la prova, anche solo per task ben definiti come classificazione o estrazione.
- Dati che non possono uscire: codice proprietario, documenti sanitari, contratti. Il self-host non è un vezzo, è l’unico modo di stare dentro certi vincoli contrattuali. Un open-weight serio è l’opzione praticabile.
Poi c’è la fascia grigia: sviluppatori che usano Claude o GPT per il lavoro vero e tengono un modello open come fallback per prototipi, test di prompt, batch notturni. K2 si candida bene a quel ruolo, più capace dei 70B classici, più economico dei frontier closed.
Limiti e cautele
Qualche punto che vale la pena tenere a mente.
- L’italiano funziona ma non è il focus del training. Su task in inglese va meglio.
- L’allineamento è diverso da quello dei modelli occidentali, su alcuni argomenti ci sono filtri, su altri meno. Non è necessariamente un problema, è una caratteristica da conoscere.
- L’endpoint Moonshot è in Cina. Se il tuo compliance dice no, passa da DeepInfra/Groq o self-host.
- I benchmark pubblicati sono ottimi, ma come sempre vanno replicati sul workload reale prima di decidere.
La pressione sulla fascia occidentale
DeepSeek, Qwen di Alibaba, Kimi di Moonshot. Tre laboratori cinesi diversi che in meno di un anno hanno pubblicato pesi di modelli competitivi con il frontier. Nessuno di loro vende direttamente in occidente ai livelli di OpenAI o Anthropic, ma l’effetto sui prezzi è già visibile. Chi produce intelligenza a token deve tenere conto che sotto c’è un pavimento open che scende ogni trimestre.
La domanda onesta, per chi costruisce prodotti sopra agli LLM: quanto del tuo costo ha senso pagarlo per qualità marginale, e quanto può stare su un modello open fine-tunato sul tuo dominio? La risposta non è la stessa per tutti, ma oggi almeno la scelta esiste.

Blogger dal 2001, Nativo Digitale, Developer.
Da 15 anni mi occupo di IT per una grande Azienda.
Lavoro per abbattere il Digital Divide.
Visita i miei altri progetti
sardiniamobility.com
www.cyberness.it