BOLLETTINO OPERATIVO · GIO 18 GIU 2026 · 00:54 CET EN / IT / RSS / NEWSLETTER

La tua intelligenza artificiale, sul tuo computer: guida pratica agli LLM locali

Far girare un’intelligenza artificiale direttamente sul proprio PC, senza internet, senza account e senza limiti: oggi è possibile, gratuito e alla portata di chiunque. Guida pratica agli LLM locali per smart worker, tra privacy, strumenti come Ollama e LM Studio, e una riflessione sulla sovranità digitale.

Cosa sono, perché interessano sempre più smart worker e come iniziare a usarli senza spendere un centesimo.


Ogni volta che apriamo ChatGPT, Claude o Gemini, succede una cosa che diamo per scontata: il nostro testo viaggia su un server in California, viene elaborato da un modello che non possiamo vedere e ci torna indietro una risposta. Funziona benissimo, ma per chi lavora con dati riservati, documenti aziendali o semplicemente non ama l’idea di mandare in giro per il mondo le proprie email, c’è un’alternativa che fino a tre anni fa era impensabile: far girare l’intelligenza artificiale direttamente sul proprio PC, offline, senza account e senza limiti di messaggi.

Si chiamano LLM locali (Large Language Model locali) e nel 2026 sono diventati un’opzione concreta anche per chi non è uno sviluppatore. Vediamo cosa sono, cosa cambiano per uno smart worker e come provarli in pochi minuti.

Cos’è un LLM locale, in parole semplici

Un LLM è il tipo di modello che sta dietro ChatGPT, Claude e simili: una rete neurale addestrata su miliardi di pagine di testo, capace di rispondere a domande, riassumere, tradurre, scrivere codice. La versione “cloud” gira su data center con migliaia di GPU che costano milioni di euro.

Negli ultimi due anni, però, aziende come Meta (con la famiglia Llama), Mistral, Alibaba (Qwen) e DeepSeek hanno rilasciato versioni più piccole di questi modelli, scaricabili gratuitamente e progettate per girare anche su un PC normale. Sono meno potenti dei colossi commerciali, ma sufficienti per moltissimi compiti quotidiani.

La differenza concettuale è enorme:

  • LLM cloud: paghi (o accetti di cedere dati), hai sempre bisogno di internet, dipendi dall’azienda fornitrice
  • LLM locale: scarichi il modello una volta, gira sulla tua macchina, non esce nessun dato dal tuo PC

Perché interessa a chi lavora da remoto

Lo smart worker è un caso d’uso quasi perfetto per gli LLM locali. Tre motivi pratici:

Privacy reale, non dichiarata. Quando carichi un contratto, una busta paga, una lista clienti o un’email aziendale su un servizio cloud, stai accettando una policy che, nella migliore delle ipotesi, dice “non useremo i tuoi dati per addestrare il modello”. Con un modello locale questo problema non esiste: il dato non lascia mai il tuo dispositivo. Per chi lavora con NDA, dati sanitari, informazioni finanziarie o documenti della pubblica amministrazione, è una differenza sostanziale.

Nessun limite di messaggi o token. Niente “hai esaurito la quota giornaliera”, niente abbonamenti da 20 dollari al mese moltiplicati per ogni servizio. Una volta scaricato il modello, lo usi quanto vuoi.

Funziona offline. In treno, in aereo, in una casa di campagna con la connessione ballerina, il tuo assistente continua a rispondere. Per chi è abituato a lavorare ovunque, è una piccola rivoluzione.

Ovviamente ci sono dei limiti, e li vedremo. Ma il punto è che oggi un LLM locale non è più un esperimento da nerd: è uno strumento di produttività utilizzabile.

Come si fa: la via semplice si chiama Ollama

Fino a un paio d’anni fa, far girare un modello in locale richiedeva ore di configurazione, dipendenze Python, driver GPU e una buona dose di pazienza. Oggi esiste Ollama, un programma gratuito e open source che riduce tutto a tre passaggi:

  1. Scarichi e installi Ollama da ollama.com/download (Windows, macOS o Linux)
  2. Apri il terminale
  3. Scrivi ollama run llama3.2 e parte tutto

Al primo avvio scarica il modello (qualche GB), poi ti ritrovi una chat testuale identica a ChatGPT, ma offline. Da lì puoi cambiare modello con un comando: ollama run mistral, ollama run qwen2.5, ollama run deepseek-r1, e così via. Il catalogo completo dei modelli supportati è su ollama.com/library.

Per chi preferisce un’interfaccia grafica simile a ChatGPT, esistono due ottime alternative gratuite:

  • Open WebUI — interfaccia web self-hosted, molto completa, con gestione utenti e RAG integrato
  • LM Studio — app desktop pronta all’uso (Windows, Mac, Linux), include il download dei modelli direttamente da Hugging Face, il “GitHub” dei modelli open source

LM Studio è probabilmente l’opzione più semplice in assoluto se non vuoi nemmeno toccare il terminale.

Quale modello scegliere

I modelli si misurano in miliardi di parametri (B = billion). Più parametri = più “intelligenza”, ma anche più RAM e più lentezza. Per orientarsi:

  • Modelli da 1B–3B parametri: girano anche su un portatile con 8 GB di RAM, senza GPU dedicata. Veloci, utili per riassunti, traduzioni, risposte semplici. Esempi: Llama 3.2 3B, Qwen 2.5 3B, Gemma 3 4B.
  • Modelli da 7B–8B: il punto dolce per la maggior parte degli smart worker. Servono 16 GB di RAM (meglio con GPU). Qualità simile a un GPT-3.5 di qualche anno fa. Esempi: Llama 3.1 8B, Mistral 7B, Qwen 2.5 7B.
  • Modelli da 14B–32B: ottima qualità, ma servono 32+ GB di RAM o una GPU con almeno 16 GB di VRAM. Qui si entra in territorio “quasi GPT-4”.
  • Modelli da 70B+: girano solo su workstation potenti o su Mac con molta memoria unificata. Qualità di altissimo livello ma per uso domestico sono sovradimensionati.

Per cominciare, il consiglio è semplice: Llama 3.2 3B se hai un PC modesto, Qwen 2.5 7B o Llama 3.1 8B se hai una macchina decente. Specifico Qwen perché negli ultimi mesi sta diventando uno dei migliori modelli aperti per multilinguismo, italiano incluso. Tutti questi modelli si scaricano con un singolo comando da Ollama, oppure direttamente da huggingface.co/models per chi vuole esplorare.

Cosa puoi farci concretamente

Una volta installato, un LLM locale può sostituire o affiancare un assistente cloud in moltissime attività quotidiane:

  • Riassumere documenti lunghi (PDF, verbali, articoli) senza caricarli da nessuna parte
  • Tradurre testi mantenendo riservatezza, anche tra italiano e lingue meno comuni
  • Rispondere a email in modo più professionale, partendo da una bozza scritta di getto
  • Generare codice (Python, JavaScript, SQL) con modelli specializzati come DeepSeek Coder o Qwen Coder
  • Creare bozze di articoli, report, presentazioni in totale autonomia
  • Interrogare i propri documenti tramite tecniche di “RAG” (Retrieval Augmented Generation): in pratica, il modello legge i tuoi file e risponde basandosi su quelli, restando offline
  • Classificare e organizzare email, ticket, commenti in modo automatico, integrandosi con i tuoi strumenti via API locale

Quest’ultimo punto è interessante per chi sviluppa: Ollama espone un’API HTTP locale (http://localhost:11434) compatibile in larga parte con quella di OpenAI. Significa che puoi prendere uno script pensato per ChatGPT e farlo girare in locale cambiando solo l’URL. La documentazione completa dell’API è su github.com/ollama/ollama.

I limiti, perché esistono

Sarebbe disonesto non dirlo: un LLM locale non è ancora ChatGPT o Claude. Le differenze principali:

  • Capacità di ragionamento: per problemi complessi (analisi giuridiche elaborate, codice di livello senior, ragionamenti matematici a più passaggi), i modelli cloud sono ancora avanti. Un modello da 7B in locale è bravo, non è un genio.
  • Conoscenza aggiornata: i modelli locali hanno una “data di taglio” delle informazioni e non navigano il web. Per sapere cos’è successo ieri serve un modello cloud con accesso a internet.
  • Velocità: senza una GPU, le risposte arrivano lentamente (qualche parola al secondo). Su un buon PC da gaming, invece, sono fluide.
  • Multimodalità: i modelli che vedono immagini, ascoltano audio o generano video in locale esistono, ma sono ancora indietro rispetto alle versioni cloud.

In pratica: per il 70% delle attività quotidiane, un LLM locale è più che sufficiente. Per il restante 30% (ricerca avanzata, ragionamenti complessi, multimodalità di alto livello), conviene tenersi un servizio cloud come backup.

Sovranità digitale: una questione che ci riguarda

C’è un aspetto che va oltre la praticità individuale e tocca un tema più ampio: la dipendenza tecnologica. Oggi l’intelligenza artificiale generativa è in mano a una manciata di aziende americane (più una cinese), che possono cambiare prezzi, chiudere account, modificare le policy o spegnere servizi a piacimento. Per professionisti, aziende e pubbliche amministrazioni che integrano sempre più l’AI nei propri processi, questa è una vulnerabilità strategica.

I modelli aperti ed eseguibili in locale sono, oggi, l’unica vera contromisura. Non risolvono tutto, perché restano comunque addestrati altrove, ma garantiscono almeno che lo strumento operativo non possa essere portato via dall’oggi al domani. Per un’Europa che parla spesso di sovranità digitale ma raramente la pratica, gli LLM locali sono un mattone concreto su cui costruire.

Da dove iniziare oggi

Se vuoi provare, il percorso minimo è questo:

  1. Vai su ollama.com (oppure lmstudio.ai se preferisci un’app grafica) e scarica l’installer per il tuo sistema operativo
  2. Apri il terminale (PowerShell su Windows, Terminale su Mac/Linux)
  3. Digita ollama run llama3.2 e attendi il download
  4. Inizia a chattare

In meno di mezz’ora hai un assistente AI personale, gratuito, offline e tuo. Da lì, puoi esplorare modelli più grandi, interfacce grafiche, integrazione con i tuoi documenti e con i tuoi strumenti di lavoro.

Risorse utili

  • ollama.com — il modo più semplice per scaricare e gestire LLM da terminale
  • lmstudio.ai — app desktop con interfaccia grafica
  • openwebui.com — interfaccia web in stile ChatGPT, self-hosted
  • huggingface.co — il catalogo più grande di modelli open source
  • llama.com — i modelli ufficiali di Meta
  • mistral.ai — i modelli di Mistral, azienda francese

Non sostituirà completamente i servizi cloud, almeno non ancora. Ma ti darà qualcosa che oggi pochi smart worker hanno: il controllo reale dei propri strumenti di lavoro intelligenti.

E in un mondo dove l’intelligenza artificiale sta diventando infrastruttura quotidiana, è una libertà che vale la pena coltivare almeno per curiosità.