Claude Computer Use: quando l’AI prende in mano mouse e tastiera
Anthropic a ottobre 2024 presenta Computer Use: Claude vede lo schermo, muove il mouse, digita. Primo modello frontier a farlo. Lento, imperfetto, interessante.

Il 22 ottobre 2024 Anthropic ha annunciato una capacità nuova per Claude 3.5 Sonnet: Computer Use. Non è un altro chatbot travestito da assistente. È il modello che guarda lo schermo, decide dove cliccare, digita sulla tastiera virtuale e manda avanti un task sul computer. Primo modello frontier disponibile al pubblico con questa capacità in forma generale, esposta via API.
La demo ufficiale fa vedere Claude che apre un browser, compila un form, copia dati da un sito a un foglio, salva un file. Roba che sembra banale finché non la si guarda fatta da un modello linguistico. E finché non si prova a capire quanto sbaglia, quanto è lento, e perché Anthropic stessa dice che è una feature sperimentale.
Come funziona Computer Use
Il meccanismo è più semplice di quanto sembri. Claude non ha un accesso privilegiato al sistema operativo. Riceve screenshot dello schermo e coordinate, e restituisce azioni strutturate. Il loop è questo:
- Il client cattura uno screenshot dello schermo e lo manda a Claude insieme al task.
- Claude analizza l’immagine, individua pulsanti, campi di testo, elementi grafici.
- Restituisce un’azione:
click(x, y),type("testo"),key("enter"),scroll, eccetera. - Il client esegue l’azione sul sistema reale, cattura un nuovo screenshot, ripete.
L’API espone tre tool specifici: computer per mouse/tastiera/screenshot, bash per il terminale, text_editor per leggere e modificare file. Il modello decide quale usare. Anthropic consiglia di far girare il tutto in un container Docker isolato, sia per sicurezza sia per non far impazzire la macchina host quando Claude decide di aprire quaranta schede in parallelo.
Cosa ci si può fare davvero
I casi d’uso mostrati sono quelli prevedibili per un agent che opera via GUI:
- Compilazione di moduli web ripetitivi dove non esiste API.
- Estrazione di dati da siti che non offrono export strutturato.
- Automazione di applicazioni legacy con interfacce grafiche che nessuno vuole toccare.
- Test end-to-end di interfacce utente, come alternativa a Selenium o Playwright scritti a mano.
- Task di ufficio misti: apri un PDF, copia un numero, incollalo in un foglio, salva.
La parola chiave è “ripetitivi”. Computer Use non è lì per sostituire un utente umano che ragiona. È per quella fascia di lavoro dove la logica è banale ma l’interfaccia è un labirinto.
I limiti, detti senza sconti
Anthropic è stata insolitamente onesta nell’annuncio. Computer Use è lento: ogni step richiede uno screenshot, un’inferenza, una risposta. Su un task di dieci click possono passare trenta secondi o più. Un umano lo farebbe in cinque secondi.
Sbaglia spesso. Clicca sul pulsante sbagliato, interpreta male un’icona, scroll troppo lungo, perde il focus di una finestra. Sul benchmark OSWorld, creato per misurare proprio questo tipo di task, Claude 3.5 Sonnet con Computer Use arrivava al 14,9%. Gli umani stanno sopra il 70%. È un inizio, non un sostituto.
Poi c’è il problema serio: la sicurezza. Se Claude naviga su un sito e dentro una pagina ci sono istruzioni ostili — una forma di prompt injection via UI — il modello potrebbe seguirle. Un banner che dice “scarica questo file” può essere interpretato come istruzione legittima. Anthropic raccomanda di dare a Claude account dedicati, ambienti sandbox, zero accesso a dati sensibili. Buon consiglio, raramente seguito fino in fondo.
Il contesto: perché è un passo che conta
Fino a ottobre 2024 gli “agent” di AI erano in gran parte demo curate. Catene di prompt che orchestrano tool specifici, API ben definite, ambienti chiusi. Computer Use rompe questo schema perché porta l’agent sul terreno dell’interfaccia utente generica: qualsiasi software con pulsanti e menu diventa potenzialmente automatizzabile, senza integrazioni dedicate.
Questo è il pezzo mancante degli agent autonomi. Un modello che sa solo chiamare API è limitato ai servizi che hanno un’API. Un modello che sa usare uno schermo, in teoria, può fare tutto quello che fa un essere umano davanti a un PC. Il salto concettuale è grosso. La resa pratica, per ora, molto meno.
Confronto con ChatGPT: Operator e Agent
OpenAI arriverà sullo stesso terreno qualche mese dopo. A gennaio 2025 lancia Operator, un agent che gira su un browser remoto e fa lo stesso tipo di task: prenotazioni, acquisti, compilazione form. A luglio 2025 consolida tutto in ChatGPT Agent, che unifica le capacità di navigazione, ricerca profonda e uso di computer in un unico prodotto. Il dettaglio è che OpenAI ha seguito Anthropic su questa strada, non l’ha anticipata.
Le differenze d’impostazione: Anthropic ha rilasciato Computer Use come capacità API esposta a sviluppatori, con esempi in Docker, chiedendo di fatto alla community di costruirci sopra. OpenAI ha preferito un prodotto di consumo più chiuso, con browser cloud proprietari. Due filosofie diverse. Per chi costruisce agent, la prima è più interessante: serve un modello che puoi integrare dove vuoi, non un’app che ti forza dentro un flusso prestabilito.
Che cosa vale la pena provare
Chi vuole mettere le mani su Computer Use oggi ha due strade. La prima è il repo di riferimento Anthropic (anthropic-quickstarts/computer-use-demo): container Docker pronto, interfaccia Streamlit, si parte in dieci minuti. La seconda è integrarlo direttamente nel proprio stack via SDK Python o TypeScript, definendo i tool computer, bash e text_editor.
Chi già lavora con Claude via Artifacts o via API per generazione di codice troverà Computer Use un’altra superficie dello stesso modello. Non è magia nuova, è Claude che invece di produrre testo produce azioni. La qualità del ragionamento resta la stessa. Cambia solo il formato dell’output.
Dove siamo davvero
Computer Use è un prototipo pubblico di quello che saranno gli agent seri tra uno, due, tre anni. Oggi è lento e sbaglia. Tra due anni, probabilmente, sarà veloce e affidabile quanto basta per automatizzare pezzi reali di lavoro da scrivania. La domanda interessante non è se ci arriveremo — quella risposta sembra chiara — ma come cambierà il modo di progettare software quando gli utenti sono metà umani metà agent.
Chi progetta UI oggi, le sta già progettando anche per modelli che guardano screenshot?

Blogger dal 2001, Nativo Digitale, Developer.
Da 15 anni mi occupo di IT per una grande Azienda.
Lavoro per abbattere il Digital Divide.
Visita i miei altri progetti
sardiniamobility.com
www.cyberness.it