BOLLETTINO OPERATIVO · GIO 18 GIU 2026 · 00:15 CET EN / IT / RSS / NEWSLETTER

Cisco Model Provenance Kit: il DNA test dei modelli AI che scarichi

Cisco rilascia open su GitHub un kit per verificare se due modelli AI condividono un'origine di training. Strumento pratico per chi integra modelli da Hugging Face senza visibilità sulla loro storia.

Il 30 aprile 2026 Cisco ha rilasciato il Model Provenance Kit, descritto dall’azienda come un «DNA test for AI models». Il kit è pubblicato open su GitHub e accompagnato da un dataset di fingerprint su Hugging Face. La domanda concreta che risolve: quando scarico un modello da una piattaforma pubblica, come verifico che provenga effettivamente da chi dichiara di averlo addestrato?

Il problema reale

Su Hugging Face circolano oggi decine di migliaia di modelli pubblicati da chiunque voglia condividere il proprio lavoro. Lo schema è ottimo per la ricerca aperta. È meno comodo per chi sta integrando un modello dentro un prodotto: lo sviluppatore non ha modo di sapere se il modello che sta scaricando è davvero stato addestrato da zero o se è una variante minore di un altro modello, magari con una licenza diversa o con dati di training contaminati.

Tre rischi concreti che il kit Cisco prova a indirizzare:

  • licenza errata: usare un modello che eredita una licenza incompatibile con la propria distribuzione;
  • data poisoning: integrare un modello che durante un fine-tuning ha imparato comportamenti malevoli, senza che la modifica sia visibile dai metadati;
  • supply chain risk: includere nel proprio prodotto una dipendenza la cui catena di derivazione è opaca.

Come funziona il kit

Cisco costruisce un fingerprint di ogni modello sulla base di tre componenti:

  • i metadati di architettura (numero layer, tipo attention, dimensioni embedding);
  • la struttura del tokenizer (vocabolario, regole di splitting);
  • i pesi appresi (analizzati con tecniche di campionamento statistico per identificare pattern caratteristici).

A partire dal fingerprint, il kit calcola un provenance score che indica la similarità tra due modelli, in due modalità d’uso:

  • Compare mode: dato un modello A e un modello B, restituisce uno score di similarità di lineage;
  • Scan mode: dato un modello, lo confronta contro un database di fingerprint noti, restituendo i candidati di parentela più probabili.

L’accuratezza dichiarata

Cisco ha validato il kit su un benchmark di 111 coppie di modelli, classificando 4 errori di classificazione (96,4% accuratezza). I quattro casi di errore riguardavano extreme architectural transformations: modelli derivati da un base con modifiche pesanti all’architettura, casi in cui anche un’analisi manuale sarebbe difficile.

Cosa cambia operativamente

Per chi sviluppa applicazioni che integrano un modello da una piattaforma pubblica, il kit aggiunge un passo che oggi viene saltato: verificare la provenance prima di mettere il modello in pipeline. Il flusso suggerito:

  1. scaricato il modello, calcolare il fingerprint con il kit;
  2. fare scan contro il database pubblico per identificare il lineage di origine;
  3. se il lineage non corrisponde a quanto dichiarato dall’autore, sollevare il flag e investigare prima di integrare.

Per i progetti regolati — AI Act, NIS 2, vincoli settoriali in finanza e sanità — la tracciabilità della provenance del modello è uno dei punti che il regolatore sta iniziando a richiedere come evidenza documentale. Strumenti open come questo riducono il costo di costruire quella evidenza.

Riferimenti

Repository GitHub Cisco AI: github.com/cisco-ai/model-provenance-kit. Dataset fingerprint Hugging Face: huggingface.co/datasets/cisco-ai/model-provenance-kit.