Come eseguire Gemini Nano localmente, senza installare niente


Chrome ha portato l’intelligenza artificiale dentro il browser senza bisogno di chiavi API. Da Chrome 148 il Prompt API basato su Gemini Nano è diventato funzione stabile, accessibile da qualunque sito web per eseguire inferenza locale sul dispositivo dell’utente. Il pacchetto completo include quattro API stabili (Prompt, Summarizer, Translator, Language Detector) e tre in origin trial (Writer, Rewriter, Proofreader), tutte annunciate al Google I/O 2026 e oggi pronte per la produzione su un numero crescente di siti. Il modello pesa tra 2,7 e 4 GB sul dispositivo e richiede 22 GB liberi e 16 GB di RAM o GPU con 4 GB VRAM.

Spostare l’inferenza sul client significa azzerare il costo per token, togliere dal flusso dati il rischio privacy e abilitare scenari offline che con l’API cloud non sarebbero pensabili. È un’opzione che cambia l’aritmetica economica di molte applicazioni web, soprattutto quelle ad alto volume di richieste piccole, e ridefinisce il calcolo make-or-buy per chi gestisce SaaS, CMS o piattaforme di customer support. Il pattern si aggancia alla tesi che l’inferenza costa più del training e che il margine si trova migrando carichi sul margine della rete.




Cosa significa “AI nel browser” in concreto

Il modello viene scaricato la prima volta che un’app lo richiede, e da quel momento resta disponibile per tutti i siti che usano le stesse API. La verifica di disponibilità è obbligatoria: si controlla prima se l’oggetto `Summarizer`, `LanguageModel`, `Translator` o `Writer` esiste nel browser, poi se l’hardware del dispositivo supporta il modello, infine si crea la sessione. Su dispositivi non idonei il fallback può essere gestito con Firebase AI Logic o con la Prompt API polyfill che chiama il cloud quando il locale non basta, offrendo un’esperienza ibrida.

Il vantaggio operativo si misura su quattro assi. Costo: nessun billing per token, la computazione avviene su hardware del cliente. Privacy: contenuti sensibili, bozze, messaggi, note personali non escono dal browser. Offline: dopo il download iniziale del modello, le funzioni AI restano attive anche senza connessione. Latenza: l’accelerazione hardware sui dispositivi moderni avvicina i tempi del modello locale a quelli cloud per molti task.

Il modello è Gemini Nano per Prompt, Summarizer, Writer, Rewriter e Proofreader, mentre Translator e Language Detector usano modelli più piccoli e specializzati. Una novità del Google I/O 2026 è Gemma 197M, un modello compatto da 197 milioni di parametri che può alimentare in modo trasparente API come Summarizer su una fascia molto più ampia di dispositivi, anche meno potenti.

Zero chiavi API, zero billing per token, zero dati al server: l’aritmetica dell’AI cambia.

Le API stabili: cosa si può fare oggi

Il Summarizer API, stabile da Chrome 138, distilla contenuti lunghi in titoli, TLDR, key-point e teaser. Drupal lo usa per generare automaticamente tag SEO dentro CKEditor. Il parametro type fa la differenza: un summary headline mira a 12-22 parole, key-points produce 3-7 bullet, tldr restituisce 1-5 frasi. Lo streaming progressivo è disponibile per output lunghi, evitando di far aspettare l’utente fino alla fine.

Il Prompt API con structured output, disponibile da Chrome 137 e stabilizzato in Chrome 148, è probabilmente la funzione più interessante per i prodotti business. Si passa uno schema JSON come `responseConstraint` e il modello è vincolato a restituire JSON valido conforme allo schema. Per moderazione di commenti utente, classificazione di contenuti, tagging automatico è una soluzione client-side completa. Yahoo! Japan lo usa in produzione per la moderazione dei commenti, evitando di mandare al cloud ogni stringa scritta dagli utenti.

Il Translator API, stabile da Chrome 138, usa codici BCP 47 e supporta oltre quaranta lingue. Trip.com lo impiega per i flussi di prenotazione internazionali, dove l’utente scrive nella propria lingua e i contenuti vengono tradotti prima di lasciare il dispositivo. Le coppie linguistiche richiedono pacchetti separati, scaricati on-demand alla prima richiesta. Il Language Detector identifica la lingua del testo senza intervento esplicito dell’utente.

Le API in origin trial: Writer e Rewriter

Sul fronte editoriale ci sono Writer API e Rewriter API, attualmente in origin trial fino a Chrome 148. Writer genera testo da una descrizione di task, con parametri di tono (formal, neutral, casual), formato e lunghezza. È pensato per essere usato come inline assistant dentro editor web. Rewriter prende testo esistente e lo trasforma: più formale, più breve, più casual. Le due API insieme producono un loop editoriale completo (draft, refine, tone-adjust) che gira interamente sul client.

Per uno sviluppatore TypeScript, il pacchetto @types/dom-chromium-ai su npm fornisce le definizioni complete delle API. Per testare in locale prima del rilascio, due flag di Chrome (`chrome://flags/#optimization-guide-on-device-model` e `chrome://flags/#writer-api-for-gemini-nano`) abilitano l’accesso. La pagina `chrome://on-device-internals` mostra lo stato del modello, la dimensione corrente e il progresso del download. La starter template di Google Chrome è disponibile su GitHub con tutte le API pre-cablate.

Una pipeline editoriale completa che gira nel browser, senza inviare un solo byte al server.

Limiti e fall-through da pianificare

Il modello richiede hardware non banale: 22 GB di spazio libero, 16 GB di RAM o GPU con 4 GB di VRAM. Su dispositivi mobile e su macchine più vecchie le API Prompt, Summarizer, Writer, Rewriter e Proofreader non funzionano del tutto. Le Language Detector e Translator girano sul desktop ma non sul mobile. Per chi rilascia prodotti consumer è essenziale prevedere un fall-through: rilevare l’idoneità del dispositivo, e dirottare le richieste a un endpoint cloud quando il locale non basta.

Il pattern di ibridazione è la pratica consigliata dal team Chrome stesso. Firebase AI Logic offre l’orchestrazione: si dichiara una preferenza (preferire il locale, ricadere sul cloud), si configura la chiave del modello cloud di backup, e l’API gestisce la decisione caso per caso. Per applicazioni enterprise con SLA precisi, è l’approccio più sano: il locale risparmia costi e protegge la privacy, il cloud copre i casi di hardware insufficiente o di task troppo complessi per Gemini Nano.

C’è poi un punto di policy che merita attenzione. Chrome scarica il modello in modo automatico su dispositivi idonei, e questa scelta ha sollevato critiche sotto il profilo del consenso, soprattutto in Europa dove ePrivacy e GDPR pongono regole sulle telemetrie e sull’installazione di componenti senza interazione attiva dell’utente. Per le aziende che valutano l’adozione, conviene leggere bene i termini di servizio del browser e tenere conto della percezione del cliente finale, soprattutto quando il prodotto è destinato a contesti regolati.

Lettura: dove va il modello “browser come runtime”

L’AI on-device sta diventando un layer di sistema, non più una funzionalità di app singole. Chrome è la prima piattaforma che porta un LLM come API JavaScript stabile, ma Safari e Firefox sono attesi su strade simili, e Microsoft sta lavorando per portare Phi Silica come runtime di Windows. Il pattern è chiaro: i sistemi operativi e i browser diventano runtime AI, e gli sviluppatori smettono di portare modelli dentro le app per usare invece quelli messi a disposizione dalla piattaforma.

Il costo per token come business model della prima fase dell’AI generativa sta entrando in tensione. OpenAI, Anthropic, Google Cloud fatturano per inferenza, e ogni grammo di lavoro che si sposta sul client è ricavo che svanisce. La risposta dei vendor non sarà necessariamente difensiva: Google stessa, che vende Gemini API a pagamento, sta abilitando l’inferenza gratuita dentro Chrome. Il calcolo è che il valore strategico di avere il modello su miliardi di dispositivi vale più del fatturato a token sui task semplici. Per chi acquista AI, il messaggio è che molti task possono migrare al locale senza perdere qualità, e il check sul costo cloud va fatto ogni trimestre.

La privacy come argomento commerciale sta diventando concreta. Per anni le aziende hanno detto che l’AI nel cloud andava bene perché i dati erano protetti contrattualmente, ma il pattern emergente delle dispute regolatorie e dei contenziosi con i regolatori europei sta riportando il dato sul dispositivo come prima difesa. Chrome built-in AI è un’arma in più per gli sviluppatori che vendono in Europa, dove il cliente B2B chiede sempre più spesso di sapere dove vivono i dati e quali processi li toccano. La regola operativa che emerge è considerare il locale come default e il cloud come fall-through, quando il prodotto lo permette. È l’inverso del ragionamento che si faceva fino a tre anni fa, ed è la conferma che il pendolo dell’AI sta tornando dove era partito.


#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
 Sara Romano

Source link

Di