AI potente e gratis sul tuo computer: Mistral e Ollama per le PMI


Paghi un abbonamento AI per ogni persona del team. Tre venditori, due del marketing, il responsabile amministrativo: ogni licenza pesa sul bilancio mensile, e ogni richiesta che mandi al modello passa per i server di un fornitore statunitense. Il preventivo del cliente, il contratto in revisione, il foglio con i margini: tutto esce dall’azienda e finisce su un’infrastruttura che non controlli. Per molte attività questo è accettabile. Per altre, soprattutto quando i dati sono sensibili, è un rischio che puoi chiudere.

La soluzione esiste, costa zero in licenze ed è già abbastanza buona per la maggior parte del lavoro quotidiano. Si tratta di far girare un modello a pesi aperti direttamente sul computer, senza connessione a un servizio esterno. Il dato non si muove, l’abbonamento sparisce, e il modello resta disponibile anche quando la rete cade. Lo strumento che rende tutto questo semplice si chiama Ollama, e il modello che ti consiglio per il mercato europeo è Mistral, francese.

Vediamo come metterlo in piedi in mezz’ora, partendo da zero. Ti mostro l’installazione, lo scaricamento del modello, il collegamento a un’interfaccia comoda e un caso reale: interrogare l’archivio documenti dell’azienda senza che nulla finisca nel cloud. Una precisione che va fissata subito: sono i modelli a pesi aperti di Mistral a girare gratis sul tuo PC, non Le Chat né i modelli di punta erogati via API, che restano sui server del fornitore. Tenere distinte le due cose evita aspettative sbagliate.

Vuoi portare l’AI dentro la tua azienda?

Scopri i nostri percorsi di formazione per PMI.

Chiedi informazioni

Il modello gira sul tuo disco, i dati non escono dall’ufficio.

Cosa ti serve davvero per partire

La barriera tecnica è più bassa di quanto pensi. Non serve una workstation da migliaia di euro, basta un portatile aziendale con abbastanza memoria. La regola pratica è semplice: il modello sta tutto in RAM mentre lavora, quindi la RAM è la risorsa che conta.

Un modello come Mistral 7B, quantizzato, gira in circa 8 GB di RAM ed è già utile per riassunti, bozze di email, riformulazioni e classificazione di testo. Salendo di qualità, Mistral Small 3.1 richiede circa 14-15 GB di RAM: è un modello da 24 miliardi di parametri con licenza Apache 2.0, capacità multimodale, finestra di contesto da 128.000 token e una qualità che si avvicina a quella dei modelli grandi. Sta dentro un MacBook da 32 GB o un PC con una scheda video da 16 GB.

La GPU non è obbligatoria. Ollama usa la scheda grafica se la trova, sfruttando CUDA su Nvidia, Metal su Apple Silicon, Vulkan su AMD e Intel, e altrimenti ripiega sulla CPU. Senza GPU il modello risponde più lentamente, ma risponde. Su un portatile recente con processore decente l’esperienza resta accettabile per il lavoro quotidiano.

La RAM decide cosa puoi far girare. La GPU decide quanto è veloce.

Il setup in quattro passi

Passo 1. Installa Ollama

Ollama è il motore che scarica i modelli, li tiene aggiornati e li espone come servizio locale. Su macOS e Windows si scarica l’app dal sito ufficiale e si installa con un doppio clic. Su Linux basta un comando:

curl -fsSL https://ollama.com/install.sh | sh

Finita l’installazione, Ollama gira in background e ascolta sulla porta locale 11434. Da qui in avanti tutto avviene sulla tua macchina, senza account e senza chiavi API.

Passo 2. Scarica un modello Mistral aperto

Il comando pull scarica i pesi del modello una volta sola. Per partire leggeri con Mistral 7B:

ollama pull mistral

Se la macchina ha memoria a sufficienza e vuoi la qualità migliore, scarica Mistral Small 3.1:

ollama pull mistral-small3.1

Il download pesa qualche gigabyte e va fatto una volta. Da quel momento il modello vive sul disco ed è disponibile anche offline. Chi lavora su codice può aggiungere Codestral o Devstral, entrambi pensati per la programmazione, mentre Mistral Nemo resta una buona scelta generalista per chat e testo.

Passo 3. Fai partire il modello

Per parlare subito con il modello dal terminale:

ollama run mistral-small3.1

Si apre un prompt interattivo: scrivi una domanda, ricevi la risposta, esci con /bye. È il modo più rapido per verificare che tutto funzioni prima di collegarci un’interfaccia. Prova a chiedergli di riassumere un testo che incolli: capisci in pochi secondi se la velocità sulla tua macchina è adeguata.

Stesso protocollo dei servizi cloud, ma l’indirizzo punta al tuo computer.

Passo 4. Collega un’interfaccia comoda

Il terminale va bene per i test, non per il lavoro di un team. Qui entra Open WebUI, un’interfaccia in stile ChatGPT che gira anch’essa in locale e si collega a Ollama. Si installa via Docker con un comando e si apre nel browser. Il collegamento funziona perché Ollama espone un endpoint compatibile con OpenAI, raggiungibile su http://localhost:11434/v1: qualunque strumento che parla il protocollo OpenAI può puntare lì invece che ai server del fornitore, cambiando solo l’indirizzo.

Setup in tre passi

Da zero a un modello che gira sul tuo PC in pochi minuti.

  1. Installa Ollama: Un comando
    Funziona su Windows, Mac e Linux, sfrutta la GPU se c’e’ ma gira anche senza.
  2. Scarica il modello: ollama pull mistral
    Mistral 7B per partire leggeri (~8 GB RAM), Mistral Small 3.1 per piu’ qualita’ (~14 GB).
  3. Interroga i documenti: In locale
    Colleghi una UI all’endpoint locale e fai domande ai tuoi file, senza che un dato esca.

Esempio d’uso: interrogare i documenti aziendali

Il setup base è comodo, ma il salto di valore arriva quando colleghi i tuoi documenti interni. Open WebUI integra una funzione di retrieval, il meccanismo che permette al modello di cercare dentro i tuoi file e rispondere usando quel contenuto invece della sola conoscenza generale. È la stessa logica della RAG applicata a un archivio che resta sul disco.

Il flusso pratico è questo: carichi i documenti nella sezione Workspace dell’interfaccia, l’applicazione li trasforma in indice di ricerca, e da quel momento li richiami nella chat con il simbolo # prima della domanda. Chiedi “riassumi le clausole di pagamento di questo contratto” o “quali fornitori hanno consegnato in ritardo nel trimestre” e il modello risponde leggendo i tuoi file, non il web.

La differenza rispetto a un servizio cloud è netta sul piano della riservatezza. Il listino, il contratto, l’anagrafica clienti: nessuno di questi file lascia la macchina, perché embedding, ricerca e generazione avvengono tutti in locale. Per un’azienda che tratta dati commerciali sensibili o informazioni coperte da accordi di riservatezza, è la differenza tra poter usare l’AI su quei dati e doverla tenere fuori. Un consiglio pratico: nelle impostazioni del modello in Open WebUI conviene alzare la finestra di contesto oltre gli 8.000 token, altrimenti su documenti lunghi il retrieval perde pezzi.

Resta sul tavolo la questione di chi sceglie comunque un servizio cloud. Per capire come orientarsi tra i grandi modelli a pagamento abbiamo già pubblicato una guida alla scelta del modello AI per le PMI, utile quando il locale non basta. E chi vuole tagliare i costi restando sul cloud può valutare un router come OpenRouter per pagare a consumo invece di un abbonamento fisso.

I dati restano dove sono nati: dentro l’azienda.

Quando conviene il locale e quando no

L’esecuzione di AI locale non è la risposta a tutto, e raccontarlo come tale sarebbe disonesto. Conviene in modo netto su tre fronti:

  1. la privacy, quando i dati non devono uscire
  2. il costo, perché elimina le licenze a utente per il lavoro ripetitivo
  3. la disponibilità offline, quando lavori senza rete o vuoi indipendenza da un fornitore.

Per riassunti, bozze, riformulazioni, classificazione, traduzioni interne e interrogazione di documenti, un modello locale come Mistral Small 3.1 fa il lavoro senza che tu debba pensarci.

Sui compiti più difficili il quadro cambia. I modelli di punta erogati via cloud restano superiori sul ragionamento complesso, sui flussi agentici lunghi e sui task dove la qualità della risposta fa una differenza concreta. Parliamo dei modelli grandi come Opus 4.6 e Sonnet 4.6 di Anthropic, o dei modelli di punta di Mistral via API, che non girano sul tuo PC. Un modello da 24 miliardi di parametri sul portatile è bravo, ma su un’analisi articolata o su un agente che orchestra più strumenti il divario con i modelli grandi si sente ancora.

La lettura corretta è quella ibrida. Tieni il locale per il volume di lavoro quotidiano e per tutto ciò che è sensibile, e manda al cloud solo i compiti più impegnativi, dove la qualità superiore ripaga il costo e l’uscita del dato è accettabile. Così azzeri la spesa sulla maggior parte delle richieste e paghi solo le poche che lo meritano davvero.

Locale per il lavoro di tutti i giorni, cloud per i casi difficili.

Locale o cloud

Due strumenti diversi: scegli in base al compito e ai dati.

  • PC · Tieni in locale: Privacy e costo zero
    Dati riservati che non devono uscire, task di routine, lavoro offline, volumi alti senza fattura a token. (Gratis e sovrano)
  • API · Vai sul cloud: Massima capacita’
    Ragionamento difficile e agenti complessi, quando serve il modello di frontiera e non hai l’hardware. (Potenza al bisogno)

Per il mercato italiano

Sul piano della sovranità del dato il locale è la posizione più solida possibile. Niente lascia il computer, quindi non esiste trasferimento verso server esteri, non c’è un terzo che processa i dati e l’adempimento GDPR si semplifica perché il trattamento avviene interamente sulla tua macchina. Per chi gestisce dati di clienti, anagrafiche, informazioni sanitarie o documenti coperti da segreto, è il punto di partenza più difendibile davanti a un’autorità di controllo.

La scelta di Mistral aggiunge un secondo livello di garanzia. Mistral è francese, quindi europea, e i suoi modelli a pesi aperti con licenza Apache 2.0 si usano e si modificano senza vincoli commerciali. Quando un compito supera le capacità del modello locale e devi passare al cloud, la rotta sovrana resta a portata: invece di un’API statunitense puoi indirizzare i job più pesanti verso l’API di Mistral, restando dentro il perimetro europeo. È lo stesso ragionamento che applichiamo quando colleghiamo gli strumenti AI ai sistemi aziendali, come nella guida agli MCP per le PMI.

Per il setup vero e proprio l’ordine di grandezza è alla portata di qualsiasi attività. Un portatile con 16-32 GB di RAM, mezza giornata di un tecnico per installare Ollama e Open WebUI, e un breve percorso di formazione interna perché il team impari a usare il # sui documenti e a riconoscere quando un compito va spostato sul cloud. Chi parte da un’esperienza con assistenti più strutturati trova un riferimento nella guida pratica all’uso di Claude in una piccola azienda.

Mistral europea in locale, e per i job pesanti la rotta sovrana resta aperta.

Vuoi portare l’AI dentro la tua azienda?

Scopri i nostri percorsi di formazione per PMI.

Chiedi informazioni

Da dove iniziare lunedì mattina

Il primo passo concreto è un test su una sola macchina. Prendi il computer con più RAM in azienda, installa Ollama, scarica Mistral Small 3.1 e collega Open WebUI: in mezza giornata hai un assistente che gira in casa e non manda fuori un solo byte. Carica due o tre documenti reali, prova qualche domanda con il # e misura se la qualità e la velocità reggono il tuo flusso di lavoro.

Da lì decidi la divisione del carico. Sposta sul locale tutto ciò che è ripetitivo e sensibile, riassunti, bozze, interrogazione dell’archivio, e tieni un accesso cloud per i pochi compiti che chiedono il massimo della qualità. Misura quante richieste finiscono davvero sul cloud dopo un mese: nella maggior parte delle attività sono una minoranza, e il conto degli abbonamenti si svuota mentre i dati restano dove devono stare.

Accedi ai contenuti BUSINESS esclusivi sull’AI

Il nuovo magazine premium di Tom’s Hardware dedicato all’intelligenza artificiale.
Ogni giorno guide pratiche, analisi e strumenti per aiutarti a usare davvero l’AI
nel lavoro e nella vita di tutti i giorni. Iscriviti per continuare a leggere: è gratis.




Oppure




#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
 Valerio Porcu

Source link

Di