Se i modelli piccoli bastano, perché buttiamo soldi con gli LLM?

Quattro modelli sotto il dollaro per milione di token coprono oggi la maggior parte dei workload aziendali, e la fattura cloud delle imprese che lo hanno capito è scesa del 60-80% in sei mesi. DeepSeek V4 Flash gira a 0,14 dollari per milione di token in input, Gemini 3 Flash si ferma a 0,50 con un punteggio del 78% su SWE-bench Verified, Claude Haiku 4.5 sta a 1,00 dollari, GPT-5.4 mini a 0,75. Sopra di loro, i frontier model continuano a costare da 4 a 14 volte tanto: Gemini 3.1 Pro a 2,00 dollari in input e 12,00 in output, Opus e GPT-5.5 su fasce ancora superiori. La domanda che il procurement IT comincia a porsi senza giri di parole: perché stiamo pagando il modello da Formula 1 per rispondere a ticket di primo livello e classificare email.

Il dato che inquadra la dimensione del problema arriva dal MIT: il 95% dei pilot enterprise di intelligenza artificiale non produce ROI misurabile. Una parte significativa di quei pilot brucia budget perché instrada qualsiasi chiamata verso il modello più costoso disponibile, indipendentemente dalla complessità del task. È il caso documentato di Uber, che brucia il budget annuale per l’AI in quattro mesi proprio per assenza di routing intelligente. La discontinuità del 2026 è che i piccoli modelli hanno raggiunto la soglia di utilità per la maggioranza degli use case aziendali, e ignorarlo significa firmare ogni mese assegni che non si dovrebbero firmare.

Il frontier model resta, ma serve solo dove l’errore costa davvero molto.

Dove il piccolo basta: i workload che migrano verso Flash, Haiku e mini

La mappatura dei workload è il primo passaggio che il procurement IT deve imporre prima di rinnovare qualsiasi contratto cloud. Classificazione documentale, routing ticket, generazione bozze email, riassunti di chiamate, traduzioni interne, estrazione dati strutturati da PDF, primo livello di assistenza clienti: tutti task in cui Haiku, Flash e mini producono output qualitativamente indistinguibili da quelli di Opus o Gemini 3.1 Pro. Le valutazioni interne di numerose aziende che hanno fatto A/B testing serio raccontano la stessa storia: differenze di accuratezza nell’ordine di 1-2 punti percentuali, a fronte di costi 10-20 volte inferiori.

Il calcolo del TCO cambia segno quando si misurano i volumi reali. Un’azienda che processa 10 milioni di token al giorno per classificazione e routing spende con un frontier model circa 18.000 dollari al mese, con un modello piccolo della stessa famiglia tra 1.500 e 4.500 dollari. La differenza si conta in fatture annuali a sei cifre, e nessun CFO accetta più la giustificazione “abbiamo scelto il modello migliore” senza vedere il benchmark sul workload specifico. Gemini 3 Flash con 78% su SWE-bench Verified scrive codice di produzione decentemente: non sostituisce Opus su refactoring di sistemi complessi, ma per pull request di entità contenuta e generazione di test basta e avanza.

I task dove il piccolo non basta esistono ancora, e vanno isolati con chirurgia: ragionamento multi-step su documenti complessi, debugging di codice legacy non documentato, sintesi giuridica con responsabilità contrattuale, decisioni cliniche assistite. Lì il frontier model paga il proprio prezzo. Sul resto, ogni chiamata che continua a passare per Opus o GPT-5.5 è un piccolo errore di procurement che si moltiplica per la frequenza d’uso.

Il routing diventa la vera infrastruttura: orchestrazione multi-modello

Lo stack enterprise del 2026 non sceglie un vendor, instrada le richieste. OpenRouter ha raccolto una serie B da 40 milioni di dollari proprio perché monetizza lo switching tra modelli come servizio infrastrutturale, e la sua crescita racconta meglio di qualsiasi report McKinsey lo stato del mercato. Le imprese che stanno chiudendo l’anno fiscale con margini ragionevoli sull’AI hanno tutte un layer di orchestrazione che valuta complessità del prompt, criticità del task e budget residuo prima di assegnare la chiamata al modello giusto. Il routing non è più ottimizzazione marginale, è la differenza tra un pilot che diventa produzione e uno che chiude per costi.

Nelle architetture di routing che funzionano un classificatore leggero in ingresso valuta il prompt e gli assegna una classe di complessità, un secondo livello consulta il budget mensile residuo per cluster e il livello di criticità dichiarato dall’applicazione, il terzo invia la chiamata al modello selezionato e logga il risultato per il monitoring continuo. FinOps applicato all’AI non è più una buzzword, è la disciplina che separa le aziende che capitalizzano l’intelligenza artificiale da quelle che la subiscono in bolletta.

Il punto delicato è la migrazione. Riscrivere il prompt engineering per ogni modello target costa tempo e risorse, e le aziende che hanno costruito tutto sulle peculiarità di un singolo vendor scoprono in corsa quanto fosse cara quella scelta. Le librerie di astrazione come LiteLLM e gli adapter standardizzati riducono il lock-in, ma il vero lavoro è interno: documentare ogni catena di prompt, testare l’output su almeno tre modelli alternativi, mantenere una matrice di compatibilità. È lavoro noioso che il marketing dei vendor non racconta mai, ed è esattamente il motivo per cui i CIO che lo fanno tagliano la fattura cloud mentre gli altri la vedono crescere.

Il vero stack enterprise 2026 è multi-modello, non monogamico verso un vendor.

L’open source entra dal portone di servizio: Mistral, DeepSeek, Llama nell’enterprise stack

Il momento in cui un CIO smette di fare battute sull’open source coincide con la prima fattura mensile a sei zeri di un hyperscaler. Mistral Small 4 con architettura mixture-of-experts gira su due GPU H100 e produce risultati paragonabili a GPT-5.4 mini su classificazione, estrazione strutturata e generazione di codice di routine. DeepSeek V4 Flash a 0,14 dollari per milione di token in input ha ridisegnato la curva prezzo-prestazioni della categoria, e Llama 4 in versione 70B copre la fascia intermedia per chi vuole controllare l’inferenza in casa senza investire in un cluster da migliaia di GPU.

DeepSeek a 0,14 dollari ridisegna la curva prezzo-prestazioni dell’intera categoria.

Le obiezioni standard contro l’open source enterprise stanno crollando una a una. La compliance GDPR si gestisce meglio con inferenza on-premise che con chiamate API verso datacenter americani, il vendor lock-in non esiste per definizione, e il TCO su volumi elevati pende decisamente verso il self-hosting una volta superato il punto di pareggio. Il calcolo non torna per ogni azienda: chi processa volumi modesti continua a stare meglio con le API gestite. Ma il punto di pareggio si è abbassato in modo significativo nel 2026, e possedere i pesi di un modello ha smesso di essere una scelta romantica.

Il portone di servizio attraverso cui l’open source entra in azienda si chiama spesso “POC tecnico” o “ambiente di test”, e in sei mesi diventa lo stack di produzione per i workload ad alto volume. Mistral, DeepSeek e Llama non sostituiscono OpenAI e Anthropic ovunque: si prendono la fetta di chiamate ripetitive, prevedibili, su cui la differenza qualitativa con il frontier è impercettibile e la differenza di costo enorme. Il resto continua a passare dalle API premium, perché è giusto che sia così.

Cosa cambia per chi paga la fattura cloud

La fase in cui l’AI veniva consumata con la stessa disciplina con cui si beve acqua pubblica è finita. Vedono il conto e frenano, racconta il pattern di centinaia di imprese che a metà 2026 hanno scoperto fatture cloud cresciute del 300-500% anno su anno senza una corrispondente crescita del fatturato attribuibile all’intelligenza artificiale. La reazione iniziale è quasi sempre il blocco totale o il taglio orizzontale dei budget, due risposte che gettano via il valore prodotto insieme allo spreco. La risposta seria è il workload mapping seguito dalla migrazione selettiva verso modelli più piccoli.

Il procurement IT che funziona nel 2026 negozia contratti multi-vendor con tetti di spesa per categoria di modello, anziché per singolo provider, e impone metriche di costo per output utile: quanto costa una pratica processata, una chiamata gestita, una email classificata correttamente. Pretende dashboard di monitoring in tempo reale con alert sui pattern di consumo anomali, perché un loop infinito su Opus brucia in mezza giornata il budget mensile e nessuno se ne accorge fino al consuntivo.

La direzione del mercato è chiara per chi ha voglia di leggerla. Gli hyperscaler hanno smesso di battersi sui benchmark e hanno iniziato a battersi sul rapporto prezzo-prestazioni dei modelli piccoli, perché lì si gioca il volume e il volume è il fatturato. Google punta su Flash come piattaforma per gli agenti, Anthropic spinge Haiku come default ragionevole, OpenAI ha smesso di vergognarsi della famiglia mini e la promuove apertamente. Il frontier model resta come prodotto-bandiera: serve a vincere demo, conquistare titoli sui giornali, giustificare investimenti miliardari. Ma il pane quotidiano arriva dalla fascia sotto al dollaro.

La risposta alla domanda del titolo arriva senza giri di parole: nella maggior parte dei casi paghiamo il frontier model per dimostrare al CFO che ce l’abbiamo, non perché serva davvero al task che stiamo eseguendo. È una forma di status symbol travestita da scelta tecnica, e come ogni status symbol costa molto più di quello che vale. Chi nel 2026 non ha messo in produzione un’orchestrazione multi-modello sta lasciando soldi sul tavolo a ogni chiamata API, e prima o poi qualcuno in azienda chiederà perché. La risposta “abbiamo scelto il migliore” smetterà di funzionare il giorno in cui un competitor mostrerà di produrre gli stessi output a un decimo del costo. Quel giorno è già arrivato per qualcuno, e arriverà presto per tutti gli altri.

#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
Marco Ferretti

Source link

Di

Dove il piccolo basta: i workload che migrano verso Flash, Haiku e mini

Il routing diventa la vera infrastruttura: orchestrazione multi-modello

L’open source entra dal portone di servizio: Mistral, DeepSeek, Llama nell’enterprise stack

Cosa cambia per chi paga la fattura cloud

Di

Articoli correlati

La nuova ricetta UE per dare connettività, energia e sicurezza a isole aree costiere

Cuveglio, non si ferma all’alt: denunciato | La Prealpina

Legge 771/86 applicata? I Sassi non si possiedono, si abitano!

You missed

La nuova ricetta UE per dare connettività, energia e sicurezza a isole aree costiere

Cuveglio, non si ferma all’alt: denunciato | La Prealpina

Legge 771/86 applicata? I Sassi non si possiedono, si abitano!

Ecco i Futuristi del Verbano | La Prealpina

#Adessonews - #Finsubito - Adessonews - Finsubito