L’efficienza dei modelli di intelligenza artificiale sta diventando la metrica che conta davvero, e la corsa al trilione di parametri inizia a perdere sostenitori tra chi firma gli assegni. Un’analisi pubblicata da Fortune il 9 giugno mette nero su bianco quello che CFO, ricercatori e operatori di neo-cloud ripetono da mesi: la prossima sfida dell’AI non è costruire modelli più grandi, ma renderli abbastanza efficienti da essere usati su scala produttiva senza far saltare il conto economico. La voce-chiave dell’inchiesta è Sara Hooker, fondatrice di Adaption e già responsabile di Cohere Labs, che da tempo sostiene una tesi netta: il paradigma “più potenza di calcolo, più intelligenza” sta esaurendo il suo ritorno marginale, mentre il costo per inferenza decide quali sistemi sopravvivono in produzione.
La discontinuità non è teorica. Un modello equivalente a GPT-4 oggi costa circa 0,40 dollari per milione di token, contro i livelli di tre anni fa che erano mille volte superiori. È un crollo di prezzo che ridisegna l’economia del deployment: gli usi che fino al 2024 erano impraticabili per costa più l’inferenza del training ora diventano sostenibili, e le aziende che hanno costruito infrastrutture per addestrare modelli sempre più grandi scoprono che il valore si è spostato altrove. L’economia dell’AI non premia più chi accumula parametri, premia chi sa misurare il TCO reale del proprio stack, includendo elettricità, raffreddamento, latenza, costo per query e qualità marginale del risultato.
Il modello più grande ha perso la corsa contro la bolletta.
Quando il trilione di parametri smette di convincere
Il segnale più chiaro arriva dalla Cina. DeepSeek V3, rilasciato a fine 2024 con architettura Mixture-of-Experts, conta 671 miliardi di parametri totali ma ne attiva soltanto 37 miliardi per token. Il paper tecnico documenta prestazioni allineate ai modelli frontier statunitensi su benchmark di ragionamento, coding e matematica, con un dato che cambia la conversazione: 0,14 dollari per milione di token in input contro i 3 dollari di Claude 3.5 Sonnet, e 0,28 dollari in output contro 15. Un ordine di grandezza di differenza, ottenuto senza concessioni evidenti sulla qualità misurata.
DeepSeek V3 fa frontier-grade a un decimo del costo per token.
I numeri di DeepSeek hanno fatto da detonatore perché hanno dimostrato sul campo quello che gli ingegneri di Google e Meta scrivono da anni nei paper: attivare una frazione dei parametri per ogni query riduce la potenza di calcolo necessaria di tre o cinque volte rispetto a un modello denso equivalente. La distillazione fa il resto, comprimendo conoscenza da modelli grandi in versioni leggere che girano su hardware più piccolo. La conseguenza pratica è che il vantaggio competitivo non sta più nel possedere il modello con più parametri assoluti, ma nel saper progettare architetture che sprechino meno potenza di calcolo per unità di valore generato.
Anche gli hyperscaler stanno rivedendo i piani. I CFO chiedono ai team infrastruttura di giustificare ogni dollaro di capex con metriche di utilizzo, non più con scommesse sul prossimo salto generazionale. Il conto salato dei token è diventato un tema da consiglio di amministrazione, e non per moralismo: per matematica. Se il margine lordo sull’inferenza si comprime mentre la bolletta elettrica sale, l’unica leva che resta è ridurre la potenza di calcolo per query.
MoE e distillazione, la nuova grammatica del deployment
La strategia che vince in produzione oggi combina tre elementi. Primo, modelli sparsi che attivano expert specializzati invece di propagare ogni token attraverso l’intera rete neurale. Secondo, distillazione aggressiva per portare le capacità dei modelli grandi su versioni che entrano nella memoria di una singola GPU. Terzo, scelta hardware mirata sull’inferenza, non sul training. I chip inference-first di nuova generazione promettono costi per query inferiori del 60-80 percento rispetto alle GPU general-purpose, perché eliminano funzioni che servono solo all’addestramento e ottimizzano latenza e memoria.
L’Unione europea ha iniziato a tradurre questa logica in regolazione. L’etichetta energetica AI obbliga i fornitori a dichiarare consumi e impatti dei modelli, mettendo i CFO nelle condizioni di confrontare opzioni con criteri omogenei. Non è un dettaglio burocratico: è la condizione perché un mercato dell’efficienza possa funzionare. Senza misure standardizzate ogni vendor racconta la sua storia, e la decisione di acquisto resta ostaggio del marketing.
Per le imprese che progettano deployment AI il messaggio operativo è chiaro. Misurare il costo per task completato, non il costo per token grezzo, perché modelli più piccoli e ben prompt-engineered possono battere modelli giganti su carichi reali. Misurare la latenza in produzione, non i benchmark di laboratorio. Misurare il consumo elettrico aggregato del proprio stack inferenza, perché diventerà presto una voce di bilancio visibile.
Quello che si sta crepando è una narrazione vendor durata cinque anni: l’idea che la quantità di parametri fosse l’unica metrica che contasse, e che la potenza di calcolo necessaria per addestrarli giustificasse capex senza limite. Quella retorica serviva a chi vendeva GPU e a chi costruiva campus da decine di gigawatt. Ora il bigger=better resta vivo nei comunicati stampa, ma fatica a sopravvivere a un foglio Excel.
La rivincita dei neo-cloud, mentre gli hyperscaler arrancano sulla rete elettrica
Sul lato infrastruttura la mappa si sta riscrivendo a velocità sorprendente. Il mercato dei neo-cloud specializzati in AI vale circa 20 miliardi di dollari nel 2026, con prezzi GPU che oscillano tra il 30 e il 60 percento sotto le tariffe degli hyperscaler. CoreWeave guida il gruppo con un backlog contrattuale da 66,8 miliardi di dollari e ricavi annuali oltre i 5 miliardi, costruiti quasi interamente su workload AI ad alta intensità. Lambda, Crusoe, Nscale e una quindicina di altri operatori occupano nicchie verticali con offerte mirate per inference, training o fine-tuning.
L’inferenza vale l’80% del mercato neo-cloud entro il 2030.
Le proiezioni di settore indicano che l’inferenza arriverà a rappresentare l’80 percento dei ricavi dei neo-cloud entro il 2030, ribaltando l’attuale prevalenza del training. È un dato che spiega perché operatori come d-Matrix e Tenstorrent abbiano portato in produzione chip inference-first capaci di sfidare il dominio Nvidia sul costo per query. La concorrenza si sposta dove sta il volume di business, e il volume di business sta nell’inferenza ripetuta a basso costo, non nell’addestramento occasionale a costo iperbolico.
Gli hyperscaler hanno un problema aggiuntivo: la potenza elettrica. I data center AI consumeranno 1.050 TWh entro fine 2026, più dell’intero fabbisogno italiano, e le utility europee e nordamericane non riescono ad allacciare nuovi siti con la velocità che servirebbe. Microsoft, Amazon e Google stanno firmando contratti pluriennali con produttori di energia nucleare per garantirsi capacità, ma i tempi di costruzione si misurano in lustri. Nel frattempo i neo-cloud, più piccoli e più agili, sfruttano siti esistenti e contratti spot per offrire capacità immediata.
Il risultato è una geografia industriale meno concentrata di quella che il discorso pubblico continua a raccontare. Tre hyperscaler dominano ancora il cloud generalista, ma nell’AI infrastructure il mercato è frammentato e contendibile. Per chi compra capacità di calcolo, questo significa potere negoziale che fino a due anni fa non esisteva, e la possibilità di costruire stack multi-vendor che riducano il rischio di lock-in.
Chi paga la fattura inizia a contare più di chi vende il sogno
La narrazione “modelli più grandi uguale più intelligenza” è stata per anni il copione che giustificava il capex degli hyperscaler e le valutazioni miliardarie dei laboratori frontier. Reggeva finché il mercato comprava capacità senza chiedere conto del costo per query, finché gli investitori finanziavano round successivi senza interrogarsi sull’unit economics e finché la potenza elettrica sembrava una variabile gestibile. Tre presupposti che oggi sono caduti uno dopo l’altro, e il loro crollo cambia la geografia di chi può permettersi di vincere.
Ora che il costo per inferenza decide quali sistemi restano in produzione, l’efficienza diventa una leva di sovranità prima ancora che una virtù tecnica. Scegliere modelli sparsi e neo-cloud specializzati significa sottrarsi al pricing power dei tre soliti noti, costruire stack che possono essere ricomposti senza riscrivere il software dall’inizio e ridurre l’esposizione a decisioni unilaterali di chi fornisce l’infrastruttura. È una scelta industriale che gli investitori istituzionali stanno iniziando a premiare, e che i CFO inseriscono nelle valutazioni di rischio.
I ricercatori migrano dove l’efficienza è ricerca scientifica e non solo voce di bilancio. I neo-cloud crescono perché vendono capacità misurabile a prezzi negoziabili. I CEO tagliano capex sui progetti che non mostrano ritorno per token, e i CFO chiedono il TCO reale prima di firmare contratti pluriennali. La corsa al trilione di parametri resta una scommessa interessante per chi vende capex, non per chi paga la fattura. La differenza tra le due posizioni è esattamente quella che il titolo di questo articolo indica: non servono AI più potenti, servono AI più efficienti. E chi conta, finalmente, comincia a capirlo.
#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
Davide Greco
Source link


