Le aziende cominciano a mettere un tetto di spesa alle IA e ai token


Uber ha bruciato l’intero budget AI per il 2026 nei primi quattro mesi dell’anno e ha introdotto un tetto di spesa mensile per dipendente: 1.500 dollari per tool, applicato a Cursor e Claude Code. Non è un caso isolato. Microsoft ha cancellato la maggior parte delle licenze interne Claude Code e ha fissato una migrazione forzata a GitHub Copilot CLI entro il 30 giugno 2026. Le grandi aziende tech, quelle stesse che hanno guidato l’adozione degli strumenti AI per sviluppatori, stanno imparando a proprie spese che l’uso agentico ha un profilo di costo completamente diverso dalla chat.

Il token è la nuova unità di costo variabile. E varia molto più di quanto previsto.

Il perché è semplice da enunciare, meno da anticipare quando si siglano contratti. Un workflow agentico consuma tra cinque e trenta volte più token di una singola query diretta: l’agente non risponde una volta, ragiona in loop, chiama strumenti, produce contesto intermedio, reitera. Chi ha approvato piani AI con la logica di una licenza SaaS — costo fisso per sede, scalabilità lineare, prevedibilità mensile — non stava comprando la stessa cosa. Stava comprando qualcosa di strutturalmente diverso, senza saperlo.

Quando l’agente lavora, il token gira — e il costo scala in modo non lineare

Il problema non è tecnico. È cognitivo e organizzativo. I team che hanno adottato agenti AI per accelerare lo sviluppo software hanno ottimizzato per la velocità, non per il consumo. Ogni developer con accesso a Cursor o Claude Code può, in una singola sessione di lavoro intensiva, generare un volume di token che non si legge sullo stesso ordine di grandezza di una licenza Copilot standard. Il consumo dipende dal comportamento individuale, dalla complessità del task, dalla catena di tool chiamati — e nessuno di questi fattori è controllabile a priori con un contratto enterprise tradizionale.

Per capire perché il costo esplode, vale la pena seguire un ciclo concreto. Un developer chiede all’agente di aggiungere una funzionalità a una codebase esistente. L’agente legge i file rilevanti — primo consumo di token in ingresso. Genera una proposta di modifica — token in uscita. Chiama uno strumento per eseguire i test automatici — l’output del test rientra come contesto, altri token in ingresso. I test falliscono: l’agente analizza l’errore, corregge, riesegue. Ogni iterazione aggiunge contesto al prompt, che cresce in modo cumulativo: dopo quattro o cinque cicli di correzione, il contesto ha già raggiunto decine di migliaia di token, e il modello li porta tutti in lettura a ogni passo successivo. Una sessione di debugging da un’ora può consumare più token di cento conversazioni chat ordinarie. Non è un bug del sistema — è il meccanismo necessario perché l’agente mantenga coerenza nel ragionamento. Ma è un costo invisibile fino a quando non arriva la fattura.

Il caso estremo circolato nelle ultime settimane è quello di un’azienda rimasta anonima che ha accumulato 500 milioni di dollari in un mese su Claude, senza limiti configurati. È un caso limite, ma non è una distorsione statistica: è la direzione naturale di un sistema senza governance. Il consumo senza cap tende al massimo consentito dal modello di utilizzo, non al massimo utile per il business.

Senza tetto, la spesa tende al massimo consentito, non al massimo utile.

Ci sono anche i numeri di sistema: Forrester stima che il 25% della spesa AI pianificata slitterà al 2027. Non per mancanza di interesse, ma per ragioni di ROI non dimostrato e costi fuori controllo. La fase dell’entusiasmo diffuso — quella in cui ogni progetto pilota otteneva budget con una slide sulle promesse dell’AI — si è chiusa. Quello che resta è un mercato che chiede giustificazioni.

Il CFO entra in sala server, e non è per festeggiare

La COO di Uber ha dichiarato apertamente di non riuscire a collegare la spesa AI a nessuna feature consumer concreta. È la frase più onesta che si potesse dire, e la più scomoda per chi ha venduto l’AI productivity come autoevidente. La produttività misurabile richiede metriche definite prima dell’adozione, non a posteriori quando il CFO chiede spiegazioni. Uber non ha tagliato gli strumenti AI: ha introdotto un cap. La distinzione è rilevante. Un cap è una misura di governance, non una retromarcia strategica. Significa che l’AI rimane nell’arsenale operativo, ma entra nella stessa logica di controllo che si applica a qualunque altro costo variabile significativo.

La mossa di Microsoft merita una lettura separata. Cancellare le licenze interne Claude Code e migrare a GitHub Copilot CLI non è solo una decisione di risparmio: è una decisione di architettura del controllo. Usare uno strumento proprietario significa governarne il tetto dall’interno, senza dipendere da un contratto API con un provider esterno. Microsoft conosce i costi di Copilot meglio di chiunque altro — li ha costruiti — e può impostare limiti di consumo a livello di tenant, di team, di singolo developer, senza negoziare con un fornitore terzo. La migrazione forzata a fine giugno non è una sconfitta dell’AI open: è la dimostrazione che la scelta del tool dipende sempre anche da chi controlla il tetto di spesa. Quando quel tetto diventa critico, il vendor che offre più visibilità interna vince sulla carta tecnica.

Il problema strutturale che emerge da questi casi è che le aziende hanno comprato strumenti AI con budget SaaS e si trovano a gestire costi con dinamiche cloud. Nel modello SaaS la variabile è il numero di utenti, il costo per utente è fisso o quasi. Nel modello cloud — e il consumo a token ne è la versione più estrema — la variabile è l’intensità d’uso, che può variare di ordini di grandezza tra un utente e l’altro, tra un giorno e l’altro, tra un workflow e l’altro. Il problema del consumo token era già documentato, ma la scala dell’uso agentico ha reso il problema di primo piano invece che di nicchia.

Budget SaaS, dinamiche cloud. La categoria mentale sbagliata ha un costo reale.

La risposta tecnica esiste. Databricks ha introdotto strumenti di budgeting con soglie e alert per fermare il consumo prima che esploda. Il pattern che si sta consolidando — cap per utente, alert prima della soglia, reporting centralizzato — replica esattamente quello che le organizzazioni mature hanno costruito per il cloud negli anni della crescita AWS. Non è un rallentamento dell’adozione AI. È la maturazione della categoria.

Governance finanziaria come condizione di scalabilità

La terza fase dell’adozione AI aziendale assomiglia molto alla terza fase dell’adozione cloud: il momento in cui il controllo dei costi diventa prerequisito per la scalabilità, non ostacolo ad essa. Chi ha gestito la crescita cloud senza FinOps si è trovato a tagliare invece di ottimizzare. Chi introduce governance finanziaria AI adesso può scalare con cognizione di causa.

Sul cloud, il modello FinOps ha impiegato anni per consolidarsi: tagging obbligatorio delle risorse per progetto e team, showback mensile che mostra a ogni BU quanto ha consumato, chargeback nei casi più maturi dove il costo viene effettivamente imputato al centro di costo responsabile. L’AI aziendale è oggi dove il cloud era nel 2014: tutti la usano, pochi sanno quanto spendono davvero e ancor meno sanno attribuire quella spesa a un output misurabile. Il tagging per workflow non esiste ancora come standard nei contratti API enterprise; il showback AI è una dashboard che quasi nessuno ha configurato; il chargeback per consumo token è una pratica che si conta sulle dita di una mano. Il gap rispetto alla maturità FinOps raggiunta nel cloud è strutturale, non tecnico — gli strumenti esistono, manca la cultura organizzativa per applicarli.

La differenza rispetto al cloud è che il costo AI per addetto può essere molto più variabile. Un developer senior che usa Claude Code in modo intensivo non è comparabile a un account manager che fa tre query al giorno. I cap flat per dipendente come quello di Uber sono una prima approssimazione, non il punto di arrivo: la granularità necessaria è per ruolo, per workflow, per progetto. Il dato di costo ha senso solo se può essere attribuito a qualcosa di misurabile in output.

La fase della “frenata” che si osserva nei numeri aggregati del 2026 non è sintomo di disillusione verso la tecnologia. È sintomo di maturità organizzativa in corso. Le aziende che rallentano oggi per costruire governance stanno comprando la capacità di accelerare domani con metriche invece che con aspettative.

Chi rallenta per fare governance compra la capacità di accelerare con metriche.

Il vero rischio non è spendere troppo in AI. È spendere senza saperlo, in assenza di un business case quantificato che permetta di distinguere il consumo produttivo da quello dispersivo. Un cap da 1.500 dollari al mese per dipendente non risponde a questa domanda: dice solo che la spesa non supera una certa soglia. Non dice se quella spesa produce valore.

La governance finanziaria AI ha senso solo se accompagnata da governance di output: quali workflow producono risultati misurabili, quali no, quali andrebbero ottimizzati e quali abbandonati. Senza questa coppia — controllo dei costi e attribuzione del valore — il cap è solo un tetto, non un sistema di gestione. Uber ha fatto il primo passo. Il secondo è più difficile, e nessuno l’ha ancora annunciato.

Dagli agenti AI personalizzati alla formazione.

C’è molto che possiamo fare insieme.

Chiedi informazioni


#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
 Marco Ferretti

Source link

Di