I token AI stanno diventando una voce di costo comparabile al personale. Non è un’iperbole: è la previsione di Gartner, che ha calcolato che entro il 2028 le spese per i token AI supereranno lo stipendio medio di un singolo sviluppatore nei team tech più integrati — circa 2.000 dollari al mese come soglia di riferimento. Il problema non è il costo assoluto dei token, che continua a scendere per singola unità: è il volume di consumo che cresce più velocemente della riduzione dei prezzi, spinto dall’adozione degli agenti AI che consumano ordini di grandezza in più rispetto ai chatbot standard.
I dati attuali che Gartner raccoglie mostrano che la situazione non è futura: è già in corso per una quota significativa del mercato. La tokenpocalypse — il termine che il settore usa per il momento in cui i costi dei token superano il valore prodotto — non è più una proiezione: è già la realtà operativa di una parte crescente delle aziende. Il 23% dei responsabili tecnici intervistati spende già tra 200 e 500 dollari al mese per sviluppatore in token AI. Il 6% supera già i 2.000 dollari mensili per sviluppatore — oltre lo stipendio medio globale di un junior developer, senza che questo produca necessariamente un output proporzionale di valore. Il caso estremo documentato da Gartner è quello di OpenClaw, startup che ha speso 1,3 milioni di dollari in un singolo mese per token AI, cifra che supera di un ordine di grandezza il costo mensile dell’intero team di sviluppo. Come analizza anche CIO Dive, questa dinamica è destinata ad accelerare con la transizione ai modelli a consumo.
▶” frameborder=”0″ allow=”accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture” allowfullscreen title=”Vedi il video”>
Il moltiplicatore degli agenti: 1.000 volte più token di un chatbot
Il passaggio dai chatbot agli agenti AI non è un incremento lineare del consumo di token: è un salto di ordine di grandezza. Un chatbot consuma token per generare una risposta singola a una domanda singola. Un agente consuma token per ogni passaggio del ragionamento, per ogni chiamata agli strumenti esterni, per ogni verifica dei risultati, per ogni iterazione nella catena di task che compone un workflow complesso. Il consumo medio per interazione agentica è 1.000 volte superiore a quello di una chat semplice, secondo le analisi che Gartner ha condotto sui pattern di utilizzo delle aziende enterprise.
Nitish Tyagi, analista Gartner, ha sintetizzato il punto con precisione: “La disciplina sui token non emergerà spontaneamente dalla scelta dei developer.” È un’affermazione che va contro la narrativa prevalente sull’adozione AI, in cui ogni decisione tecnica viene presentata come razionale per default. La realtà documentata da Gartner è diversa: i developer scelgono il modello più potente disponibile anche quando un modello più piccolo sarebbe sufficiente per il task, consumano token in prototyping che non viene mai deprovisionato correttamente, e usano context window enormi anche per query che potrebbero essere soddisfatte con un frammento di contesto molto più piccolo.
Il problema è strutturale: senza visibilità sui costi a livello di singola query o di singolo workflow, i developer non hanno il feedback necessario per ottimizzare il consumo. Pagare i token con carta di credito aziendale senza una breakdown granulare per task o per team produce esattamente il comportamento che Accenture, Uber e Amazon hanno già documentato: consumo che esplode fino a quando la bolletta non diventa abbastanza grande da attirare l’attenzione del CFO.
1.000 token per un chatbot, un milione per un agente. La bolletta scala più velocemente del valore.
Dove vanno i soldi: context bloat, task routing e cicli di revisione
Gartner ha identificato tre categorie principali di spreco nel consumo di token enterprise. La prima è il context bloat: sistemi che passano l’intera storia della conversazione, o l’intero documento, a ogni chiamata al modello — anche quando solo una piccola parte del contesto è rilevante per la query specifica. Context engineering — la disciplina di selezionare e comprimere il contesto rilevante invece di passare tutto — può ridurre il consumo di token del 60-80% su workflow standard, senza degradazione apprezzabile della qualità dell’output.
La seconda è l’assenza di task routing: usare il modello più potente disponibile — tipicamente GPT-4o, Claude 3.7 Sonnet o Gemini 1.5 Pro — per tutti i task, inclusi quelli elementari che un modello molto più piccolo gestirebbe con uguale efficacia. Un task di classificazione binaria non richiede lo stesso modello di un task di sintesi di documenti legali complessi. Le aziende che hanno implementato routing intelligente tra modelli — usando modelli leggeri per il triage e modelli pesanti solo per i task che lo richiedono — riportano riduzioni del costo per output del 40-70%.
La terza categoria è il costo dei cicli di revisione multipli: workflow agentici che richiedono all’LLM di verificare i propri output, correggere gli errori e rifarlo — un pattern che produce qualità migliore ma moltiplica il consumo di token. Ridurre il numero di cicli di revisione attraverso prompt engineering e architetture di verifica più efficienti è una delle leve di ottimizzazione con il ROI più alto nel breve periodo.
Context bloat, task routing sbagliato, cicli di revisione: tre sprechi che nessuno misura perché la carta di credito è aziendale.
Il modello che cambia: da SaaS a consumo infrastructure
Il confronto tra i costi dei token AI e gli stipendi degli sviluppatori non è solo una curiosità statistica. È il segnale che il modello economico dell’AI enterprise sta cambiando struttura: da abbonamento SaaS con costo fisso prevedibile a consumo infrastructure con variabile proporzionale all’uso. Questa transizione ha conseguenze sui processi di budgeting, sulle pratiche di procurement e sulle metriche di valutazione degli investimenti tecnologici che la maggior parte delle organizzazioni non ha ancora assorbito completamente.
Nel modello SaaS, il CFO approva un contratto annuale e sa esattamente quanto spenderà. Nel modello a consumo, il costo dipende da quante query vengono eseguite, da quanti agenti vengono dispiegati, da quanto contesto viene passato a ogni chiamata. Le organizzazioni più avanzate stanno mettendo tetti alla spesa AI con budget, soglie e alert automatici — la stessa disciplina FinOps che hanno applicato al cloud, ora replicata per i token. La variabile più imprevedibile sono gli agenti autonomi: un agente che decide autonomamente di eseguire un task complesso può consumare in un’ora quello che un developer consumerebbe in un mese di uso normale. Il consumo di token è già un problema enorme per molte organizzazioni che non sanno quanti strumenti AI usano i dipendenti né quanto costano complessivamente.
Il parallelo con il cloud computing degli anni 2010 è preciso. Le aziende hanno impiegato quasi un decennio a sviluppare le pratiche di FinOps per il cloud — tagging delle risorse, budget alert, rightsizing, Reserved Instances — che permettono di controllare i costi a fronte di una variabile difficilmente prevedibile. Le stesse pratiche devono essere sviluppate per il consumo di token AI, con la complessità aggiuntiva che gli agenti prendono decisioni di consumo autonomamente, senza che nessun umano le approvi in tempo reale.
Come si governa il consumo: le pratiche che funzionano
Le organizzazioni che stanno già affrontando il problema del consumo di token in modo strutturato — non in modo reattivo dopo che la bolletta è arrivata — mostrano un pattern comune: hanno iniziato con la visibilità prima dell’ottimizzazione. Senza sapere dove vanno i token, qualsiasi intervento di riduzione è cieco.
Il crollo in borsa di Accenture legato all’AI spending fuori controllo è il segnale più visibile di una tendenza che attraversa tutto il settore. Gli strumenti di monitoraggio granulare del consumo di token — per workflow, per team, per modello usato — sono il punto di partenza. Alcune organizzazioni stanno integrando queste metriche nei sistemi di CI/CD, in modo che ogni deploy di un nuovo workflow includa una stima del consumo di token previsto e un alert se il consumo effettivo supera la stima di una soglia predefinita. Questo sposta il controllo del consumo dal momento della bolletta al momento del codice — molto più vicino al punto in cui le decisioni di design vengono prese.
Il secondo elemento è la definizione di budget per use case concreti, non per team o per strumento. Un budget “per AI tools” non crea incentivi all’ottimizzazione. Un budget “per workflow di generazione report clienti” che includa il costo token come variabile principale crea un framework in cui il developer che ottimizza il consumo vede direttamente l’impatto della propria scelta. La governance del token spending non è un problema tecnico: è un problema di incentivi, e gli incentivi si costruiscono con i sistemi di misurazione e attribuzione dei costi, non con le circolari aziendali.
Il messaggio di Gartner per il 2026-2028 è chiaro: il consumo di token non è una variabile che si gestisce a posteriori. È una variabile che si progetta, si monitora e si ottimizza con la stessa attenzione che un’organizzazione seria dedica ai costi del cloud — e con la stessa urgenza, perché il conto sta già arrivando.
Dagli agenti AI personalizzati alla formazione.
C’è molto che possiamo fare insieme.
#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
Sara Romano
Source link




