Reti neurali asincrone, l’AI che consuma cento volte meno


Un gruppo di ricerca dell’Università del Massachusetts Amherst ha pubblicato su Nature Communications i risultati di una nuova architettura di rete neurale chiamata Asynchronous Neural Turing (ANT), che dimostra apprendimento continuo riducendo il consumo energetico di ordini di grandezza rispetto alle reti tradizionali. TechXplore ha riportato il lavoro lo stesso giorno in cui la comunità AI discute della corsa al compute e dei suoi limiti fisici. L’efficienza energetica diventa il nuovo terreno di competizione, dopo anni di sola corsa alla scala dei parametri.

Le reti neurali tradizionali aggiornano tutti i neuroni in modo sincrono a ogni ciclo di clock, indipendentemente dalla rilevanza dello stimolo in ingresso. È un modello matematicamente elegante ma estremamente dispendioso, perché milioni di operazioni vengono eseguite anche quando non producono cambiamento informativo. Le ANT lo fanno solo dove serve, in risposta a stimoli rilevanti, senza un orologio globale. Il modello mantiene la compatibilità con i metodi di training a gradiente standard, ma elimina il consumo costante di operazioni inutili. L’architettura prende ispirazione dal funzionamento del cervello biologico, dove l’attività dei neuroni è dispersa nello spazio e nel tempo, e dove la grande maggioranza delle cellule è in stato di riposo in qualsiasi istante.




I numeri del paper sono ambiziosi. Gli autori parlano di riduzione del consumo di due ordini di grandezza su task di apprendimento continuo, e di un fattore cento sulla potenza richiesta a parità di accuratezza su benchmark di classificazione. Se i numeri reggessero in produzione su silicio commerciale, il calcolo economico del settore cambierebbe in modo radicale: la spesa elettrica passerebbe da voce critica a posta marginale.

Perché conta per chi finanzia data center

Il consumo energetico degli LLM è uno dei vincoli più visibili dell’intero settore AI. Tom’s Hardware ha raccontato che i data center AI consumeranno 1.050 TWh entro fine 2026, oltre tre volte il fabbisogno elettrico italiano, con un tasso di crescita annuo composto del trenta per cento trainato quasi interamente dai workload AI. Il rapporto IEA stima che entro il 2030 il consumo elettrico dei data center potrebbe raddoppiare ancora, con effetti sui prezzi dell’elettricità in tutta Europa.

I cittadini stanno già pagando il conto. Tom’s Hardware ha raccontato come AI e datacenter facciano aumentare la bolletta senza che gli utenti se ne rendano conto: in Irlanda le famiglie hanno pagato in media 360 euro in più sulla bolletta tra il 2015 e il 2023 per finanziare l’espansione dei data center hyperscaler. Un’architettura che taglia i consumi di due ordini di grandezza ridisegna le proiezioni dei prossimi cinque-dieci anni e cambia il calcolo politico della costruzione di nuovi siti.

Se l’AI imparasse a dormire come un cervello, costerebbe meno della metà oggi.

L’approccio non è isolato. Altri filoni di ricerca lavorano in parallelo su chip neuromorfici a signal folding, su metodi di training distribuito che riducono il traffico di rete tra GPU e su nuovi formati numerici a bassa precisione che permettono di fare più operazioni per watt. La convergenza di queste linee suggerisce che la fase di pura scalata dei parametri stia raggiungendo limiti fisici, e che il prossimo salto di settore arriverà dall’efficienza architetturale, non dalla dimensione bruta. Tom’s Hardware ha mostrato anche che esistono iniziative per ridisegnare le reti interne dei data center con meno hardware e più banda, segno che ogni layer dello stack è oggi sotto pressione di ottimizzazione.

Cosa cambia nel time-to-deployment

L’ANT è ricerca, non prodotto. Tra paper pubblicato e implementazione su silicio commerciale passano normalmente cinque-otto anni, e non è garantito che la transizione avvenga. La maggior parte degli annunci accademici di efficienza non arriva mai alla produzione di massa per ragioni che vanno dalla difficoltà di portare l’architettura in CUDA a problemi di stabilità del training su dataset reali. Chi progetta investimenti AI per il triennio in corso non deve riprogrammare i contratti basandosi su questa architettura.

Ma deve includerla nel proprio radar tecnologico per il medio periodo, e in particolare nel modo in cui scrive i contratti cloud pluriennali. Tom’s Hardware ha già osservato che la nuova crisi del settore è la mancanza di potenza di calcolo e storage veloce: se entro tre anni un’architettura energy-efficient diventa lo standard, chi avrà firmato impegni decennali su capacità tradizionale si troverà a pagare per una tecnologia in disuso. La flessibilità contrattuale vale più della scontistica di volume, e la clausola di tecnology refresh è la voce che merita più attenzione legale in fase di firma.

Il contratto cloud lungo è la trappola dove finisce chi compra capacità, non strategia.

L’asimmetria geografica dell’efficienza

Una conseguenza meno discussa riguarda chi guadagna se l’efficienza vince. I primi a beneficiarne saranno i grandi laboratori AI con team di ricerca interni in grado di portare architetture nuove in produzione velocemente. Per le PMI italiane il vantaggio arriva più tardi, attraverso API e cloud commerciale, e arriva traslato in margini per il vendor più che in risparmio per il cliente finale. L’esperienza del passaggio a contesti più lunghi, a modelli più efficienti come Mixtral o GPT-4o, mostra che il prezzo al token scende lentamente, mentre il vendor cattura la quasi totalità del beneficio economico immediato.

Per chi gestisce procurement, l’implicazione è di prevedere clausole di revisione prezzo legate a benchmark di efficienza, non a impegni temporali rigidi. Quando arriverà il salto, il vendor dovrà essere costretto contrattualmente a passare almeno parte del guadagno al cliente, altrimenti l’AI continuerà a costare al cliente quanto costa oggi, mentre i margini del fornitore esplodono.

L’obiezione finale

Si potrebbe rispondere che ricerche accademiche di questo tipo escono ogni mese, e che la maggior parte non arriva alla produzione. È statisticamente vero, e va detto onestamente. Resta che il filone dell’efficienza energetica nelle reti neurali sta accumulando contributi indipendenti convergenti, finanziato sia da consorzi accademici sia dai team di ricerca interni di Anthropic, Google DeepMind, Meta. Quando più strade portano nella stessa direzione, la probabilità che la destinazione sia raggiungibile aumenta, e quella che almeno una variante arrivi davvero a silicio commerciale cresce di anno in anno. Per chi pianifica budget AI sui prossimi cinque anni, ignorare questa traiettoria significa scrivere business case che invecchiano male.


#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
 Marco Ferretti

Source link

Di