C’è un collo di bottiglia che frena gli LLM, e forse è stato sbloccato


Subquadratic, una startup di Miami, afferma di aver costruito un modello linguistico che aggira uno dei limiti strutturali dei transformer moderni: la crescita quadratica del costo computazionale con la lunghezza del contesto. Il modello si chiama SubQ, usa un meccanismo di sparse attention dinamica e nei benchmark pubblicati costa 8 dollari per un’operazione che con Anthropic Opus ne costa 2.600. Se i numeri reggono fuori dal laboratorio, siamo davanti a qualcosa che ridisegna l’economia dell’inferenza AI.

Il problema che SubQ dice di aver risolto non è nuovo, ma è concreto. Nei transformer standard, ogni token deve calcolare la propria relazione con tutti gli altri token del contesto. Con 10.000 parole, si arriva a circa 50 milioni di moltiplicazioni. La complessità cresce quadraticamente: raddoppiare il contesto non raddoppia il costo, lo quadruplica. È la ragione per cui i contesti lunghi — contratti, codici sorgente, documentazione tecnica — rimangono proibitivi per la maggior parte degli use case enterprise, non per limiti tecnici astratti ma per ragioni economiche molto concrete. Come si spiega in modo approfondito analizzando il reale valore dell’inferenza AI, il costo per token è il vero discriminante nell’adozione industriale dei modelli.

50 milioni di moltiplicazioni per 10.000 parole. Il conto quadratico non perdona.

Il costo quadratico dell’attenzione: perché ogni parola deve guardare tutte le altre

L’architettura transformer, introdotta nel 2017, ha dominato il decennio successivo proprio perché il meccanismo di self-attention permette a ogni token di “vedere” l’intero contesto. Il prezzo di questa potenza espressiva è la quadraticità: all’aumentare della lunghezza dell’input, il costo esplode in modo non lineare. Soluzioni parziali come FlashAttention hanno ottimizzato l’implementazione hardware senza cambiare la natura del problema.

SubQ prova una strada diversa: invece di calcolare l’attenzione su tutti i token, seleziona on-the-fly quelli rilevanti per ciascuna query. L’idea — che in letteratura si chiama sparse attention — non è originale in sé. Quello che Subquadratic sostiene di aver fatto è implementarla in modo dinamico e scalabile fino a contesti da 12 milioni di token, mantenendo un’accuratezza misurabile. Il tutto partendo da pesi preaddestrati di Qwen, il modello open-source sviluppato da Alibaba: non un addestramento da zero, ma un adattamento architetturale su una base esistente.

Riutilizzare pesi da un modello altrui non è una scorciatoia secondaria: ridimensiona la portata dell’affermazione tecnica. Subquadratic non ha dimostrato che la sparse attention dinamica funziona partendo da zero; ha dimostrato che funziona su una base già ottimizzata da Alibaba con risorse di calcolo che nessuna startup può replicare. Il problema del consumo token nei modelli di grandi dimensioni è esattamente quello analizzato qui in relazione al modello 8×8 di Wired: scalare bene è difficile, e le ottimizzazioni parziali spesso mascherano dipendenze non dichiarate.

Sparse attention non è nuova. La domanda è se funziona davvero a 12 milioni di token.

Cinquantasei volte più veloce, otto dollari invece di duemilaseicento

I numeri pubblicati sono il centro di gravità della storia. Nel test condotto da Appen, azienda specializzata in valutazione di modelli AI, SubQ risulta 56 volte più veloce dei modelli con FlashAttention. Su LiveCodeBench ottiene 89,7%, in linea con i migliori modelli di coding disponibili. Il test needle-in-a-haystack — che misura la capacità di trovare informazioni specifiche in contesti enormi — raggiunge il 98% sia su 6 milioni sia su 12 milioni di token. E il confronto di costo su RULER 128, il benchmark per contesti lunghi, è quello che apre gli occhi: Anthropic Opus costa 2.600 dollari, SubQ 8 dollari.

Jeanine Sinanan-Singh, responsabile di Appen per la valutazione, ha definito il modello “could be a game changer”. È una valutazione misurata, non entusiasta: il condizionale è parte del giudizio, non una cautela formale.

Dall’altra parte, Will Depue, ex OpenAI e ora ricercatore indipendente, ha dichiarato che “the public evidence does not yet justify the stronger claim”. La critica non nega i numeri: li contestualizza. I benchmark di Subquadratic sono stati condotti o supervisionati dalla stessa azienda o da partner con interessi nell’esito positivo. Mancano test indipendenti su scala produzione, quelli che emergono quando migliaia di richieste concorrenti stressano un sistema in condizioni reali. La differenza tra un benchmark controllato e un deployment enterprise è esattamente il tipo di salto che ha ridimensionato molte affermazioni tecniche degli ultimi anni.

Il CEO Justin Dangel ha detto che non pensa che “anybody will be building on transformers in a few years”. È una posizione netta e coerente con la tesi di Subquadratic, ma è anche il tipo di dichiarazione che si fa quando si raccoglie un round di finanziamento. La storia dell’AI è piena di architetture che avrebbero dovuto seppellire i transformer e che invece si sono rivelate ottimizzazioni di nicchia.

Otto dollari contro duemilaseicento. Il dato è lì. La verifica è altrove.

Accesso chiuso e test indipendenti ancora assenti

Subquadratic ha oltre 500 clienti enterprise in lista d’attesa e accesso ancora molto limitato. L’assenza di accesso pubblico generalizzato è strutturalmente rilevante per valutare le affermazioni. Un modello che non si può testare in produzione è un modello che non ha ancora dimostrato nulla al di fuori del contesto controllato dai suoi creatori.

La scarsità di accesso può derivare da risorse computazionali limitate, necessità di onboarding controllato, priorità commerciali nella selezione dei clienti. Può anche riflettere una strategia consapevole di controllo sull’esposizione a test indipendenti che potrebbero ridimensionare i benchmark pubblicati — non c’è modo di verificarlo dall’esterno. È il tipo di ambiguità che dovrebbe far alzare le antenne a chi valuta infrastruttura AI in azienda.

Il contesto più ampio non aiuta a sciogliere il dubbio, ma lo inquadra meglio. La corsa agli LLM con contesti lunghi è una delle linee di competizione più calde del momento: Anthropic, Google, OpenAI stanno spingendo su finestre da centinaia di migliaia di token con architetture standard. La pressione sulla costruzione di data center per reggere queste esigenze è un segnale di quanto il problema della scalabilità sia reale e quanto i big tech lo stiano affrontando con investimenti massicci, non con soluzioni architetturali radicali.

Se SubQ funziona come dichiarato, rappresenta un’alternativa economicamente dirompente a quegli investimenti. Un’infrastruttura che costa 325 volte meno per contesti lunghi cambia i calcoli di qualsiasi deployment enterprise. Non è un miglioramento marginale: è un ordine di grandezza diverso.

Il verdetto provvisorio

La tesi di Subquadratic poggia su un problema reale, su numeri pubblicati con metodologia parzialmente verificabile e su un endorsement qualificato. Poggia anche su tre punti deboli che non si possono ignorare: la dipendenza dai pesi Qwen, l’assenza di test indipendenti in produzione e l’accesso chiuso che impedisce la verifica esterna. Le ottimizzazioni di architettura su contesti lunghi rimangono una priorità per i team AI aziendali, ma la strada per validarle passa per replicabilità esterna, non per fiducia nel comunicato stampa.

Il modo corretto di leggere questa storia non è “rivoluzione sì” o “bufala no”: è un’affermazione tecnica credibile che necessita di validazione indipendente prima di poter essere trattata come fatto acquisito. Per chi gestisce infrastruttura AI, la posizione razionale è monitorare con attenzione senza inserire SubQ in nessuna roadmap fino a quando test di terze parti non confermino i benchmark a scala produzione.

La sparse attention dinamica come meccanismo ha basi teoriche solide. Il problema quadratico dei transformer è reale e irrisolto nell’architettura standard. Se Subquadratic ha trovato un modo scalabile e stabile per aggirarlo — anche partendo da pesi altrui — è un contributo tecnico significativo indipendentemente dalla retorica del “transformer sono morti”.

Quello che non si può fare è trattare il condizionale come certezza perché i numeri sono grandi. Otto dollari contro duemilaseicento è una differenza che merita verifica seria, non accettazione entusiasta.

Dagli agenti AI personalizzati alla formazione.

C’è molto che possiamo fare insieme.

Chiedi informazioni


#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
 Sara Romano

Source link

Di