Niente Rubin Ultra: fabbricare chip è difficile, anche se ti chiami NVIDIA


Quando si parla di intelligenza artificiale l’attenzione cade quasi sempre sui numeri: teraflops, capacità di memoria, prestazioni nei benchmark. La cancellazione di NVIDIA Rubin Ultra (emersa in alcune notizie recenti) sposta però l’attenzione su un aspetto molto meno discusso: la capacità industriale di trasformare un progetto ambizioso in realtà, in un prodotto fabbricabile in volumi. Il presunto abbandono del design a quattro die in favore di una configurazione dual-GPU non è una battuta d’arresto architetturale, ma il segnale che il collo di bottiglia dell’accelerazione AI si è spostato dai transistor al packaging, alle rese e alla supply chain.

Cosa prevedeva il progetto originale (e cosa resta)

Il Rubin Ultra presentato come punta di diamante della roadmap prevedeva quattro chiplet GPU vicini al limite di reticolo e sedici stack di memoria HBM4E in un unico package, per circa un terabyte di memoria complessiva. Secondo diverse fonti interne, questo design sarebbe stato cancellato in favore di una versione con due compute chiplet e otto stack HBM4E. La motivazione indicata è sintetizzata nell’espressione “manufacturing execution concerns”, riportata da tutte queste fonti: preoccupazioni sulla concreta possibilità di portare il progetto in produzione di massa con rese accettabili.

Le conseguenze sulle prestazioni non sono banali. Il nuovo Rubin Ultra avrebbe circa metà della potenza di calcolo per package rispetto all’originale, anche se alcune analisi suggeriscono che configurazioni a livello di scheda, del tipo due package con due die ciascuno, potrebbero mantenere prestazioni aggregate simili a livello di server. C’è da dire che NVIDIA non ha pubblicato specifiche aggiornate né confermato ufficialmente la cancellazione del quad-die, ma le voci circolate sono molte e tutte concordi, motivo per cui possono essere ritenute fondate, anche se da non prendere come oro colato.


Le sfide per produrre chip sempre più complessi

Il progetto quad-die richiedeva di assemblare oltre 3.400 mm² di silicio attivo in un unico package, una scala senza precedenti per un acceleratore AI commerciale. Passare da due a quattro grandi chiplet non raddoppia semplicemente la complessità: moltiplica il numero di interconnessioni, la difficoltà dei test e la probabilità di difetti in ogni fase del packaging. Ogni chiplet aggiuntivo introduce nuovi punti di possibile fallimento che devono essere verificati prima della spedizione, aumentando il carico su test elettrici e burn-in.

Sulle linee di produzione emergono anche problemi fisici: su package così grandi, stress termici e meccanici provocano il cosiddetto “warpage” del substrato, ovvero una deformazione che può causare perdita di contatto elettrico tra die e interposer. Quando il package si piega, i die rischiano di staccarsi parzialmente dal substrato, generando corti, circuiti aperti e instabilità che abbattono le rese e fanno salire il costo per ogni chip effettivamente funzionante.

Packaging avanzato e il tetto fisico di CoWoS-L

Il Rubin Ultra quad-die si basava sul packaging avanzato CoWoS-L di TSMC, lo stesso ecosistema su cui NVIDIA ha costruito la propria strategia multi-chiplet per le GPU da data center. Diverse analisi indicano che questa tecnologia avrebbe raggiunto un vero e proprio “tetto fisico” alla scala di quattro grandi die: oltre quella soglia di complessità, warpage e failure elettrici rendono la produzione ad alta resa non praticabile.

Per aggirare il limite, il Rubin Ultra rivisto torna a due die per package, mantenendo la memoria HBM4E ma riducendo area e complessità in modo compatibile con ciò che le linee di packaging riescono a gestire con rese sostenibili. Il successore di CoWoS-L, indicato come CoPoS, non è atteso in produzione di massa prima della fine del 2028. Questo lascia per alcuni anni un divario tra l’ambizione dei design e le capacità del packaging effettivamente disponibile, che condiziona in modo diretto la roadmap.


Rese, costi e pressione sulla supply chain

Una resa più bassa su package quad-die si traduce in costi unitari che esplodono: una quota maggiore di package viene scartata e il costo del silicio e del packaging si spalma su un numero inferiore di unità funzionanti. Il passaggio a dual-die riduce il rischio di rese catastrofiche e dovrebbe abbassare il costo per singolo Rubin Ultra, anche se servono più GPU per raggiungere le stesse prestazioni a livello di rack.

C’è poi il fattore memoria. Il design quad-die avrebbe assorbito sedici stack HBM4E per package, concentrando una domanda enorme su una supply chain già sotto tensione, dove capacità produttiva e tempi di consegna sono critici per tutti gli attori del settore. Il design rivisto ne utilizza otto, alleggerendo la pressione immediata sui fornitori di memoria ad alta banda. Tutti questi cambiamenti, da quattro a due die e da sedici a otto stack, ridisegnano le allocazioni di capacità su CoWoS-L e HBM per il ciclo 2027, con effetti sui tempi di approvvigionamento e sulla pianificazione dei data center.

Il gap tra progettare e fabbricare

Il caso Rubin Ultra isola un principio che vale la pena rendere esplicito: progettare un acceleratore con quattro chiplet e un terabyte di HBM4E è possibile sulla carta, fabbricarlo in volumi con rese e costi accettabili è un problema del tutto distinto. Le capacità di progettazione (dagli strumenti EDA all’architettura) scalano più velocemente delle capacità fisiche di packaging e test, e la revisione non nasce da un ripensamento architetturale ma da un limite di manufacturing execution: l’idea dei quattro chiplet resta sensata per le prestazioni, semplicemente non è eseguibile con le infrastrutture di oggi.


Intel

wafer


Questo costringe NVIDIA a rincorrere le prestazioni aggregate su un altro piano: topologie multi-package a livello di scheda (due die per package, due package per scheda) che si avvicinano agli obiettivi di capacità per rack del piano originale senza gonfiare la complessità del singolo package. Si tratta di scalare i nodi in maniera orizzontale anziché fare salti verticali monolitici, una strada che implica più GPU e più integrazione ma che resta entro le capacità reali di produzione. Secondo alcune fonti la versione rivista potrebbe perfino risultare meno competitiva delle proposte AMD Instinct MI500, anch’esse orientate ad architetture multi-chiplet aggressive: una ragione in più per inseguire il throughput a livello di sistema.


Per chi gestisce data center l’impatto vero non sta nelle specifiche del singolo chip, ma un gradino più in alto: progettazione termica, layout dei cluster, pianificazione dei rifornimenti, mapping tra software e hardware. E finché CoPoS o soluzioni analoghe non arriveranno in volumi, sarà questa logica (più nodi, non package più densi) a dettare il ritmo dell’accelerazione AI dei prossimi anni.

La complessità industriale come vero limite

Il vero limite dell’AI di frontiera non è disegnare chip sempre più grandi, ma costruirli, testarli e distribuirli con supply chain reali. Linee di packaging avanzato, disponibilità di HBM4E e vincoli termici dei data center stanno emergendo come i freni primari all’evoluzione degli acceleratori, e ogni livello di complessità in più  (dal monolitico ai due die, dai due ai quattro, e così via in futuro) amplifica le interdipendenze: TSMC, fornitori di memoria, produttori di substrato, assemblatori di schede e operatori di data center devono muoversi allineati perché il prodotto diventi realizzabile.

Quando ci si avvicina ai limiti fisici e industriali, anche un leader di mercato deve fare un passo indietro se la parte produttiva non regge. Roadmap e marketing possono promettere quad-die e un terabyte di HBM: sono packaging, rese e supply chain a decidere cosa arriva davvero sul mercato.


#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
 Marco Pedrani

Source link

Di