Nvidia mostra che un modello da 3 miliardi può battere quelli da 30, basta saper guardare

Nvidia ha presentato un modello che vede e indica oggetti su immagini, screenshot e documenti più rapidamente e con maggiore precisione di concorrenti dieci volte più grandi. LocateAnything-3B è un vision-language model da 3 miliardi di parametri, sviluppato insieme a quattro università e presentato al CVPR 2026, che batte modelli da 8, 9, 30 e 32 miliardi su benchmark difficili di object detection, GUI grounding e document layout. Il segreto non è la scala, è la rappresentazione: il modello smette di disegnare i bounding box una cifra alla volta e impara a emetterli come unità atomiche in un solo passaggio.

Modelli di vision-language compatti, veloci ed economici sono la condizione tecnica per agenti AI che agiscono nel mondo digitale: bot che riconoscono pulsanti su screenshot di software complessi, robot che localizzano oggetti descritti a parole, assistenti che leggono documenti strutturati senza inviare nulla al cloud. La traiettoria di LocateAnything racconta che il prossimo salto di capacità non viene da modelli più grandi, viene da modelli costruiti meglio, una tesi che si fa strada anche fuori dalla detection.

Ti potrebbe interessare anche

<img decoding="async" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///ywAAAAAAQABAAACAUwAOw==" fifu-lazy="1" fifu-data-sizes="auto" fifu-data-srcset="https://i2.wp.com/www.tomshw.it/business/object-fit:cover;height:150%;filter:blur(40px);position:absolute;top:0;left:0;?ssl=1&w=75&resize=75&ssl=1 75w, https://i2.wp.com/www.tomshw.it/business/object-fit:cover;height:150%;filter:blur(40px);position:absolute;top:0;left:0;?ssl=1&w=100&resize=100&ssl=1 100w, https://i2.wp.com/www.tomshw.it/business/object-fit:cover;height:150%;filter:blur(40px);position:absolute;top:0;left:0;?ssl=1&w=150&resize=150&ssl=1 150w, https://i2.wp.com/www.tomshw.it/business/object-fit:cover;height:150%;filter:blur(40px);position:absolute;top:0;left:0;?ssl=1&w=240&resize=240&ssl=1 240w, https://i2.wp.com/www.tomshw.it/business/object-fit:cover;height:150%;filter:blur(40px);position:absolute;top:0;left:0;?ssl=1&w=320&resize=320&ssl=1 320w, https://i2.wp.com/www.tomshw.it/business/object-fit:cover;height:150%;filter:blur(40px);position:absolute;top:0;left:0;?ssl=1&w=500&resize=500&ssl=1 500w, https://i2.wp.com/www.tomshw.it/business/object-fit:cover;height:150%;filter:blur(40px);position:absolute;top:0;left:0;?ssl=1&w=640&resize=640&ssl=1 640w, https://i2.wp.com/www.tomshw.it/business/object-fit:cover;height:150%;filter:blur(40px);position:absolute;top:0;left:0;?ssl=1&w=800&resize=800&ssl=1 800w, https://i2.wp.com/www.tomshw.it/business/object-fit:cover;height:150%;filter:blur(40px);position:absolute;top:0;left:0;?ssl=1&w=1024&resize=1024&ssl=1 1024w, https://i2.wp.com/www.tomshw.it/business/object-fit:cover;height:150%;filter:blur(40px);position:absolute;top:0;left:0;?ssl=1&w=1280&resize=1280&ssl=1 1280w, https://i2.wp.com/www.tomshw.it/business/object-fit:cover;height:150%;filter:blur(40px);position:absolute;top:0;left:0;?ssl=1&w=1600&resize=1600&ssl=1 1600w" fifu-data-src="https://i2.wp.com/www.tomshw.it/business/object-fit:cover;height:150%;filter:blur(40px);position:absolute;top:0;left:0;?ssl=1" loading="lazy" bad-src="alt="Vedi" il="" video=""/>▶” frameborder=”0″ allow=”accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture” allowfullscreen title=”Vedi il video”>

Perché un modello linguistico disegna box una cifra alla volta

Per anni il rilevamento oggetti è appartenuto a modelli specializzati addestrati su elenchi chiusi di categorie. Erano rigidi ma efficienti. I vision-language model hanno cambiato il patto: si può chiedere in linguaggio naturale “trova le case con il tetto rosso nell’angolo” o “indica la seconda persona da sinistra”, e il modello esegue senza essere stato pre-addestrato su quelle categorie specifiche. La novità ha però portato un meccanismo controintuitivo: il modello, capace solo di predire token uno alla volta, deve trasformare un box in una stringa di testo e spelarlo cifra per cifra.

Le due strategie usate finora sono entrambe token-by-token. La prima scrive le coordinate come cifre testuali, la seconda divide l’immagine in mille bin e ne emette un token speciale per ogni coordinata. In entrambi i casi il box, che è un oggetto bidimensionale con relazioni geometriche precise tra angoli, viene appiattito su una sequenza unidimensionale. Per ogni box servono dai quattro ai sette passaggi sequenziali, e in un’immagine con duecento oggetti il modello passa la maggior parte del tempo ad aspettare se stesso.

Il costo è doppio. Il primo è la velocità: la latenza cresce con il numero di oggetti, le immagini affollate diventano lentissime. Il secondo, meno ovvio, è l’accuratezza: forzando un oggetto accoppiato in una catena unidimensionale, il modello impara a predire ogni coordinata guardando solo quelle precedenti, perdendo l’accoppiamento geometrico che fa di un box un box.

Spelare un box una cifra alla volta era la radice dell’errore, non la soluzione.

L’idea: dire l’intero box in una sola volta

LocateAnything propone una soluzione quasi imbarazzante per la sua semplicità. Stop spelling: l’intero box viene emesso in un solo passaggio, come unità atomica. Quattro coordinate insieme, due marker strutturali, sei posizioni fisse per blocco. Il modello impara quattro tipi di blocchi: Semantic (cosa è l’oggetto), Box (le coordinate), Negative (l’oggetto non c’è), End (stop). Il blocco Negative è importante perché insegna al modello a dire “non c’è” invece di inventare un box, comportamento che molti detector mancano e che genera allucinazioni.

Per non sacrificare la capacità di ragionamento del modello, l’addestramento avviene in parallelo su due flussi. Uno preserva la generazione token-by-token classica, mantenendo l’abilità linguistica. L’altro impara la nuova strategia parallela. Una maschera di attenzione custom regola tre comportamenti: dentro un singolo box le quattro coordinate possono guardarsi reciprocamente, tra box diversi l’attenzione è causale, il flusso di ragionamento linguistico resta strettamente separato. Questa separazione architetturale è ciò che permette di guadagnare velocità senza perdere intelligenza.

Il modello offre tre modalità operative. Slow è la generazione tradizionale, massima accuratezza e velocità minima. Fast predice ogni box in parallelo ed è la più rapida. Hybrid è il default intelligente: gira in modalità fast e osserva ogni blocco mentre viene emesso, ripiegando su slow quando rileva un blocco inaffidabile sulla base di due segnali (bassa confidenza sulla coordinata principale, distribuzione troppo larga delle alternative). È la modalità che rende il modello utilizzabile in produzione.

Tre modalità, una scelta: la modalità hybrid recupera quasi tutta la velocità senza pagare in errori.

I numeri: più veloce e più accurato

Nella sua modalità hybrid di default a 3 miliardi di parametri, LocateAnything-3B emette 12,7 box al secondo, circa 2,5 volte più rapido del competitor più vicino Rex-Omni e dieci volte più rapido di un modello text-coordinate standard come Qwen3-VL. Sui benchmark di rilevamento long-tail (LVIS) migliora il F1 medio di 3,8 punti rispetto a Rex-Omni. Il divario è massimo dove conta di più: con soglia di overlap stretta a 0,95 il punteggio è di 31,1 contro 20,7. Box stretti e precisi sono esattamente il punto dove lo spelling cifra-per-cifra era più debole. I dettagli completi sono nel paper tecnico Nvidia.

Il modello tiene anche su sei task diversi: rilevamento, GUI grounding, document layout, referring expression, OCR e pointing. Su scene dense come riprese drone raggiunge 39,9 F1 medio su VisDrone, 76,8 su DocLayNet, 70,1 su M6Doc. Nel pointing, dove deve indicare un singolo punto invece di disegnare un box, batte specialisti del pointing e modelli di dimensione molto maggiore: 83,9 su COCO, 87,6 sul benchmark denso, 91,0 su RefCOCOg.

Il dato più significativo arriva da ScreenSpot-Pro, benchmark difficile per il grounding di elementi su screen di software professionali. Qui LocateAnything-3B ottiene 60,3 e prende il primo posto, davanti a GUI-Owl da 32 miliardi e a una variante Qwen3-VL da 30 miliardi. Nel pointing batte OVIS2.5 da 9 miliardi, nel detection batte Qwen3-VL da 8 miliardi. Un modello da 3 miliardi che supera modelli quattro, cinque, dieci volte più grandi su task non banali.

Il dataset di addestramento è altrettanto significativo: 12 milioni di immagini, 138 milioni di query in linguaggio naturale, 785 milioni di box su sei domini (rilevamento ordinario, GUI, language grounding, OCR, document layout, pointing). Costruito con una pipeline di altri modelli che generano query, predicono punti, convertono punti in box e verificano il risultato. Sono stati aggiunti deliberatamente 22 milioni di campioni negativi: query per oggetti non presenti, perché un detector che non sa dire “no” è un detector che allucina.

Cosa significa per chi costruisce prodotti AI

La frontiera tecnica non passa più dalla scala. La rincorsa ai modelli da centinaia di miliardi di parametri ha senso per pochi player, ma il valore industriale lo creano modelli compatti, veloci ed economici da deployare. LocateAnything è la dimostrazione che una formulazione migliore vale più della pura scala: i modelli più grandi spendono parametri per essere bravi su un’abitudine sbagliata, mentre fissare l’abitudine permette di ridurre il modello a un terzo.

Il valore degli agenti che agiscono nel mondo digitale dipende da modelli come questo. Un agente che deve cliccare il pulsante giusto su un’interfaccia software, un robot che deve localizzare l’oggetto descritto a parole, un assistente che deve leggere documenti strutturati senza connessione: tutti hanno bisogno di vision-language compatti, rapidi e affidabili. LocateAnything-3B è già scaricabile da Hugging Face sotto la licenza NVIDIA, e la combinazione costo-prestazioni è sufficiente per progetti pilota seri.

La mossa di Nvidia in questa direzione non è casuale. La società sta costruendo l’ecosistema software che valorizza le proprie GPU, e modelli efficienti per scenari edge sono parte della strategia. Più i modelli diventano compatti e ottimizzabili, più i case d’uso si moltiplicano fuori dai data center, e più cresce il mercato dei chip Jetson, Drive e dei moduli embedded che Nvidia produce. La performance del 3B non è un esercizio accademico, è un investimento di posizionamento. Per il mercato è una buona notizia: la competizione tra fornitori di modelli si sta spostando verso la qualità della formulazione, non più solo verso la quantità di parametri.

#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
Davide Greco

Source link

Di

Perché un modello linguistico disegna box una cifra alla volta

L’idea: dire l’intero box in una sola volta

I numeri: più veloce e più accurato

Cosa significa per chi costruisce prodotti AI

Di

Articoli correlati

Visita al carro tra colori, fuochi d’artificio e percorsi obbligati

il racconto di Diego Cusumano

Chainlink e oltre 10 istituti di credito coreani si impegnano per eliminare i ritardi nel mercato dei cambi grazie al regolamento in tempo reale

You missed

Visita al carro tra colori, fuochi d’artificio e percorsi obbligati

il racconto di Diego Cusumano

Chainlink e oltre 10 istituti di credito coreani si impegnano per eliminare i ritardi nel mercato dei cambi grazie al regolamento in tempo reale

Ronaldo si iscrive al mondiale con una doppietta, il Portogallo batte l’Uzbekistan: 5-0

#Adessonews - #Finsubito - Adessonews - Finsubito