GPT Codex controlla il desktop e ora si gestisce da mobile


OpenAI ha esteso GPT Codex al controllo diretto del desktop Windows e ha aggiunto un livello di supervisione da mobile per seguire l’agente quando l’utente non è davanti alla macchina. La novità è documentata nelle pagine sviluppatori della società e segna un passaggio netto rispetto all’agente che si limitava a scrivere codice in una sandbox. L’agente ora apre finestre, clicca pulsanti, naviga interfacce grafiche, esegue comandi sul sistema operativo dell’utente.

La differenza con la generazione precedente è il passaggio dall’AI che risponde all’AI che agisce sul tuo sistema. Codex aveva già la capacità di scrivere codice e di eseguirlo in ambienti isolati, ma il computer dell’utente restava una scatola chiusa. Con il controllo del desktop su Windows, l’agente ottiene gli stessi diritti operativi di chi lo gestisce: leggere file, lanciare applicazioni, modificare configurazioni. La supervisione da smartphone trasforma poi l’agente in un processo che continua a girare mentre l’utente è in riunione, in viaggio, fuori ufficio.




Microsoft aveva già aperto la strada con i Copilot agentici in Windows 11 e nelle suite Microsoft 365, ma il taglio era di assistenza, non di automazione end-to-end. La mossa di OpenAI sposta il baricentro dal copilota all’esecutore, e lo fa proprio sul sistema operativo che storicamente è il più usato negli ambienti enterprise. Per chi sviluppa software o gestisce infrastrutture la distinzione conta: un assistente che suggerisce è un tool, un agente che esegue è una persona aggiuntiva nel team.

L’agente che vive sul computer cambia il perimetro di chi lavora.

L’agente come collega che non chiede permesso

Le implicazioni di sicurezza sono il punto su cui il rilascio si gioca la credibilità. Un agente che controlla il desktop ha accesso a credenziali memorizzate, sessioni aperte, file riservati, accessi VPN. Nei test già documentati emerge un problema ricorrente: il modello accetta istruzioni iniettate nei contenuti che processa, le cosiddette prompt injection, e può eseguire azioni che l’utente non ha autorizzato. OpenAI dichiara guardrail e meccanismi di approvazione esplicita per le azioni sensibili, ma il rischio di escape rispetto al perimetro autorizzato resta strutturale.

Anthropic ha lanciato una funzione analoga con Claude Computer Use ormai un anno fa, e i report indipendenti su agenti AI hanno mostrato che la supervisione umana non basta. L’operatore si abitua a risultati accettabili, smette di controllare, perde competenze. È il classico schema dell’offload cognitivo, già documentato negli ambienti industriali dove l’automazione precede l’AI di decenni. Il fatto che la supervisione passi da desktop a smartphone amplifica il problema: scorrere notifiche su un display da sei pollici è il contesto meno adatto per intercettare un errore di logica.

La supervisione da mobile è la vera scommessa di prodotto di questa release. OpenAI ha capito che lo sviluppatore non resta otto ore davanti al monitor a guardare l’agente lavorare. La promessa è quella di un agente che gira di notte sul codice, che apre pull request mentre l’umano dorme, che riceve approvazioni puntuali via app. È il modello che GitHub aveva tentato con Copilot Workspace ma senza il livello di autonomia che Codex pretende di portare.

Lo sviluppatore non guarda più l’agente lavorare, lo verifica a campione.

Cosa cambia per chi paga il modello

Il pricing della funzionalità non è ancora pubblico per il tier enterprise, ma le indicazioni iniziali parlano di un costo a token aggravato dal consumo di immagini per il visual grounding del desktop. Un agente che controlla un’interfaccia grafica deve fare screenshot del desktop, analizzarli, decidere il prossimo click, ripetere. Il costo computazionale è significativamente più alto rispetto al solo testo, e si traduce in fatture che possono andare fuori controllo se i workflow non sono progettati con disciplina. Chi ha già fatto pilot con Codex su workflow lunghi sa che la spesa scala in modo non lineare con la complessità del task.

I responsabili IT che valutano l’adozione devono fare il conto con tre variabili: il costo a token, l’allocazione di chi controlla l’agente in produzione, il rischio di azioni non autorizzate sul desktop dei dipendenti. La prima è prevedibile e si gestisce con quota. La seconda richiede ridisegno organizzativo: serve una figura che riceva le notifiche dell’agente e approvi azioni sensibili in tempo reale, e quella figura non può anche fare il proprio lavoro normale. La terza è la più delicata e copre il perimetro della shadow AI in azienda, già fonte di mal di testa per i CIO.

OpenAI gioca su un fronte che Anthropic ha aperto e che Google sta inseguendo con Gemini agentic. La differenza non è più la qualità del modello sottostante, ma la profondità di integrazione con il sistema operativo dell’utente finale. Chi vince la guerra del desktop vince il punto di accesso più prezioso al lavoro quotidiano. Microsoft, che possiede Windows e ha investito in OpenAI, è il vero arbitro di questo passaggio: l’integrazione di Codex su Windows non avviene per caso, e l’allineamento commerciale tra Redmond e San Francisco resta il fattore strategico da osservare.

Chi controlla l’integrazione con il sistema operativo controlla il lavoro futuro.

Il rischio che gli enterprise sottovalutano

C’è un fronte che le slide di lancio non toccano e che invece pesa sulle aziende che decideranno di adottare. Un agente che opera sul desktop Windows interagisce con applicazioni che non sono state pensate per essere guidate da un’AI. Il modello legge le interfacce grafiche, deduce la funzione dei pulsanti, sceglie il prossimo passo. Quando l’applicazione è SAP, Oracle ERP o un gestionale custom, il modello può sbagliare in modi che non sono facili da prevedere. Una cella sbagliata in una transazione finanziaria può costare più di un mese di licenze, e la responsabilità legale di chi paga lo stipendio dell’agente non è definita.

Il quadro normativo europeo non aiuta. L’AI Act distingue tra sistemi ad alto rischio e sistemi a rischio limitato, ma la categoria dell’agente che controlla il desktop di un dipendente non è ancora chiarita dalla giurisprudenza. Chi adotta Codex su scala deve documentare i workflow, le approvazioni, gli accessi, le anomalie. Senza un audit trail rigoroso, in caso di incidente la posizione dell’azienda diventa indifendibile. Le aziende che hanno già messo in piedi un framework di governance dell’AI in linea con l’AI Act partono avvantaggiate, le altre stanno per scoprire quanto costa la rincorsa.

Chi ha appena firmato un piano triennale con un fornitore di automazione RPA deve ricalcolare il TCO. L’RPA è una tecnologia matura, deterministica, prevedibile, ma è anche fragile rispetto ai cambi di interfaccia delle applicazioni gestite. Codex con desktop control offre la promessa di un agente che si adatta, ma scarica sull’utente il costo della verifica continua. La scelta non è binaria, e la vera domanda è quale dei due paradigmi sopravvive nei prossimi diciotto mesi. Chi può aspettare aspetti, chi deve decidere oggi tenga RPA per i workflow stabili e Codex per quelli sperimentali, isolando i due perimetri con accessi distinti e budget separati.

C’è infine la questione della formazione. Uno sviluppatore che lavora con un agente che controlla il desktop sviluppa abitudini diverse da uno che lavora solo con autocomplete. Le competenze richieste si spostano dal saper scrivere codice al saper definire bene il task, supervisionare l’esecuzione, intercettare gli errori. È un cambio di mestiere, e le aziende che non investono in training su questo specifico fronte si troveranno con team che usano lo strumento male, sprecando licenze e introducendo rischio.


#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
 Marco Ferretti

Source link

Di