Una foto in metropolitana, il profilo Instagram e 412mila volti: il riconoscimento facciale fatto in casa è qui


Una foto scattata per strada, mezzo minuto di calcolo, e un volto qualsiasi viene ricondotto al profilo Instagram di chi lo porta. La pipeline esiste, gira su un laptop, e usa solo immagini scaricate da profili pubblici. Un singolo ricercatore ha raccolto in una notte 412.741 volti, li ha trasformati in vettori numerici e ha costruito un motore di ricerca facciale dimostrabilmente funzionante. La domanda non è più “esiste questa tecnologia”, è quante persone l’hanno già montata senza dirlo.

412.741voltiscaricati in una notte

512numeridimensione embedding

30mld fotodatabase Clearview

20mln euromulta Garante 2022

0,75soglia cosenomatch chirurgico

Per chi gestisce dati personali in azienda, la dimostrazione segna un confine pratico. Il riconoscimento facciale di massa non richiede più Clearview AI, Palantir o un budget enterprise: basta accesso a profili social pubblici, un modello open source come Facenet512 e qualche ora di scripting. Il perimetro di rischio per identità, reputazione e protezione delle persone, dipendenti, clienti, testimoni, ricoverati, si è spostato in modo silenzioso, e la maggior parte delle policy interne è ferma a una mappa del territorio che non esiste più.

Tesi

Il riconoscimento facciale di massa non è più una capacità da budget enterprise. Un laptop, un modello open source e un weekend bastano a costruire un motore di ricerca facciale dimostrabilmente funzionante su mezzo milione di volti. La differenza fra “esiste questa tecnologia” e “qualcuno la sta usando senza dirlo” è collassata.

Il copyright tutela la foto. Il vettore numerico che la rappresenta resta in una zona grigia.

L’embedding biometrico, in 512 numeri

La tecnica che rende possibile tutto questo è del 2015, paper Google: FaceNet. Una rete neurale impara a trasformare l’immagine di un volto in un vettore di numeri (128, 256 o 512 a seconda della variante) con una regola sola: due foto della stessa persona devono finire vicine nello spazio dei vettori, due foto di persone diverse devono finire lontane. Niente regole esplicite su nasi, distanze fra gli occhi, geometrie del cranio: la rete impara da sola cosa rende un volto quel volto. L’addestramento usa la triplet loss, una funzione di perdita che lavora su terzine ancora-positivo-negativo.

Triplet loss (FaceNet, 2015)L = max(0, ‖f(a) − f(p)‖² − ‖f(a) − f(n)‖² + α)

Il risultato è radicalmente diverso dagli hash percettivi tipo pHash usati per cercare immagini duplicate. L’embedding sopravvive a luce, posa, taglio di capelli, qualche anno in più, occhiali e mascherine. Non confronta pixel, confronta identità: due foto della stessa persona a tre anni di distanza producono vettori che restano vicini, mentre due foto identiche al pixel di persone diverse producono vettori distanti. È la differenza fra “è lo stesso file” e “è la stessa persona”.

Similarità del cosenocos(θ) = (u · v) / (‖u‖ · ‖v‖)

La distanza fra due vettori si misura col coseno dell’angolo. Sopra 0,75 il sistema è chirurgico, un solo profilo, nessuna ambiguità. Fra 0,60 e 0,75 entrano i sosia casuali e i falsi positivi. Non esiste una soglia “giusta”: esiste solo dove decidi di sbagliare. Clearview taglia in un punto, lo sblocco facciale del telefono in un altro, la videosorveglianza biometrica delle questure in un altro ancora. La stessa curva ROC, decisioni operative diverse.

Cercare un volto fra mezzo milione, in millisecondi

Avere il vettore non basta. Dato un volto nuovo, va cercato in un archivio di centinaia di migliaia di vettori in tempo utile. Il trucco si chiama HNSW (Hierarchical Navigable Small World), un grafo navigabile a più livelli: invece di confrontare il vettore di probe con tutti i 412.741 candidati, si cammina nel grafo verso vicini sempre più simili e si arriva ai più prossimi visitandone una manciata. Pochi millisecondi per ricerca, anche con scaling sostanziale del database.

Soglia coseno Match trovati Profili distinti Lettura
≥ 0,85 2 1 certezza assoluta, è lei
≥ 0,75 15 1 sempre e solo il suo profilo
≥ 0,60 50 3 48 lei + 2 sosia casuali
≥ 0,50 200+ 20+ rumore, soglia inutile

Il test descritto nel pezzo originale dà numeri concreti. Dal vettore al profilo Instagram, dal profilo al nome, dal nome alla mappa dei luoghi taggati. La trilaterazione di residenza e abitudini che le indagini OSINT facevano in giorni di lavoro diventa l’output di mezzo minuto di calcolo.

Sopra 0,75 il sistema non sbaglia profilo. È abbastanza buono per essere un problema.

Costo di una pipeline di riconoscimento facciale

Dollari per identificare un volto in un database aperto, ordine di grandezza

La curva di accessibilità è collassata: la barriera economica è di fatto sparita.

La parte più scivolosa è giuridica. Le condizioni di Instagram e il diritto d’autore proteggono l’immagine, non puoi scaricarla, ripubblicarla, rivenderla. Ma chi costruisce un sistema così non conserva le foto: cancella l’immagine e tiene 512 numeri estratti. Il copyright protegge l’opera, non la misura derivata. È un buco che la difesa di Clearview ha cavalcato per anni: “noi non conserviamo le foto, conserviamo embedding”.

In Europa quella difesa non regge, almeno sulla carta. Il vettore biometrico calcolato per identificare una persona è dato biometrico ai sensi dell’articolo 9 GDPR, categoria particolare di dati personali. Trattamento vietato salvo basi giuridiche strettissime, consenso esplicito in testa. Il Garante italiano ha multato Clearview AI per 20 milioni di euro nel 2022, lo stesso ha fatto il Garante francese, quello greco, l’olandese. Tutti sul medesimo articolo. La posizione di chi costruisce database biometrici resta schizofrenica: grigia dal lato copyright, nera dal lato privacy, e i due rami del diritto dicono il contrario sullo stesso identico file di numeri.

Mito vs realtà — quattro frasi che non reggono

  • “Cancello l’account” non serve: gli embedding già estratti restano nel database.
  • “Le foto sono coperte da copyright” sì, ma il vettore numerico derivato resta in zona grigia.
  • “Serve Clearview o Palantir” falso: Facenet512 è open source e gira su un laptop.
  • “Il GDPR ferma tutto” nominalmente sì, in pratica chi scrappa non chiede consenso.

Per le imprese il problema si traduce in domande operative concrete sui propri sistemi. Una videocamera di sicurezza che estrae embedding facciali per riconoscere dipendenti e visitatori abituali è un trattamento ex articolo 9, anche se le foto non vengono conservate. Una piattaforma HR che misura “attenzione” o “engagement” in videoconferenza con vision model è probabilmente nello stesso quadrante. L’AI Act aggiunge un livello: i sistemi di identificazione biometrica remota in tempo reale negli spazi pubblici sono classificati come “rischio inaccettabile” salvo eccezioni strettissime. Quasi tutto il resto del riconoscimento facciale finisce in “alto rischio”, con obblighi documentali pesanti.

Come si riduce la superficie d’attacco

Non c’è un bottone che cancella la propria faccia dai vettori già estratti. Una volta entrato in un database biometrico, è difficile uscirne, Clearview AI ha dichiarato di superare i 30 miliardi di immagini scrappate. Ma la superficie d’attacco si riduce, e alcune contromisure funzionano davvero.

Il profilo Instagram chiuso è la mossa che pesa di più: lo scraping di massa colpisce l’aperto, e un account privato non finisce nei dataset costruiti raschiando profili pubblici. Foto di gruppo, scatti di tre quarti, lontani, danno vettori più rumorosi e match più deboli. Gli strumenti di perturbazione avversaria come Fawkes dell’Università di Chicago alterano la foto in modo invisibile all’occhio ma sufficiente a spostare l’embedding, almeno contro i modelli su cui sono stati testati: non sono infallibili e invecchiano col migliorare delle reti, ma alzano il costo per chi attacca.

Cosa non fa questa analisi

  • Non valuta accuratezza inter-soggetti tra etnie e generi (problema noto e documentato).
  • Non simula attacchi attivi su volti di persone specifiche.
  • Non considera contromisure aggressive tipo Glaze o Nightshade per immagini, ancora in fase sperimentale sui volti.

La foto la proteggono in tanti modi. Il numero che ne esce, no.

Sul fronte aziendale la lista di domande utili è più corta di quanto si pensi. Quali sistemi nostri estraggono embedding biometrici, anche solo come effetto collaterale di funzioni di analytics, sicurezza, controllo accessi, HR analytics? Per ciascuno, quale base giuridica copre il trattamento? Quale fornitore lo gestisce e dove vengono salvati i vettori? In assenza di risposte verificabili, il rischio sanzionatorio è già lì. Il Garante italiano sanziona da anni questa categoria, l’AI Act aggiunge un livello, e il fatto che la pipeline tecnica si possa montare in un weekend significa che il numero di soggetti privati che la stanno usando senza dirlo è probabilmente molto più alto del numero di quelli che hanno presentato una DPIA.

La parte da non perdere di vista è l’asimmetria di durata. Una foto pubblicata su Instagram dura il tempo di uno scroll. L’embedding estratto da quella foto può durare per sempre, in un database di cui chi è stato fotografato non saprà mai l’esistenza. Per essere un problema, il sistema non deve essere infallibile: deve solo essere abbastanza buono. E lo è già.

L’autore

Andrea Amani

Security Engineer · Signal Pirate

Security engineer. Sul suo laboratorio Signal Pirate smonta algoritmi, protocolli e sistemi e ne pubblica l’analisi tecnica con dati reali e codice riproducibile. Studia come funzionano le cose, dalla sicurezza offensiva agli agenti AI, e scrive quello che trova.


#Adessonews seleziona nella rete articoli di particolare interesse.
Se vuoi leggere l’articolo completo clicca sul seguente link
 Andrea Amani

Source link

Di