Tracciare corpi, fabbricare consenso: la computer vision urbana e la sua doppia destinazione

Calogero (Kàlos) Bonasia

Vengo da una formazione militare nelle telecomunicazioni, e ho passato alcuni anni a comandare un centro dove il problema quotidiano era distinguere il segnale dal rumore. Scrivo di questo, di come gli strumenti decidono cosa si riesce a vedere e cosa resta in ombra, perché è il terreno che conosco. Resto lontano da ogni materia coperta da riservatezza, e mi muovo dentro i limiti della competenza tecnica che ho acquisito sul campo. Il punto di osservazione che propongo è quello di colui che ha visto da vicino l'architettura interna dei sistemi, prima ancora del loro effetto sociale.

Nell'estate del 2025 una studentessa di architettura del Carnegie Mellon University monta una telecamera fissa sulla terrazza del Barbican Estate di Londra. Registra un time-lapse, applica YOLOv11, un algoritmo di rilevamento e tracciamento di oggetti in movimento, e proietta le posizioni risultanti su una planimetria CAD del sito. Il risultato è una mappa di traiettorie anonime: dove le persone entrano, dove rallentano, dove sostano. Il fine dichiarato è capire come uno spazio interstiziale di un complesso residenziale postbellico viene vissuto quotidianamente. La ricerca è onesta, la metodologia trasparente, la studiosa cita le sue fonti.

Nello stesso periodo il Pentagono finanzia il programma Replicator, gestito dalla Defense Innovation Unit, con l'obiettivo di dispiegare migliaia di droni autonomi a basso costo equipaggiati con sistemi di computer vision per il rilevamento e il tracciamento di bersagli in tempo reale. Il Congressional Research Service quantifica la prima tranche del programma in circa 500 milioni di dollari per l'anno fiscale 2024 (Congressional Research Service, 2026).

La distanza tecnica tra questi due temi è inferiore a quanto possa apparire. La comprensione delle ragioni di tale distanza è una questione di metodologia, la quale si fonda su un termine spesso frainteso.

Il concetto di «dual use» nasce nel controllo delle esportazioni nucleari e biologiche. Descrive una tecnologia progettata per un uso primario civile che viene deviata verso applicazioni militari: l'arricchimento dell'uranio per le centrali, per esempio, produce materiale che si presta alla fabbricazione di armi. Il modello presuppone una biforcazione, una direzione originaria legittima e una deviazione successiva.

Nell’ambito della computer vision urbana, tale schema si rivela inadeguato. La computer vision trova le sue origini storiche nella sorveglianza aerea militare e nelle pratiche di polizia, dove si è sviluppata per l’identificazione di bersagli e la raccolta di intelligence in contesti di guerra e controllo del territorio. James E. Dobson ha ricostruito con precisione questa genealogia: le reti neurali e i metodi di analisi delle immagini più avanzati attualmente disponibili discendono dalla cultura della Guerra Fredda degli anni Cinquanta e Sessanta, e incorporano i pregiudizi e le categorie cognitive di quell’epoca negli strati profondi degli algoritmi (Dobson, 2023). La pianificazione urbana è emersa successivamente, come applicazione secondaria di un’architettura tecnica già orientata all’osservazione, classificazione e inseguimento del corpo umano.

Infrastruttura ambivalente: tecnologia senza uso primario pulito, con tensione irrisolta tra governance civile e controllo. Nessuna deviazione. Continuum dall’analisi dei flussi pedonali alla generazione automatica di liste di bersagli. Passaggio tra gli estremi con aggiunta di strati tecnici, senza modificare la logica originaria.

Nel giugno 2025 la rivista Nature pubblica uno studio di Kalluri, Agnew, Cheng e colleghi (volume 643, pp. 73-79) che analizza il percorso dalla ricerca accademica in computer vision ai brevetti derivati con applicazioni di sorveglianza. Il corpus comprende oltre 19.000 articoli presentati alla Conference on Computer Vision and Pattern Recognition (CVPR) dal 1990 al 2021, collegati a oltre 23.000 brevetti.

I risultati sono netti. Il 90% degli articoli e l'86% dei brevetti estratti dal corpus riguardano dati relativi a esseri umani. Il 71% degli articoli e il 65% dei brevetti estraggono esplicitamente dati sul corpo umano e sulle sue parti. Dal confronto tra gli anni Novanta e gli anni Duemiladieci emerge un aumento di cinque volte nel numero di articoli di computer vision collegati a brevetti con applicazioni di sorveglianza. La norma non descrive poche entità marginali: riguarda il 71% delle istituzioni presenti nel corpus e il 78% delle nazioni (Kalluri et al., 2025).

Lo studio evidenzia altresì un meccanismo linguistico sistematico, denominato «linguaggio oscurante», in cui articoli e brevetti tendono a riferirsi agli esseri umani come «oggetti», annullando la specificità etica del soggetto inseguito. Un sistema che rileva e traccia «oggetti in movimento» all’interno del video di una piazza non specifica mai che tali oggetti siano persone; li tratta come istanze di una categoria tecnica, applicando lo stesso schema concettuale che utilizzerebbe per veicoli, animali o container in un magazzino. Tale operazione non rappresenta un’imperfezione stilistica, bensì una scelta progettuale, che consente alla medesima architettura tecnica di essere trasferita da un contesto all’altro senza interruzioni.

Lo studio condotto su Piazza del Duomo a Milano, realizzato da ricercatori dell’Università degli Studi di Milano-Bicocca e presentato nel 2023 dalla Transform Transport Foundation nell’ambito della 11th International Conference on Pedestrian and Evacuation Dynamics, evidenzia in modo significativo la continuità di tale ricerca.

La metodologia adottata prevede l’applicazione dell’algoritmo YOLOv7 per il rilevamento e di SORT per il tracciamento su video di sorveglianza della piazza, acquisiti in cinque fasce orarie distribuite nell’arco di una giornata di luglio 2021.

L’analisi dei dati georeferenziati consente di distinguere tra pedoni pendolari e turisti, di identificare gruppi di due o tre individui, e di calcolare densità, velocità e tassi di flusso per specifici settori della piazza.

L’obiettivo primario di tale studio è quello di supportare la pianificazione urbana e la valutazione degli interventi di rigenerazione degli spazi pubblici (Lorgna et al., 2023).

L’architettura tecnica sottostante ai sistemi di sorveglianza di massa, pur presentando variazioni di scala e l’integrazione di un livello di riconoscimento biometrico, rimane sostanzialmente invariata.

A partire dal 2016, lo Stato cinese ha implementato nello Xinjiang la piattaforma Integrated Joint Operations Platform (IJOP), che consolida dati provenienti da telecamere CCTV dotate di riconoscimento facciale, posti di controllo, dispositivi di rilevamento dei segnali wifi e sistemi di gestione degli accessi, consentendo la sorveglianza continua della popolazione uigura e turcofona.

Human Rights Watch ha decodificato l’applicazione mobile associata alla piattaforma, documentando la segnalazione alle autorità di comportamenti privi di alcun collegamento con attività terroristiche, quali l’uscita dalla porta posteriore o la conservazione del Corano sul dispositivo mobile (Human Rights Watch, 2019).

Il passaggio da una mappa anonima, come quella di piazza del Duomo, a un sistema di questo tipo non richiede la progettazione di una nuova architettura, bensì l’implementazione di un livello aggiuntivo e l’istituzione di una catena di autorizzazioni politiche.

Lo stesso schema attraversa contesti diversi. In Cisgiordania il sistema militare israeliano Blue Wolf assegna ai palestinesi un punteggio di sicurezza collegato a fotografie, storia familiare e istruzione: quando un soldato inquadra un volto con l'applicazione, lo schermo restituisce un colore, verde, giallo o rosso, che indica se la persona va lasciata passare o fermata (Human Rights Watch, 2021). La materia prima è sempre la stessa, il corpo umano rilevato, georeferenziato e classificato.

L’evoluzione dalla sorveglianza nominativa al targeting letale è documentata in due teatri operativi. In Ucraina, droni autonomi dotati di sistemi di computer vision vengono impiegati in operazioni letali con un margine di controllo umano sulla singola decisione sempre più ridotto. A Gaza, il sistema denominato Lavender utilizza algoritmi di intelligenza artificiale per generare automaticamente liste di bersagli, le quali sono sottoposte a un’approvazione umana di durata limitata, pari a pochi secondi per individuo (Abraham, 2024).

La catena descritta non è ipotetica, bensì operativa. La questione non concerne le intenzioni dei ricercatori nel campo della mobilità pedonale. Lo studio pubblicato su Nature è chiaro in merito: i risultati non formulano giudizi sulle motivazioni individuali. L’attenzione è rivolta all’assenza di governance negli strati intermedi della catena tecnica, in particolare nei livelli in cui la sorveglianza anonima si trasforma in sorveglianza nominativa, e quest’ultima in targeting. Tre transizioni fondamentali caratterizzano questi livelli.

La prima transizione comporta il passaggio dal corpo anonimo al corpo identificato. La computer vision civile rileva e traccia sagome prive di identità. Il sistema implementato in Piazza del Duomo assegna a ciascuna traiettoria un identificativo numerico temporaneo, che viene cancellato al termine della sessione. L’integrazione del riconoscimento facciale, o del gait recognition, tecnica che consente l’identificazione di un individuo attraverso l’analisi della sua andatura anche quando il volto non è visibile, converte il dato anonimo in dato nominativo. Questa transizione è tecnicamente semplice e non altera l’architettura di base del sistema.

La seconda porta dal dato effimero al dato persistente e aggregato. I sistemi civili, almeno nelle configurazioni descritte in letteratura, non conservano i dati a lungo termine. I sistemi di sorveglianza di massa aggregano i dati di sessioni multiple, li collegano a banche dati esistenti e li mantengono nel tempo. Il filosofo Byung-Chul Han ha descritto la condizione che ne deriva come un panottico digitale che non tortura, ma seduce, e che mappa la psiche e la quantifica attraverso i big data (Han, 2016). L'infrastruttura che rende possibile questa condizione si costruisce un dataset alla volta, una telecamera alla volta, un algoritmo alla volta.

La terza porta dal dato di sorveglianza al dato di targeting. Qui la catena tecnica incontra una catena decisionale politica e militare, con propri attori, propri vincoli giuridici e proprie responsabilità penali. La materia prima, attraverso tutti e tre i passaggi, resta il medesimo corpo umano tracciato e classificato.

Il Regolamento Europeo sull’Intelligenza Artificiale (AI Act, 2024) classifica i sistemi di identificazione biometrica negli spazi pubblici come categoria ad alto rischio e ne limita significativamente l’utilizzo da parte delle autorità pubbliche.

Tale normativa riveste un’importanza cruciale. Tuttavia, essa non affronta la fase precedente: la produzione accademica e industriale degli strumenti che consentono l’identificazione, che si manifesta sotto forma di ricerca sulla mobilità urbana, sull’ottimizzazione degli spazi pubblici e sulla sicurezza stradale.

Il meccanismo oscurante documentato da Kalluri e colleghi non si esaurisce in una questione lessicale. Costruisce le condizioni per un consenso sociale mal informato. Quando una ricerca descrive il proprio oggetto come «tracciamento di oggetti in movimento in uno spazio pubblico», la comunità scientifica, i comitati etici delle università, i finanziatori pubblici e i cittadini che leggono le comunicazioni di divulgazione ricevono un'informazione strutturalmente incompleta sulla natura di ciò che viene sviluppato.

La questione centrale risiede nella normalizzazione di una convenzione disciplinare che prevede il trattamento degli esseri umani come esempi di una classe tecnica, con conseguenti implicazioni politiche tangibili. Considerando che la percentuale di articoli di computer vision più influenti a livello globale che analizzano dati umani si colloca tra l’85% e il 90%, e che la maggior parte di tali articoli evita esplicitamente di riconoscere gli esseri umani come oggetto di studio, il campo disciplinare genera consenso attorno a una pratica il cui impatto sociale non viene adeguatamente dibattuto.

Questo rappresenta il punto cruciale. La computer vision urbana si presenta come neutrale, e tale presentazione costituisce una forma attiva di governance del sapere, che ostacola la valutazione collettiva dei rischi.

L’obiettivo è riconoscere che la computer vision applicata agli spazi pubblici è una tecnologia con origini militari e potenziali applicazioni che includono la sorveglianza di massa e il targeting letale. Questa genealogia deve essere esplicitamente nominata, discussa e governata a ogni livello della catena produttiva. Nell'ambito della produzione scientifica, le pubblicazioni accademiche dovrebbero chiaramente identificare gli esseri umani come oggetto di studio quando lo sono, assumendosi le relative implicazioni etiche.

Per quanto riguarda la circolazione dei dati, i dataset annotati sugli spazi pubblici richiedono regole di accesso e d’uso verificabili da entità terze.

Infine, riguardo al finanziamento, gli enti erogatori di fondi pubblici per la ricerca hanno la responsabilità di identificare in modo trasparente le applicazioni prevedibili degli strumenti che sponsorizzano.

Le tre misure convergono su un’esigenza fondamentale: che la comunità scientifica sottoponga a rigorosa analisi la convenzione della neutralità tecnica. La tesi della neutralità, nella sua formulazione più robusta, afferma che un artefatto sia inerte rispetto ai fini, e che la responsabilità morale ricada esclusivamente su chi lo utilizza. Langdon Winner ha evidenziato i limiti di questa posizione già nel 1980: gli artefatti incorporano scelte politiche nella propria struttura intrinseca, e alcune configurazioni tecniche risultano compatibili unicamente con specifici assetti di potere.

La computer vision conferma l’analisi di Winner. La sua architettura nasce orientata al riconoscimento del corpo umano come bersaglio, e tale orientamento precede qualsiasi impiego specifico, sia civile che militare. Una telecamera che assegna identificativi persistenti a sagome in movimento ha già operato una scelta progettuale, ancor prima che un decisore stabilisca a quale scopo quegli identificativi debbano essere utilizzati.

La conseguenza di questa analisi investe la posizione del ricercatore. La studentessa del Barbican non costruisce un sistema di sorveglianza, eppure utilizza gli stessi strumenti, la stessa architettura concettuale e gli stessi algoritmi di chi lo costruisce.

Ciò che distingue i due estremi della catena attiene alle decisioni istituzionali, alle autorizzazioni politiche e ai vincoli giuridici che disciplinano l’impiego, mentre il fondamento tecnico resta condiviso. Una governance efficace agisce su questo divario, e per poterlo fare deve prima nominarlo con precisione. Riconoscere la genealogia degli strumenti, e le scelte iscritte nella loro architettura, costituisce la condizione preliminare di qualunque controllo democratico sulla tecnologia.

Riferimenti

Abraham, Y. (2024, 3 aprile). «Lavender»: the AI machine directing Israel's bombing spree in Gaza. +972 Magazine. https://www.972mag.com/lavender-ai-israeli-army-gaza/

Congressional Research Service (2026). DOD Replicator Initiative: Background and Issues for Congress (IF12611). https://www.congress.gov/crs-product/IF12611

Dobson, J. E. (2023). The Birth of Computer Vision. University of Minnesota Press. ISBN 978-1-5179-1421-9

Han, B.-C. (2016). Psicopolitica. Il neoliberalismo e le nuove tecniche del potere (trad. it. di F. Buongiorno). nottetempo. ISBN 978-88-7452-612-3 (ed. originale Psychopolitik, 2013)

Human Rights Watch (2019, 1 maggio). China's Algorithms of Repression: Reverse Engineering a Xinjiang Police Mass Surveillance App. https://www.hrw.org/report/2019/05/01/chinas-algorithms-repression/reverse-engineering-xinjiang-police-mass

Human Rights Watch (2021, 24 novembre). Mass surveillance fuels oppression of Uyghurs and Palestinians. https://www.hrw.org/news/2021/11/24/mass-surveillance-fuels-oppression-uyghurs-and-palestinians

Kalluri, P. R., Agnew, W., Cheng, M., Owens, K., Soldaini, L., & Birhane, A. (2025). Computer-vision research powers surveillance technology. Nature, 643(8070), 73-79. https://doi.org/10.1038/s41586-025-08972-6

Lorgna, L., Ceccarelli, G., Gorrini, A., & Ciavotta, M. (2023). Video analytics for understanding pedestrian mobility patterns in public spaces: the case of Milan. In Proceedings of the 11th International Conference on Pedestrian and Evacuation Dynamics (PED2023), 28-30 giugno 2023, Eindhoven. https://doi.org/10.17815/CD.2024.172

Wong, V. W. H., & Law, K. H. (2023). Fusion of CCTV video and spatial information for automated crowd congestion monitoring in public urban spaces. Algorithms, 16(3), 154. https://doi.org/10.3390/a16030154

StultiferaBiblio

Byung-Chul Han (Traduzione di Federica Buongiorno), Psicopolitica - Nuova edizione Il neoliberismo e le nuove tecniche del potere 2024,

Pubblicato il 07 giugno 2026

Calogero (Kàlos) Bonasia / etiam capillus unus habet umbram suam

https://www.calogerobonasia.it/informazioni/