Perché il tuo cervello ha bisogno di uno stacco?

Davide Mancino

Montaggio e grammatica del senso

Perché esiste il montaggio? La necessità tecnica prima dell'arte

Prima di diventare un linguaggio, una grammatica, un'arte, il montaggio è nato per una ragione prosaicamente tecnica: la pellicola era corta.

Agli albori del cinema, le bobine di pellicola consentivano riprese di durata molto limitata — inizialmente circa un minuto o poco più. Ogni inquadratura durava finché c'era pellicola, e costituiva tutto il film. I fratelli Lumière e i pionieri del cinematografo realizzavano "vedute" di una sola inquadratura: l'arrivo di un treno, l'uscita degli operai dalla fabbrica, una famiglia che fa colazione. Erano "fotografie in movimento", non storie.

Per realizzare film più lunghi — quelli che oggi chiameremmo medi o lungometraggi — i cineasti furono costretti a una soluzione pratica: attaccare fisicamente più pezzi di pellicola girati in momenti diversi. Incollare uno spezzone dopo l'altro. Il montaggio, nella sua origine, è stato questo: un gesto artigianale, una necessità dettata dai limiti del mezzo.

Poi accadde qualcosa di imprevisto. Un giorno del 1896, Georges Méliès stava filmando alcune carrozze su una strada parigina quando la manovella della sua macchina da presa si inceppò. Riparato il guasto, continuò a girare. Quando sviluppò la pellicola, scoprì che una carrozza era stata improvvisamente sostituita da un carro funebre. Un incidente tecnico aveva prodotto un effetto magico: la sostituzione di un oggetto con un altro. Méliès comprese che tagliando e incollando spezzoni di riprese diverse si potevano creare effetti speciali, apparizioni, sparizioni. Il montaggio da necessità diventava possibilità espressiva.

Poi vennero Porter, Griffith e, soprattutto, la scuola sovietica. E il resto è la storia che stiamo per raccontare.

Il significato non nasce dalle singole immagini o parole. Nasce dalla relazione tra loro. Questa stessa intuizione attraversa genealogie diverse, ognuna con il suo mestiere: Kulešov la mostrò in sala di montaggio (stesso volto, senso nuovo); Ejzenštejn la portò alla collisione dialettica tra fotogrammi; Vertov la legò all'occhio-macchina e al piano del reale; la neuroscienza spiegò perché il cervello «monta» anche senza pellicola; Pasolini e Metz ne indagarono la grammatica linguistica — im-segno, cinèmi, sintagma e paradigma; Bazin ne esaminò l'ontologia — il ça a été, l'immagine come impronta del reale, e la crisi di quella certezza nell'era generativa. È il fondamento della semionautica. In questo articolo ne seguiamo la traccia attraverso la scuola sovietica del montaggio, la neurobiologia del taglio, la linguistica dell'immagine e la semiotica del segno visivo.

Kulešov: il significato come relazione

Lev Kulešov (1899-1970), regista e teorico sovietico, fondatore del primo laboratorio di montaggio a Mosca, lo dimostrò con precisione scientifica. Prese lo stesso primo piano di un attore — lo stesso volto, la stessa espressione — e lo accostò a tre immagini diverse: un piatto di zuppa, una bara, una bambina. Di fronte al volto accostato alla zuppa, gli spettatori parlavano di fame; accostato alla bara, di dolore; accostato alla bambina, di tenerezza. L'attore non cambiava. Cambiava la rotta di chi decideva cosa mettere dopo cosa.

Ma Kulešov non si fermò qui. In un altro esperimento meno citato ma altrettanto rivelatore, montò insieme primi piani di quattro donne diverse. Gli spettatori credevano si trattasse di un'unica attrice. Era la dimostrazione pratica di ciò che chiamò geografia creativa (o, in questo caso, anatomia creativa): spazi inesistenti creati dal montaggio, personaggi costruiti accostando frammenti di volti e corpi diversi. Kulešov arrivò persino a "sintetizzare" una donna inesistente a partire da primi piani di diverse parti del corpo di donne reali — un Dr. Frankenstein del celluloide che cuciva insieme un ideale di perfezione che non esisteva in natura.

Questo esperimento della "donna ideale" è oggi la metafora perfetta per capire cosa fanno i modelli generativi. Quando chiediamo a Midjourney, DALL·E o Sora di creare "un volto femminile", il modello non pesca da una fotografia esistente. Attinge a uno spazio latente dove milioni di volti sono stati scomposti e riassemblati statisticamente. Il risultato è una donna che non è mai esistita, ma che sembra più vera del vero proprio perché è la media (o la collisione) di tutte le donne che il modello ha visto. L'AI non crea dal nulla: monta. E lo fa esattamente come Kulešov nella sua sala di montaggio un secolo fa — accostando frammenti per generare un senso che nessun frammento conteneva da solo.

Implicazioni per l'AI (senza ripetere l'esperimento). Il prompt non è un'istruzione al vuoto: è un'istruzione a uno spazio latente che ha già una storia; ogni parola riattiva vicinanze statistiche nel modello. La continuità generativa e la «geografia» sintetica obbediscono alla stessa grammatica della relazione — quella che Kulešov aveva reso visibile con forbici e pellicola.

Ejzenštejn: la collisione e il terzo senso

Se Kulešov dimostrò che il significato nasce dalla relazione, Sergej Ejzenštejn portò questa intuizione alle estreme conseguenze. Per Ejzenštejn la relazione non era un accostamento pacifico, ma una collisione. Due frammenti che si scontrano generano un terzo significato che non appartiene a nessuno dei due: tesi, antitesi, sintesi — ma la sintesi non è conciliazione, è esplosione.

In Sciopero (1925) accosta immagini di operai uccisi dalla polizia e immagini di un bue sgozzato al mattatoio. L'accostamento produce: gli operai sono trattati come bestie da macello. Non una giustapposizione, ma una collisione.

Il montaggio intellettuale — l'idea che il cinema possa produrre concetti astratti con le immagini — trova il suo esempio più celebre in Ottobre (1928): statue di divinità seguite dall'immagine di un pavone meccanico che apre la coda. L'accostamento produce un'idea: la religione è bella ma vuota, meccanica, artificiosa.

I prompt più potenti non sono quelli che descrivono una singola immagine, ma quelli che mettono in tensione elementi apparentemente inconciliabili. "Un mercante rinascimentale che usa uno smartphone" crea un conflitto temporale che il modello deve risolvere. La collisione è alta intensità su bassa estensione; il flusso generativo medio è l'opposto — bassa intensità, nessun attrito. Il montaggio dialettico resiste alla gravità della media statistica.

Per spiegare perché la collisione produce un terzo senso che non appartiene a nessuno dei due elementi, Ejzenštejn cercò un modello fuori dall'Europa. Lo trovò nella scrittura cinese e giapponese.

Nel saggio The Cinematographic Principle and the Ideogram (1929) osservò che l'ideogramma funziona con la stessa logica: due segni si combinano e producono un terzo concetto non contenuto in nessuno dei due.

眼 (occhio) + 水 (acqua) = piangere 犬 (cane) + 口 (bocca) = abbaiare 刀 (coltello) + 心 (cuore) = dolore

Due raffigurabili → un irraffigurabile. La terza cosa che esplode nel mezzo non stava né nell'uno né nell'altro: era latente nella collisione.

Questa struttura ha un nome nel lessico contemporaneo degli LLM: embedding. Nello spazio latente, due vettori semantici combinati producono una direzione che nessuno dei due conteneva da solo — re − uomo + donna = regina. Ejzenštejn, già nel 1929, aveva riconosciuto la stessa struttura negli ideogrammi (due segni, terzo senso). La teoria del montaggio come collisione ha una radice non europea: è nata dall'incontro tra il cinema sovietico e la semiotica dell'Asia orientale.

Vertov: l'occhio-macchina e gli intervalli

Dziga Vertov percorse una strada diversa. Per lui il cinema era l'unico medium capace di consentire l'autocomunicazione della collettività — dare alla massa la possibilità di autorappresentarsi. La macchina da presa è un occhio potenziato, capace di vedere ciò che l'occhio umano non vede: il rallentatore, l'accelerazione, le riprese dall'alto. Chiamò questo Kino-Glaz — il cine-occhio.

La sua teoria degli intervalli vede il montaggio come partitura sinfonica: il senso non sta nelle singole note, ma negli intervalli, nelle pause, nelle relazioni ritmiche. Come in una composizione musicale, le immagini si intrecciano, si rispondono, creano armonie e dissonanze. Il concetto di sviaz' — legame, connessione — attraversa tutti i suoi scritti: il cinema non è materia, è un mezzo per connettere sostanze apparentemente incommensurabili. Il film non è finito finché non c'è qualcuno che lo guarda. Il senso emerge nell'incontro.

La neuroscienza del taglio

Tutto ciò che abbiamo visto con Kulešov e Ejzenštejn — il senso che nasce dall'accostamento, il terzo significato che emerge dalla collisione — funziona. Ma perché funziona? Perché il cervello umano accetta il taglio, un'interruzione violenta del campo visivo che non ha equivalente nell'esperienza quotidiana?

La risposta sta in un meccanismo che conosciamo da sempre senza saperlo: la soppressione saccadica.

I nostri occhi non vedono in modo continuo. Tre volte al secondo — circa 172.800 volte al giorno — l'occhio esegue un movimento rapido chiamato saccade: un salto da un punto focale all'altro. E durante quel salto, siamo ciechi. Il sistema visivo sopprime attivamente le informazioni dalla retina per evitare di processare immagini sfocate. Poi, quando l'occhio si ferma, il cervello ricostruisce la continuità a partire dai frammenti.

Walter Murch, il montatore di Apocalypse Now e The English Patient, è stato il primo a collegare questo meccanismo al montaggio cinematografico. Nel suo In the Blink of an Eye (1995), Murch propone che il taglio funzioni perché replica qualcosa che il cervello fa già: gestire discontinuità visive e ricostruire il senso a partire da frammenti. Non vediamo il mondo in modo continuo — lo montiamo, continuamente, senza saperlo.

Il cervello umano è già un montatore.

La ricerca neuroscientifica degli ultimi anni ha confermato e approfondito questa intuizione. Il gruppo Neuro-Com della Universitat Autònoma de Barcelona — Celia Andreu-Sánchez, Miguel Ángel Martín-Pascual, in collaborazione con Agnès Gruart e José María Delgado-García della Universidad Pablo de Olavide — ha condotto una serie di studi che dimostrano come il taglio cinematografico venga processato dal cervello in modo specifico e misurabile.

I loro risultati mostrano che i tagli di continuità — quelli progettati per passare inosservati — producono un fenomeno chiamato edit blindness. Lo spettatore non li registra consciamente. Il cervello li processa comunque come eventi relazionali. Si attivano pattern di sincronizzazione theta e desincronizzazione delta legati alla codifica della memoria e alla costruzione del significato.

Ancora più significativo: lo stile di montaggio influenza il tasso di battito oculare. Il montaggio rapido stile MTV inibisce il battito di ciglia più del montaggio classico hollywoodiano. E i professionisti dei media — i montatori, i registi, chi lavora quotidianamente con le immagini — mostrano un tasso di battito oculare significativamente più basso rispetto ai non professionisti, in qualsiasi stile di montaggio. Come se il loro sistema percettivo si fosse adattato a gestire la discontinuità con maggiore efficienza.

Katrin Heimann, dell'Università di Aarhus, insieme a Vittorio Gallese — il co-scopritore dei neuroni specchio — all'Università di Parma, ha mostrato qualcosa di ancora più profondo: i tagli di continuità vengono processati utilizzando gli stessi meccanismi di remapping che il cervello usa per gestire le saccadi naturali. Il cervello non distingue, a livello di elaborazione, tra il salto dell'occhio da un punto all'altro e il taglio del montatore da un'inquadratura all'altra. Sono lo stesso gesto, processato dallo stesso circuito.

Questo ha implicazioni enormi per la semionautica. Se il taglio funziona perché sfrutta un meccanismo biologico, allora il flusso continuo generativo, il piano sequenza infinito dell'AI, fa esattamente il contrario: bypassa quel meccanismo. Un'immagine che scorre senza interruzioni non attiva le difese percettive naturali del cervello. Non c'è edit blindness perché non c'è edit. Non c'è ricostruzione del senso perché non c'è frattura.

E questo è esattamente il motivo per cui l'interruzione — il taglio, lo stacco, la frattura — non è solo un atto estetico. È un atto di resistenza neurobiologica. Interrompere il flusso significa riattivare i meccanismi cerebrali che il flusso ha disattivato. Significa costringere il cervello a fare quello che sa fare meglio: montare, ricostruire, dare senso ai frammenti.

Il semionauta non taglia per capriccio. Taglia perché il cervello è fatto per i tagli.

Neuroni specchio, empatia cinematografica, spazio latente

La neuroscienza dei neuroni specchio conferma che il montaggio non è un artificio cinematografico, ma un processo biologico: il cervello 'chiude' il taglio per simulare l'azione. L'AI generativa sfrutta esattamente questa nostra inclinazione biologica alla continuità per farci accettare come reale ciò che è solo statisticamente plausibile.

Il cervello come montatore automatico e i suoi limiti

Murch aveva ragione: il cervello è già un montatore. Ma questa affermazione, portata alle sue conseguenze, rivela anche una vulnerabilità.

Se il cervello monta automaticamente — se ricostruisce continuità e significato anche dove non esistono — allora può essere ingannato da qualsiasi sequenza costruita secondo le regole implicite che il sistema visivo usa per ricostruire il mondo. Non serve che le immagini siano vere. Serve che siano giustapposte nel modo giusto.

Kulešov lo sapeva. Ejzenštejn lo sfruttava deliberatamente. I creatori di deep fake e di video generativi lo sanno oggi.

La soppressione saccadica ci protegge dall'incoerenza momentanea. L'embodied simulation ci porta dentro l'esperienza. La ricostruzione automatica del senso riempie i vuoti. Queste non sono debolezze del sistema cognitivo — sono le sue forze adattive, evolute per navigare un mondo fisico in cui le discontinuità visive erano quasi sempre saccadi, non tagli cinematografici.

Ma nel mondo contemporaneo, queste forze adattive si trovano in un ambiente radicalmente diverso da quello per cui si sono sviluppate. Siamo bombardati da immagini in movimento costruite per sfruttare esattamente questi meccanismi. La protezione biologica che funzionava perfettamente nella savana non funziona altrettanto bene di fronte a un feed ottimizzato dall'algoritmo — flusso di post e video in home.

Il semionauta che comprende la neuroscienza del taglio comprende anche perché la resistenza è difficile. Non perché sia stupido o distratto. Ma perché il suo stesso cervello è un alleato del flusso, progettato dall'evoluzione per trovare senso in ogni sequenza di immagini — reali, montate, o generate.

Sapere questo non immunizza. Ma orienta. E orientarsi, in un oceano di immagini costruite per inghiottirci, è il primo atto della navigazione.

Pasolini, Metz e il lavoro operativo sul visivo

Pasolini e Metz hanno tentato di isolare le unità minime del visivo. Per il semionauta la loro lezione non è tassonomica, ma operativa: ci insegnano che l'immagine non è una 'parola', ma un enunciato già montato. In sala macchine, questo significa che non analizziamo pixel, ma relazioni di senso già orientate.

Pasolini: il cinema come lingua della realtà

Pier Paolo Pasolini arriva al cinema dopo una vita passata con le parole. Poeta, romanziere, saggista, porta con sé una sensibilità linguistica che pochi registi hanno avuto. E quando comincia a fare cinema, si pone una domanda che solo un poeta poteva formulare: il cinema è una lingua? E se sì, quali sono le sue unità minime?

La risposta la darà in un saggio del 1965, Il cinema di poesia, destinato a diventare uno dei testi fondamentali della teoria cinematografica. La tesi è semplice e rivoluzionaria insieme: il cinema non usa un linguaggio, è un linguaggio. È una lingua scritta della realtà.

Cosa significa che il cinema è una lingua della realtà? Significa che le immagini non sono segni arbitrari, come le parole, ma tracce del mondo. Quando vediamo un volto sullo schermo, vediamo la traccia di un volto, la sua impronta luminosa.

Pasolini chiama questa qualità l'im-segno: l'immagine che è insieme realtà e segno, presenza e rappresentazione. L'im-segno non rimanda a qualcos'altro come la parola «cane» rimanda al cane. È la cosa stessa, trasfigurata dalla macchina da presa, ma pur sempre la cosa stessa.

Pasolini: i cinèmi (unità minime del visivo)

Se il cinema è una lingua, deve avere unità minime di significato, analoghe ai fonemi della lingua verbale. Pasolini le chiama cinèmi.

I fonemi sono i suoni elementari che, combinati, producono parole. I cinèmi sono gli elementi visivi elementari che, combinati nel montaggio, producono il linguaggio cinematografico. Un'inquadratura, un movimento di macchina, un colore, una luce, un gesto, un'espressione, un paesaggio: sono i mattoni con cui costruiamo il senso.

A differenza dei fonemi, che sono poche decine in ogni lingua, i cinèmi sono potenzialmente infiniti. Ogni nuovo oggetto, ogni nuovo gesto può diventare un cinèma se entra a far parte del linguaggio cinematografico. Il cinema è una lingua in continua espansione, che si arricchisce di nuovi vocaboli a ogni film, a ogni inquadratura.

Pasolini e la cinesica: una coincidenza rivelatrice

C'è un dettaglio nella storia del termine cinèma che oggi, nell'era dell'AI generativa, si rivela di una potenza teorica straordinaria. Quasi contemporaneamente a Pasolini, negli anni Sessanta, l'antropologia americana stava sviluppando la cinesica, lo studio del linguaggio del corpo, con l'ambizione di analizzare i gesti umani con gli stessi metodi della linguistica strutturale. In quel contesto si parlava di unità minime del gesto, qualcosa di molto simile ai cinèmi pasoliniani. I due ambiti non si conoscevano, non si citavano, eppure stavano cercando la stessa cosa: le particelle elementari del senso visivo.

Oggi, nell'AI video generativa, i due domini collassano in uno solo. Quando scriviamo un prompt per un modello come Veo, Sora o Runway, stiamo costruendo simultaneamente i cinèmi pasoliniani (inquadratura, movimento di macchina, luce, colore) e quelli della cinesica (gesto, postura, espressione, distanza interpersonale). Il prompt è l'unico atto linguistico nella storia che opera su entrambi i livelli contemporaneamente.

Pasolini: il codice che si istituisce nella navigazione

Per Pasolini, il fatto che il cinema sia una lingua non significa che abbia regole fisse. Al contrario, è una lingua che si costruisce nell'uso, che negozia le sue regole con lo spettatore mentre si svolge sotto i suoi occhi. È una lingua viva, in continuo divenire.

Immaginiamo un montatore che per la prima volta decide di raccontare un flashback usando una grana più spessa e una color grading più calda. La prima volta è una scelta stilistica personale. La seconda è un'insistenza. La terza comincia a diventare un codice. Lo spettatore impara a leggere quel segno — vede la grana cambiare, i colori diventare più caldi, e sa: questo è un ricordo. Il linguaggio si forma nell'atto stesso del suo uso.

Per il semionauta, questa lezione è fondamentale. Non sta applicando un linguaggio già dato, ma sta contribuendo a crearne uno nuovo. Ogni sua scelta è un atto linguistico che istituisce senso. Non c'è un codice preesistente che garantisce la riuscita della comunicazione. C'è solo la pratica, l'uso, la navigazione.

Metz: la grande syntagmatique

Christian Metz (1931-1993) è stato il primo a prendere sul serio l'idea che il cinema potesse essere studiato come un linguaggio. Non come una lingua, attenzione — Metz è sempre stato cauto su questo punto, polemizzando proprio con Pasolini e la sua idea di «cinema come lingua». Per Metz, il cinema è un linguaggio senza lingua: ha una sintassi, ha delle strutture, ha delle regole di combinazione, ma non ha un lessico stabile come le lingue verbali.

Eppure, proprio questa sua natura ibrida lo rende il terreno ideale per sviluppare una teoria del senso che oggi, nell'era dell'AI generativa, si rivela profetica.

Il contributo più celebre di Metz è la grande syntagmatique del film narrativo classico, una sorta di grammatica delle sequenze cinematografiche. Metz analizzò centinaia di film e individuò otto tipi fondamentali di sequenza, che chiamò sintagmi. Ogni sintagma è un modo di organizzare le immagini nel tempo, con regole proprie.

Il sintagma autonomo è una singola inquadratura che costituisce da sola un'intera sequenza. Il sintagma parallelo alterna due serie di eventi senza una chiara relazione temporale (il classico «mentre… mentre…»). Il sintagma a graffa raccoglie brevi scene che illustrano un concetto generale. Il sintagma descrittivo presenta un oggetto o un paesaggio nella sua interezza. Il sintagma alternato alterna due serie di eventi con una chiara relazione di simultaneità — l'inseguimento, il telefono che squilla mentre qualcuno sta arrivando. La scena è una successione continua che rappresenta un'azione unitaria nello spazio e nel tempo. La sequenza episodica mostra momenti salienti di un processo più lungo. La sequenza ordinaria, infine, mantiene una chiara progressione narrativa pur senza continuità stretta.

Questa tassonomia non era fine a sé stessa. Voleva dimostrare che il cinema ha una grammatica, proprio come le lingue naturali. E come le lingue, anche il cinema può essere analizzato scientificamente, scomposto nelle sue unità costitutive, studiato nelle sue regole di combinazione.

Metz: sintagma e paradigma

Il contributo più duraturo di Metz — quello che oggi ci interessa di più — è una distinzione che eredita dalla linguistica strutturale di Saussure e di Louis Hjelmslev (linguista danese, 1899-1965): la distinzione tra sintagma e paradigma.

L'asse sintagmatico è l'asse della combinazione, del «cosa viene dopo cosa». È la dimensione orizzontale del discorso, la sequenza effettiva che percepiamo. In una frase, l'ordine delle parole («il gatto insegue il topo» vs «il topo insegue il gatto»). In un film, l'ordine delle inquadrature, la successione delle scene, il ritmo del montaggio. È ciò che è in praesentia: ciò che è presente, visibile nella sequenza.

L'asse paradigmatico è l'asse della selezione, del «cosa avrebbe potuto essere al posto di cosa». È la dimensione verticale delle scelte, l'insieme delle possibilità da cui ogni elemento è stato selezionato. In una frase, la scelta tra «gatto», «felino», «micio». In un film, la scelta tra diverse inquadrature, diverse angolazioni, diverse luci per la stessa scena. È ciò che è in absentia: le alternative scartate, ciò che è assente.

Metz applica questa distinzione al cinema in modo sistematico. Mostra che ogni scelta di montaggio è contemporaneamente una scelta sull'asse paradigmatico (quale inquadratura selezionare tra tutte quelle disponibili) e una scelta sull'asse sintagmatico (dove posizionare quella inquadratura nella sequenza).

Quando decidi l'ordine di tre clip generate dall'AI per costruire una tensione crescente, stai operando sull'asse sintagmatico. Quando scegli quale tra dieci varianti generate per lo stesso shot è quella giusta, stai operando sull'asse paradigmatico. Sono due gesti distinti, con logiche diverse, anche se avvengono quasi simultaneamente.

Metz: il paradigma esplicito nell'AI generativa

Nel cinema classico c'è un'asimmetria fondamentale tra i due assi. L'asse sintagmatico è esplicito: è ciò che lo spettatore vede, la sequenza effettiva delle inquadrature. L'asse paradigmatico è implicito: esiste, ma non è visibile. Lo spettatore non vede le inquadrature scartate, non vede le alternative possibili. Vede solo il risultato finale.

Il montatore, in sala di montaggio, ha davanti a sé tutte le opzioni. Può scegliere tra decine di inquadrature diverse. Ma una volta scelta, le altre scompaiono. Rimangono nell'archivio, invisibili. Lo spettatore non sa nemmeno che esistevano.

Nell'AI generativa, questa situazione si rovescia. L'asse paradigmatico diventa esplicito, accessibile, navigabile. Il semionauta non sceglie tra poche inquadrature pre-girate, ma tra infinite possibilità latenti. Ogni prompt apre un paradigma di potenziali output, e la scelta di uno specifico output è solo l'inizio di una nuova navigazione.

Lo spazio latente è, letteralmente, il paradigma reso esplicito. Non contiene solo le opzioni che sono state effettivamente considerate, ma tutte le opzioni possibili, in un continuum di variazioni. Il semionauta può esplorare questo spazio, muoversi al suo interno, vedere cosa c'è vicino a un certo punto, cosa c'è lontano.

Il sintagma, d'altra parte, diventa virtuale. Non è più la sequenza fissa che lo spettatore vede, ma una delle infinite traiettorie possibili attraverso lo spazio delle possibilità. Il video generato è una traiettoria, non un oggetto.

Questa inversione è stata teorizzata da Lev Manovich, uno dei più influenti pensatori contemporanei nel campo dei media digitali. Per capire davvero cosa significa, è necessario fare un passo indietro e conoscere chi è Manovich e cosa ha scritto.

Lev Manovich e il linguaggio dei nuovi media

Lev Manovich (Mosca, 1960) è un teorico dei media, artista e professore al Graduate Center della City University of New York, dove dirige il Software Studies Initiative. Il suo libro più celebre, Il linguaggio dei nuovi media (The Language of New Media, MIT Press, 2001), è considerato una delle prime e più rigorose teorizzazioni dei media digitali. Tradotto in quattordici lingue, il volume colloca i nuovi media all'interno di una storia dei media che parte da Marshall McLuhan e arriva fino al cinema e alle avanguardie artistiche del Novecento.

Manovich ha svolto un ruolo chiave nella creazione di quattro nuovi campi di ricerca: i new media studies (dal 1991), i software studies (dal 2001), la cultural analytics (dal 2007) e l'AI aesthetics (dal 2018). La sua formazione è eclettica: nato a Mosca dove studia Belle Arti, Architettura e Programmazione, si trasferisce a New York nel 1981, conseguendo un Master in Psicologia Sperimentale alla NYU e un dottorato in Visual and Cultural Studies all'Università di Rochester.

Nel Linguaggio dei nuovi media, Manovich definisce il computer come un "metamedium" che computerizza tutti gli altri media, traducendoli in codice digitale. Ma il suo contributo più rilevante per la semionautica è l'analisi del rapporto tra database e narrativa. Per Manovich, il database — inteso come forma culturale che rappresenta il mondo come una lista di elementi che rifiuta di ordinare — è la forma simbolica dell'era digitale, così come la narrazione lo è stata per l'era del cinema e del romanzo.

Database e narrativa, scrive Manovich, sono "nemici naturali": due modi opposti di organizzare l'esperienza del mondo. Il database accumula, elenca, non gerarchizza; la narrativa seleziona, ordina, costruisce traiettorie di senso. Nell'era digitale, ogni interfaccia che usiamo — da Netflix a Instagram, dai motori di ricerca agli archivi cloud — è una forma di database che rende accessibile un paradigma di possibilità.

Il semionauta che naviga lo spazio latente dell'AI generativa incarna esattamente questa tensione: esplora un database infinito di possibilità latenti (il paradigma esplicito di cui parlava Metz) e, attraverso le sue scelte, traccia una traiettoria che diventa narrazione (il sintagma). Non è solo un utente della macchina: è un esploratore della logica nascosta che Manovich ha contribuito a svelare.

Metz: la responsabilità della selezione

C'è un'altra lezione di Metz che diventa cruciale nell'era generativa. Scegliere una variante significa scartare tutte le altre. E quelle altre, quel paradigma di possibilità non realizzate, non scompaiono del tutto. Continuano a esistere come potenzialità, come fantasmi, come ciò che avrebbe potuto essere ma non è stato.

Nel cinema classico, questo è un fatto tecnico. Il montatore scarta le inquadrature non utilizzate, e lo spettatore non le vede mai. Il paradigma resta implicito, e con esso il peso delle scelte non fatte.

Nell'AI generativa, il paradigma è esplicito. Il semionauta sa, mentre sceglie, che sta lasciando dietro di sé un oceano di possibilità. Sa che ogni traiettoria che traccia è anche una rinuncia a tutte le altre traiettorie possibili. L'indice è perduto, ma il sintagma rimane.

Questa consapevolezza è il fondamento della responsabilità semionautica. Non si tratta solo di scegliere l'immagine giusta. Si tratta di sapere che ogni scelta è anche una perdita, e di accettare questa perdita come parte del processo creativo — come la firma invisibile che ogni semionauta lascia nel testo.

Bazin: l'ontologia dell'immagine

André Bazin (1918-1958) è stato il più importante critico cinematografico del Novecento, cofondatore dei Cahiers du Cinéma e maestro spirituale della Nouvelle Vague. La sua opera, raccolta nei quattro volumi di Qu'est-ce que le cinéma? (Che cosa è il cinema?), è una delle riflessioni più profonde mai scritte sulla natura dell'immagine cinematografica.

Mentre Kulešov, Ejzenštejn e Vertov si concentravano sul montaggio — sulle relazioni tra le immagini — Bazin si concentra sull'immagine stessa. Sulla sua natura, sulla sua ontologia. Sulla domanda: che cos'è un'immagine? E cosa accade quando l'immagine è fotografica o cinematografica?

Per Bazin, il cinema è l'erede di una tensione che attraversa tutta la storia dell'arte occidentale: l'ossessione realistica. Dagli egizi che imbalsamavano i corpi per preservarli dall'oblio, ai pittori del Rinascimento che perfezionavano la prospettiva, ai fotografi che catturavano la luce — l'umanità ha sempre cercato di fermare il tempo, di conservare le tracce, di sconfiggere la morte attraverso la rappresentazione.

Il cinema, per Bazin, è il culmine di questa tensione. Perché non si limita a rappresentare la realtà, ma la restituisce. La fotografia e il film non sono solo immagini: sono impronte, tracce, reliquie.

Questa concezione è profondamente vicina alla semiotica di Peirce, anche se Bazin non lo cita esplicitamente. Come nella definizione di Peirce, l'immagine fotografica è un indice: un segno che funziona per connessione fisica, causale. Come il fumo indica il fuoco, come un'impronta indica un piede, come il termometro indica la temperatura, la fotografia indica ciò che è stato davanti all'obiettivo. C'è stato un contatto fisico: la luce riflessa dall'oggetto ha impressionato la pellicola.

Bazin insiste su questa differenza con una forza che ancora oggi ci interroga. Scrive:

"La fotografia beneficia di un transfert di realtà dalla cosa alla sua riproduzione. Il decalco, l'impronta digitale, il calco, la fotografia — tutte queste operazioni meccaniche hanno in comune il fatto di essere prodotte da un processo di riproduzione automatica e impersonale. La personalità del fotografo entra in gioco solo nella scelta, nell'attesa, nel momento. L'immagine stessa, in quanto tale, è indipendente da lui."

L'immagine fotografica è, per Bazin, una sorta di Sindone. Non una rappresentazione, ma una traccia. Quando guardiamo una fotografia, non guardiamo solo un'immagine. Guardiamo qualcosa che è stato là, davanti all'obiettivo, in quel preciso momento. Per descrivere questa proprietà, Roland Barthes conierà anni dopo un'espressione divenuta celebre: ça a été — letteralmente "questo è stato". La fotografia è una testimonianza, una prova, un frammento di realtà trasportato nel tempo.

Bazin ama paragonare la fotografia all'ombra, al calco funebre, all'impronta digitale. Tutte cose che testimoniano una presenza passata. La fotografia è l'ombra dell'oggetto, fissata per sempre sulla pellicola. Il cinema porta questa proprietà ancora oltre: non solo conserva l'impronta di un istante, ma conserva la durata, il movimento, il tempo. Il film è l'impronta di un pezzo di tempo.

La crisi dell'indice nell'era generativa

C'è un passaggio, in uno dei saggi di Bazin, che oggi suona come una profezia al contrario. Scriveva:

"La fotografia beneficia di un transfert di realtà dalla cosa alla sua riproduzione."

Questo "transfert di realtà" — questa certezza che qualcosa è stato lì, davanti all'obiettivo, e che la pellicola ne conserva l'impronta — è ciò che per Bazin fondava l'unicità del mezzo fotografico e cinematografico.

Oggi, quella certezza è venuta meno.

L'AI generativa produce immagini che sembrano fotografie ma non sono state scattate. Producono somiglianza senza referente. È come la differenza tra un'impronta digitale lasciata su un vetro e un'impronta digitale disegnata a mano libera. La prima è un indice: c'è stata una connessione fisica, un contatto, una traccia. La seconda è un'icona: somiglia a un'impronta, ma non è stata prodotta da nessun dito.

L'AI produce impronte disegnate benissimo, ma senza il dito.

Questa è la crisi dell'indice. Non abbiamo più la garanzia che qualcosa sia stato lì. Abbiamo solo la somiglianza. E la somiglianza, da sola, non prova nulla.

Per Bazin, questa sarebbe stata una catastrofe. Perché l'immagine non sarebbe più una finestra sul mondo, ma uno specchio che riflette solo altre immagini. Il ça a été di Barthes — "questo è stato" — diventa un ça pourrait être — "questo potrebbe essere". E tra l'essere stato e il poter essere c'è un abisso.

Il mito del cinema totale e il suo rovesciamento

Nel 1946, Bazin pubblica un saggio destinato a diventare uno dei testi più influenti della teoria cinematografica: Il mito del cinema totale. La tesi è semplice e profonda insieme: il cinema non è nato per caso, né per puro sviluppo tecnico. È nato perché c'era un mito che lo precedeva, un'idea che abitava l'immaginario dell'Ottocento molto prima che i fratelli Lumière e Georges Méliès iniziassero a sperimentare.

Bazin scrive:

"Il cinema è un fenomeno idealista. Il concetto che gli uomini ne avevano esisteva, per così dire, già completamente armato nel loro cervello, come nel cielo platonico."

Per Bazin, ciò che ne ha determinato la comparsa non è tanto il progresso scientifico quanto l'ossessione che lo inseguiva. Prima ancora che esistesse la macchina da presa, esisteva già il desiderio di cinema. Il desiderio di catturare il mondo, di fermare il tempo, di riprodurre la realtà in modo così perfetto da confondersi con essa. Lo vede già nelle pitture rupestri, nei calchi funebri egizi, nelle statue greche, nella prospettiva rinascimentale. Il cinema, per Bazin, è l'erede più avanzato di questa ossessione. Ma non è ancora il suo compimento.

Oggi, a quasi ottant'anni di distanza, Bazin aveva ragione e torto insieme. Aveva ragione perché la tecnologia ha realizzato, almeno in parte, il suo sogno: il cinema digitale, la CGI, e ora l'AI generativa hanno raggiunto un grado di realismo che Bazin non poteva immaginare. I dinosauri di Jurassic Park, gli avatar di Avatar, i volti sintetici dei deepfake — tutto questo è cinema totale: rappresentazioni che non hanno bisogno di un referente reale davanti alla macchina da presa, ma che appaiono come se lo avessero.

Ma Bazin aveva torto perché il cinema, realizzando il suo sogno, non è scomparso. Non è diventato quella finestra trasparente sulla realtà che immaginava. Si è trasformato in qualcos'altro.

Se il cinema totale era il sogno di catturare il mondo, la postproduzione totale è la condizione di averlo già catturato e di poterlo ora ricombinare. Il "totale" non è più l'orizzonte della ripresa, ma l'archivio — la totalità delle immagini umane già prodotte, compressa in uno spazio latente, disponibile per essere navigata, accostata, risignificata.

Bazin immaginava un cinema che finalmente potesse mostrare il mondo così com'è. Noi abbiamo un cinema che può mostrare qualsiasi mondo, senza che nessuno di essi sia "così com'è". Il suo mito si è realizzato, ma rovesciandosi.

Il semionauta come guardiano dell'indice

Di fronte alla crisi dell'indice, il semionauta non può fingere che il problema non esista. Non può comportarsi come se le immagini generate avessero la stessa autorità epistemica delle fotografie, come se il ça a été di Barthes valesse anche per i pixel prodotti da un modello. Ma non può nemmeno rifugiarsi in una nostalgia per l'immagine analogica che sarebbe tanto vana quanto improduttiva.

La postura del semionauta di fronte all'immagine generata è quella che potremmo chiamare sospensione consapevole dell'indice. Sa che l'immagine non ha un referente nel senso che dà Bazin. Sa che nessun dito ha lasciato quell'impronta. Ma sa anche che quell'assenza di impronta non rende l'immagine priva di conseguenze. Un deepfake credibile produce gli stessi effetti somatici — la stessa embodied simulation, la stessa risposta dei neuroni specchio — di un documento autentico.

L'assenza del referente non azzera il potere dell'immagine. Lo sposta. Da un potere basato sulla testimonianza ("questo è stato") a un potere basato sulla verosimiglianza ("questo potrebbe essere"). E la verosimiglianza, in un'era di generazione infinita, diventa la moneta dominante della comunicazione.

Il semionauta non può più chiedersi "questo è vero?" come prima domanda. Deve chiedersi "questo è stato costruito per sembrare vero, e a che scopo?". La domanda si è spostata dall'ontologia all'intenzionalità. Dal referente al progetto.

Semionautica. La crisi epistemica nell'era della postproduzione totale è il manifesto di Unkenny Studio — Visualizing the Unfilmable

Referenze Stultifere

Semionautica

Pubblicato il 05 maggio 2026