La relazione tra immagini e Internet ha avuto un impatto rivoluzionario sulla comunicazione, la cultura e la società.
Negli anni ’90, con la diffusione di Internet nelle case di tutto il mondo, abbiamo avuto un’esplosione delle immagini online. Le prime forme di comunicazione visiva su Internet includevano grafica semplice e immagini statiche, utilizzate principalmente per abbellire siti web e comunicare concetti in modo visivo.
Con l’avvento dei social media e dei servizi di condivisione di immagini come Flickr e Photobucket, l’uso delle immagini online è diventato sempre maggiore. Le persone potevano condividere istantaneamente le proprie fotografie con amici e familiari in tutto il mondo, creando una nuova forma di connessione sociale basata sull’immagine.
Negli anni seguenti, piattaforme come Instagram e Pinterest hanno amplificato ulteriormente questa tendenza, trasformando l’immagine in una valuta sociale e culturale. Le persone hanno iniziato a utilizzare le immagini per esprimere se stesse, raccontare storie e influenzare le opinioni altrui.
La magia dell’immagine: le IA
Molto interessante è tutto il processo che sostanzia la magia dell’immagine attraverso la nuova era delle IA generative.
Nel Potenza della Latenza (2023), il filosofo della tecnologia Cosimo Accoto, chiarisce molto bene tutto il meccanismo.
Il processamento macchinico delle immagini (image processing) è il prodotto di una lunga evoluzione, allo stesso tempo scientifica, industriale e artistica.
Questa evoluzione procede dagli anni venti del novecento, come abbiamo visto, fino a quelli dieci del duemila, passando dal processamento digitale alla sintesi generativa.
Attraverso una serie di discontinuità ontologiche, l’immagine è stata prima ri-rappresentata con produzioni, strutture, e interfacce digitali e poi completamente ri-creata con l’impiego di reti neurali artificiali profonde.
Da qui i modelli di diffusione stabile (SDM, stable diffusion model), oppure quelle create in forme generative (DALL-E, Midjourney, Imagen).
La magia dell’immagine: il processo di generazione dell’immagine
La generazione dell’immagine avviene attraverso l’iniezione di rumore gaussiano, grazie al quale essa viene corrotta e degradata.
Secondo Accoto ” L’iniezione diffusiva di rumore nei dati dell’immagine continua fino alla distruzione totale della stessa che diviene, a quel punto, interamente rumore (processo di forward diffusion). Una volta terminata questa diffusione degradativa dell’immagine scomposta in pixel caotizzati, la tecnica generativa capovolge il processo addestrando invece una rete neurale artificiale a ricreare l’immagine impiegata in ingresso e prima “rumoreggiata” (processo di reverse diffusion).”
Con l’operazione di denoising (eliminazione del rumore) si inverte la fase di perturbazione al fine di generare immagini inedite e a partire dallo stato di rumore casuale.
Questo processo avviene impiegando lo spazio latente di un’immagine (LDM o latent diffusion model): la potenza inflattiva dell’immagine sintetica deriva proprio da ciò, dalla capacità della macchina di scandagliare e valorizzare lo spazio latente del dato osservato ma invisibile all’umano.
Il flusso operativo è text-to-image (dal prompt all’output), da un input testuale genera una nuova immagine.
La magia dell’immagine: il prompt engineering
Il processo di prompt engineering con tutte le sue singole fasi e che trasforma i cosiddetti token linguistici in pixel grafici, in base a un’operazione stratificata di assemblaggi algoritmici che si muovono prima in senso decostruttivo e poi ricostruttivo.
Sempre secondo Accoto: “L’assemblaggio computazionale che genera l’immagine a partire da un testo è variamente composto: text prompt, tokenization, embedding, text transformer, noise predictor e molto altro. Ciascuno di questi momenti e tecnicalità del flusso generativo ha funzioni specifiche come, ad esempio, convertire il prompt testuale iniziale in token linguistici comprensibili dalla macchina (che non riconosce le parole umane in quanto tali), ridurre la dimensionalità rappresentativa vettoriale dei dati ricercandone e preservandone le similarità contestuali (come le prossimità semantiche e di senso), predire il rumore latente nell’immagine latente per poi sottrarlo in maniera iterata e campionata per step (producendo così una nuova immagine latente), trasformare infine l’immagine latente in immagine-pixel e restituirla al prompt iniziale come nuovo prodotto visivo di sintesi.”
La magia dell’immagine: lo spazio latente
Il rapporto tra segnale (immagine) e rumore (degradazione) è fondamentale per le reti neurali artificiali, infatti, è più facile partire da una struttura d’immagine degradata, anziché partire da zero, così come partire dallo spazio latente consente di meglio di gestire l’iniezione del rumore.
Lo spazio latente ha un valore strategico, anche da un punto di vista della creatività artistica[1]
Inoltre: “Lo spazio latente è lo spazio che ospita e mappa tutte le dimensioni (features) possibili dei dati in input. Sono le dimensioni (pattern come colore, angolatura, grandezza, orientamento, ecc.) estratte automaticamente da una rete neurale artificiale addestrata. Per mercati e imprese sarà allora vitale esplorare, competitivamente e filosoficamente, questo “spazio im/possibile dell’inosservato latente”[2].
Ma l’immagine latente è un concetto che proviene dal mondo fotografico, anche se in quel campo era prodotta chimicamente, mentre con le IA generative lo è algoritmicamente.
Ere che sono tali non semplicemente perché frutto di nuove tecnologie espansive di produzione e circolazione della conoscenza, ma “quando la portata della loro rappresentazione del mondo minaccia i confini delle precedenti nozioni culturali di realtà”[3].
L’immagine sintetica, secondo Rodowick, “trascrizione isomorfica del reale”, come lo è un’immagine fotorealistica, non più rappresentazione realistica visuale di oggetti, ambienti o persone reali.
Ma l’idea di un'”immagine tecnica” (technical image, Flusser) o di una “immagine operativa” (operative image, Farocki) è vecchia, e circola già da alcuni anni.
Per Parikka “…ci sono immagini che principalmente operano; non sono necessariamente rappresentative o pittoriche. Le immagini operative mettono in crisi ciò che è un’immagine nella misura in cui passano dalla rappresentazione alla non-rappresentazione, dal primato della percezione umana di corpi, movimenti e cose alla misurazione, al modello, all’analisi, alla navigazione e altro ancora. Cambiano le scale e i termini di riferimento…”[4]
In ultima analisi la magia dell’immagine dell’era mediale inflazionaria comporterà l’attraversamento dell’uncanny valley e la messa in atto di un nuovo atteggiamento culturale.
La magia dell’immagine: tra caos, multidimensionalità e operatività
In queste parole, possiamo riscontrare alcuni dei tratti salienti che ci fanno parlare di una magia dell’immagine.
Il primo punto è sicuramente la produzione della stessa, a partire da un caos primordiale, quello che molti biologi e filosofi evoluzionisti hanno definito come brodo primordiale. È il brodo delle informazioni, delle immagine degradata e del rumore gaussiano.
Il tutto in una letture multidimensionale della realtà, altro aspetto tipico di conoscenze magico-esoteriche: la realtà è composta da più piani e ognuno di questi piani rappresenta una manifestazione specifica di essa, visibile o meno. Da questo caos primordiale e da questa consapevolezza multidimensionale della realtà si estrae l’immagine finale.
Un’immagine che cambia la sua natura intrinseca, non più semplicemente rappresentativa, almeno non per quanto riguarda il prodotto finale, ma operativa, e quindi non solo un oggetto visivo, ma come un’entità dinamica e interattiva che è influenzata e modellata da processi tecnologici complessi.
Questo il quadro di un mondo in costruzione, in creazione o più semplicemente e macchinicamente in programmazione.
Questa è la magia dell’immagine, la sua evoluzione storica, con le sue aperture, le sue interfacce verso quel qualcosa di più che va verso il divino, come nel mondo premoderno, aspira al divino nei suoi miti fotografici, cinematrografici, televisivi nel mondo moderno, o tenta in qualche modo di riprodurre il divino, sostituendolo direbbero i più maliziosi, riscoprendolo i più positivi.
Certo siamo in un’epoca di grandi trasformazioni, urgono grandi momenti di riflessione filosofica, oltre che di innovazione tecnologica e culturale. Con i nostri articoli e contenuti ci adoperiamo per essi.
Bibliografia
[1] Art in the Age of Machine Learning, Audry 2021; Latent Spaces: A Creative Approach, Yee-King, 2022
Roberto Siconolfi, classe ’83, campano, sociologo, saggista, mediologo. Uno dei suoi campi principali di ricerca è il mondo dei media, in tutti i suoi aspetti, da quello tecnico a quello storico e antropologico, fino a giungere al piano “sottile”, “magico”, “esoterico”.
Costruisci un’impresa resiliente reinventando le funzioni aziendali per supportare l’innovazione agile e modi migliori per soddisfare le mutevoli esigenze dei tuoi dipendenti e dei tuoi clienti. Consenti esperienze fluide, personalizzate e intuitive. Vuoi saperne di più?