La visione è uno dei compiti più impegnativi per il nostro cervello, basti pensare che utilizziamo il 4% dell’energia che acquisiamo mangiando nel vedere. Questo può stupire fino ad un certo punto, data la complessità di questo compito. A ricevere il segnale che viene dall’esterno è la retina, che contiene circa 100 milioni di fotorecettori. È da tempo evidente che non è possibile per il nostro cervello esaminare punto per punto in ogni istante 100 milioni di segnali per creare l’immagine percepita. Si è così scoperto che, mentre nella zona centrale della retina, che è utilizzata quando fissiamo un oggetto, si ha un utilizzo molto preciso dei fotorecettori, sul bordo della retina il sistema visivo cerca di aggregare molti segnali insieme per non rendere il processo visivo troppo faticoso. In questo modo il nostro occhio è estremamente preciso quando fissa un oggetto, mentre non vede dettagli sul bordo della retina, ma in tale zona è molto sensibile al movimento.
Il meccanismo con cui avviene questa “compressione” da 100 milioni di punti a un’immagine che il cervello elabora in maniera rapidissima è però ancora da chiarire completamente. Ecco perché ha suscitato interesse uno studio presentato la settimana scorsa al congresso della “Society of Photo-Optical Instrumentation Engineers’ Human Vision and Electronic Imaging” dalla ricercatrice Ruth Rosenholtz del Dipartimento di Scienze Cognitive del MIT. L’idea principale di questo lavoro è che, via via che ci allontaniamo dal centro della retina, il sistema visivo si limita sempre più a una statistica della scena che sta osservando, lasciando perdere i dettagli esatti. In un certo senso non osserva, ad esempio, se ci sono linee verticali od orizzontali, ma se valuta che la maggioranza delle linee sia verticale passa al cervello questa risposta “di massima”.
Il modello proposto potrebbe spiegare bene un problema noto da tempo nella scienza della visione e corrispondente al cosiddetto “crowding” (che potremmo tradurre come affollamento): se si fissa il centro di un foglio e lateralmente c’è stampata una singola lettera, siamo in grado di riconoscerla; ma se lateralmente non vi è una singola lettera, ma più lettere una accanto all’altra, non siamo in grado di riconoscere le lettere nonostante il compito sembri apparentemente della stessa difficoltà. Questo potrebbe essere spiegato, nell’idea di Rosenholtz, dal fatto che quando si guardano tante lettere una accanto all’altra il sistema registra una “statistica” delle lettere e non il singolo dettaglio.
Lo studio è accompagnato da un modello matematico estremamente complesso: il gruppo del MIT è arrivato a prendere in considerazione una serie di fattori che verrebbero esaminati statisticamente (le dimensioni, il colore, la luminosità e così via), ma il numero di questi fattori è presto lievitato per arrivare a circa mille per poter spiegare i risultati dei vari esperimenti! Per molti studiosi di scienza della visione gli esperimenti di Rosenholtz sono interessanti, ma un modello che dipenda da mille parametri statistici non soddisfa ancora il desiderio di bellezza e semplicità che chiediamo a molti modelli matematici che spiegano i fenomeni che ci circondano.
È l’eterna lotta tra la complessità del mondo che ci circonda e l’incredibile capacità della mente umana di riuscire a cogliere, in mezzo a tale complessità, la semplicità di alcune leggi che ci permettono di spiegare quello che accade. Una lotta probabilmente destinata a non terminare mai, ma che ha permesso e permetterà molti passi avanti. Ridurre il numero di parametri che permettono di prevedere come vediamo il mondo è una sfida per il futuro utile per una comprensione di ciò che ci circonda, ma che potrebbe anche servire a realizzare sistemi ottici che possano “vedere” il più possibile in maniera simile all’uomo.