Palmer Cap 4

Le traduzioni che potrete trovare su questo sito sono unicamente destinate ad uso interno per il corso di Psicologia della Percezione dell'Università degli studi di Trieste. Nascono con l'intento di fornire un ausilio a quegli studenti che non hanno molta dimestichezza con la lingua inglese. Le traduzioni sono opera degli stessi studenti del corso di Psicologia della Percezione 1999 - 2000. Nell'utilizzo di questo materiale va tenuto conto che la correttezza dello stesso va verificata confrontando le traduzioni con il testo originale. Per ulteriori domande, clicca qui.

"ELABORAZIONE DELLE STRUTTURE DELL'IMMAGINE"

SINTESI CURATA DA:

SUSANNA CARGNEL
MARCO GARZITTO
FABIO CAMPANELLA

 

 

ELABORAZIONE DELLE STRUTTURE DELL'IMMAGINE

Indice


4.1 Meccanismi fisiologici
4.1.1 Neuroni retinici e del nucleo genicolato laterale
Neuroni gangliari
Cellule bipolari
Nucleo genicolato laterale
4.1.2 Corteccia striata
La scoperta di Hubel e Wiesel
Cellule semplici
Cellule complesse
Cellule ipercomplesse
4.1.3 Architettura della corteccia striata
Le mappe retinotopiche
Lastre di dominanza oculare
Struttura colonnare
4.1.4 Sviluppo dei campi recettivi
4.2 Canali psicofisici
4.2.1 Teoria della frequenza spaziale
Analisi di Fourier
Canali di frequenza spaziale
Funzioni di sensibilità di contrasto
Adattamento selettivo dei canali
Effetti consecutivi della frequenza spaziale
Soglie per reticoli sinusoidali versus quadrati
Sviluppo dei canali di frequenza spaziale
4.2.2 Fisiologia dei canali di frequenza spaziale
4.3 Approcci computazionali
4.3.1 Gli schemi primari di Marr
4.3.2 Individuazione dei bordi
Individuatori di bordi e convoluzioni
L'algoritmo dello zero-crossing di Marr e Hildreth
Implementazione neurale
Integrazione di scale
Lo schema primario grezzo
4.3.3 Teorie computazionali alternative
Analisi della trama
La struttura dall'ombreggiatura
4.3.3 Una sintesi teoretica
Filtri di frequenza spaziale locale
Utilizzare la struttura delle immagini naturali
4.4 Vie visive
4.4.1 Prove fisiologiche
4.4.2 Prove percettive


In questo capitolo tratteremo della percezione della struttura spaziale, e cioè la forma, la localizzazione, le dimensioni e l'orientamento nello spazio dell'oggetto percepito.
La visione spaziale comprende quattro tipi di processi: basati sull'immagine, basati sulla superficie, basati sull'oggetto e basati sulle categorie. Qui si tratterà del primo tipo, cioè dei processi visivi che concernono in primo luogo la computazione degli aspetti spaziali delle immagini retiniche bidimensionali; questo è il primo passo per l'interpretazione dei percetti in termini di entità del mondo reale (oggetti).
Gli approcci principali allo studio dei processi basati sull'immagine sono tre: computazionale, psicofisico, fisiologico. Questo sarebbe l'ordine logico da seguire secondo Marr, ma il capitolo seguirà l'ordine inverso, per rispettare la sequenza cronologica delle scoperte, e anche perché l'argomento non è ancora sufficientemente chiarito.

 

4.1 MECCANISMI FISIOLOGICI

4.1.1 Neuroni retinici e del nucleo genicolato laterale

Esaminiamo le cellule che elaborano i segnali neuronali dopo che hanno lasciato l'occhio.

Neuroni gangliari (retina)
Sono le prime cellule retiniche investigate successivamente (Kuffler, Barlow), distinte in seguito in neuroni on-center (eccitabili al centro del loro campo recettivo e inibiti in periferia) e neuroni off-center (inversi). La figura 4.1.1 mostra la risposta di una on-cell, in cui si vede l'antagonismo tra la parte interna eccitatoria e l'anello attorno inibitorio. La rappresentazione delle on-cells in tre dimensioni (spazio-eccitazione) è chiamata a sombrero; quella delle off-cells a sombrero rovesciato (fig. 4.1.2).

Neuroni bipolari (retina)
Furono studiate in seguito per la necessità di introdurre una metodologia di registrazione intracellulare (sono cellule ad effetto modulatorio con scarica lenta, continua, graduale). Si sono rivelate avere analogie con i neuroni gangliari: il loro campo recettivo è di tipo on-center /off-surround o viceversa. Nella figura 4.1.3 si vede l'architettura neurale di una cellula on-center. Le cellule bipolari ricevono due tipi di afferenze: dai recettori retinici e dalle cellule orizzontali (a loro volta inibite dai recettori. Le afferenze dirette hanno segno positivo, quelle indirette negativo; sommandole, questo meccanismo dà luogo al sombrero di attivazione anche per queste cellule. (Nel caso delle off-center i segni sono invertiti e il sombrero è rovesciato)

Nucleo genicolato laterale (talamo posteriore)
Si tratta di una struttura tridimensionale che riceve globalmente afferenze binoculari (per quanto ogni neurone riceva afferenze unicamente monoculari). Tale struttura è suddivisa in 6 strati (o lamine) ripiegati di cui i 2 più profondi sono costituiti da neuroni di grandi dimensioni (strati magnocellulari) e i 4 più superficiali da neuroni di piccole dimensioni (parvocellulari) (vedi fig. 4.1.4). Le differenze fisiologiche tra neuroni magnocellulari e parvocellulari comprendono: una specializzazione dei primi per le differenze di contrasto e dei secondi quelle cromatiche; un campo recettivo di dimensioni doppie per i neuroni magnocellulari, una risposta transitoria agli stimoli rapidi per i magnocellulari e più sostenuta per i parvocellulari (vedi tab. 4.1.1). In base a questa distinzione fisiologica, si è supposto che la componente magnocellulare sia adibita all'analisi dell'informazione di movimento e profondità mentre quella parvocellulare elabori informazioni di forma e colore.
E' interessante notare come i neuroni del LGN ricevono due tipi di afferenze dalle cellule gangliari di tipo M (che proiettano agli strati magnocellulari) e di tipo P (strati parvocellulari). I due tipi di neuroni gangliari hanno diverse afferenze dai recettori e diversa sensibilità: i neuroni P sono più sensibili al colore che al bianco e nero e ricevono afferenze solo dai coni; i neuroni M sono sensibili al bianco e nero e ricevono sia dai coni che dai bastoncelli.
Ciascuno strato del LGN riceve afferenze monoculari così che nei 4 strati parvocellulari si hanno alternate afferenze controlaterali e ipsilaterali (dall'esterno: contro-ipsi-contro-ipsi), e così pure nei due strati magnocellulari (ipsi-contro) (vedi fig. 4.1.5). Ogni strato presenta un'organizzazione retinotopica (preserva le posizioni relative tra gli input arrivati dalla retina) e, pur non essendosi osservate interazioni tra strati si nota un allineamento delle mappe retinotopiche fra i vari strati. Dal LGN l'informazione passa alla corteccia visiva primaria (V1) tramite radiazione ottica (mantenendo la retinotopicità).

4.1.2 Corteccia striata

La corteccia striata è una lamina di neuroni spessa 2 mm circa ma contenente 200 milioni di neuroni (rappresenta la più vasta area corticale monofunzionale nei primati).

La scoperta di Hubel e Wiesel
Essi trovarono delle cellule della corteccia visiva con un campo recettivo sensibile a determinate direzioni. In seguito vengono classificati tre tipi di cellule corticali: cellule semplici, complesse e ipercomplesse.

Cellule semplici
Il campo recettivo di questi neuroni è investigabile tramite piccoli fasci di luce che stimolano la retina, e la loro risposta a stimoli più complessi è prevedibile a partire dal comportamento con quelli più semplici. Questi neuroni mostrano in genere una porzione eccitatoria nel loro campo recettivo (che aumenta, se stimolata, la frequenza di scarica) ed una inibitoria (che se stimolata da sola porta la frequenza di scarica sotto il livello spontaneo).
Gli studi sulle cellule semplici hanno portato a classificarne diversi tipi (vedi fig. 4.1.6): in particolare, i individuatori di bordi, in cui il campo recettivo ha una regione eccitatoria e una inibitoria affiancate con varie angolazioni, ed il neurone è eccitato al massimo da un bordo che cade a metà fra le due porzioni; ed i individuatori di linee, in cui la regione centrale del campo recettivo è una barra eccitatoria /inibitoria e ha ai lati regioni antagoniste, ed il neurone è massimamente eccitato da linee chiare /scure. Forse i individuatori di linee e bordi sono presenti grazie all'azione di diverse on-cells e off-cells del LGN i cui campi recettivi sono opportunamente allineati secondo l'orientamento preferenziale (fig. 4.1.7).
Quindi sembra che un primo passo dell'elaborazione di immagini comporti il riconoscimento di linee e bordi, e le proprietà più complesse vengano costruite sommando linee e bordi locali.
Le ricerche più recenti (De Valois e De Valois) hanno portato a complicare il modello delle cellule semplici scoprendo diverse classi di campi recettivi grandi o piccoli, con ulteriori zone inibitrici- eccitatrici affiancate a quelle primarie, più numerose per i campi recettivi piccoli (vedi fig. 4.1.8).

Cellule complesse
Sono i neuroni più numerosi della corteccia striata, e presentano un campo recettivo allungato come le cellule semplici.
Le loro caratteristiche distintive sono:
1. Non linearità: il comportamento è altamente non lineare e questi neuroni rispondono difficilmente agli stimoli puntiformi statici.
2. Sensibilità al movimento: rispondono fortemente a linee e bordi in movimento, in genere con una direzione preferenziale.
3. Insensibilità alla posizione: gli stimoli in diverse posizioni non elicitano risposte molto diverse.
4. Estensione spaziale: i campi recettivi sono più ampi di quelli delle cellule semplici.
Le cellule complesse sono probabilmente costruite dall'integrazione di molte cellule semplici (vedi fig. 4.1.9.), benché alcune di loro ricevano afferenze talamiche (dal LGN) dirette.

Cellule ipercomplesse
Il campo recettivo di questi neuroni è più selettivo di quello delle cellule complesse: sembra che rispondano al massimo per linee o bordi di una certa lunghezza diminuendo la frequenza di scarica per lunghezze inferiori o superiori (vedi fig. 4.1.11), e perciò sono dette cellule end-stopped.
Si è proposto che si tratti in realtà di cellule semplici e complesse end-stopped, e forse il grado di end-stopping è un continuum anziché un fenomeno tutto-o-nulla. Nella figura 4.1.12 si vede un possibile schema di una cellule ipercomplessa che riceve afferenze da due (o più) cellule complesse di cui una (che rappresenta la fine) manda input inibitorio.

4.1.3 Architettura della corteccia striata

I neuroni della corteccia visiva rispondono ad un numero limitato di caratteristiche spaziali dello stimolo: orientamento, direzione, dimensioni, colore e movimento rispetto all'occhio a cui lo stimolo è presentato. A questo punto è importante capire quale sia l'organizzazione (architettura) dei neuroni che rispondono a tali caratteristiche.

Le mappe retinotopiche
Le posizioni relative degli stimoli sulla retina sono mantenute dalla corteccia visiva primaria (V1), con alcune distorsioni significative, primo fra tutte lo sproporzionato ingrandimento corticale delle centrali (foveali) dello stimolo, come si vede dalla figura 4.1.13.

Lastre (colonne) di dominanza oculare
Ciascun emisfero in V1 comprende afferenze provenienti da ciascun occhio: ora bisogna comprendere se ci si troverà di fronte ad una mappa unica (integrazione delle afferenze) o a mappe distinte. Sono state trovate delle lastre di dominanza oculare perpendicolari alla superficie della corteccia visiva, le quali appaiono piuttosto irregolari, benché non casuali, e sono mostrate nella figura 4.1.14. La tendenza è a raggruppare le cellule con afferenze dallo stesso occhio, ma ciò avviene con una certa libertà nel modo in cui ciò viene realizzato, a causa della complessità dei patterns risultanti.

Struttura colonnare
La mappa retinotopica è composta da unità colonnari con una superficie di 1x1 mm e attraversanti tutti e sei gli strati corticali, perpendicolari alla superficie corticale: tali unità vengono chiamate ipercolonne (figura 4.1.15). Ciascuna ipercolonna è divisibile in due parti nel senso della lunghezza: una riceve afferenze dall'occhio destro, l'altra dal sinistro. All'interno di ogni ipercolonna (per entrambe le zone) esiste un'organizzazione delle cellule sensibili all'orientamento: l'orientamento ottimale per tali cellule varia su un continuum lungo l'ipercolonna. Meno chiare sono le prove (De Valois e De Valois) riguardanti una sensibilità preferenziale per piccole dimensioni nella parte superficiale di ogni ipercolonna e per grandi dimensioni in quella più profonda (secondo un altro continuum).

4.1.4 Sviluppo dei campi recettivi

La scoperta di neuroni sensibili a determinate direzioni dello stimolo ha portato a posizioni diverse sulla questione innatismo-empirismo della visione, spostando l'interesse a livello cellulare.
Hubel e Wiesel portarono prove a favore della presenza dei neuroni selettivi per l'orientamento fin dalla nascita; si nota però anche uno sviluppo post-natale ulteriore. Allora resta da chiarire se questo sviluppo è preprogrammato (ipotesi innatista) o se è dovuto alla stimolazione ambientale (ipotesi empirista).
I primi esperimenti hanno portato a osservare la presenza di neuroni selettivi in gatti privati della vista, ma meno sensibili della norma ad orientamento dei bordi e direzione del movimento. La differenza del numero di neuroni orientati tra animali sani e ciechi aumenta notevolmente nell'arco delle prime 5 settimane di vita (vedi fig. 4.1.16).
Il sistema visivo mostra quindi un periodo critico per gli effetti della stimolazione ambientale sul suo sviluppo; prima e dopo di questo gli effetti della stimolazione sono minimi. In particolare in seguito al periodo critico è impossibile recuperare eventuali problemi verificatisi durante questo. Più corretto è concludere che ci siano più periodi critici per lo sviluppo del sistema visivo: ad esempio nei gatti il periodo critico per le cellule specifiche per l'orientamento è di circa 5 settimane, mentre tra le 5 e le 10 settimane di vita si ha lo sviluppo della dominanza oculare. Si può dire in pratica che i primi livelli del sistema visivo hanno periodi critici precedenti ai livelli successivi: sia perché i secondi devono necessariamente attendere lo sviluppo dei primi, sia per osservazioni empiriche congruenti a questa ipotesi.


4.2 CANALI PSICOFISICI

C'è un secondo approccio allo studio della costruzione delle immagini, ed è quello psicofisico: esso studia le relazioni tra le esperienze soggettive e le proprietà fisiche del mondo usando metodologie comportamentali, ovvero misurando la performance del soggetto per inferire i meccanismi sottostanti. Nell'ambito della visione spaziale le teorie psicofisiche hanno portato a risultati molto diversi dall'approccio fisiologico.

4.2.1 Teoria della frequenza spaziale

Secondo questa teoria i componenti primitivi che costituiscono ogni immagine non sono linee o bordi, bensì reticoli sinusoidali, cioè disegni bidimensionali estesi in cui su una dimensione la luminanza è variabile secondo una sinusoide e sulla dimensione perpendicolare è costante.
I reticoli si distinguono per quattro parametri (vedi fig. 4.2.1):
1) Frequenza spaziale: è una quantità che varia inversamente all'ampiezza delle bande chiare e scure. Si specifica in termini di numero di cicli chiaro/scuro per grado di angolo visivo.
2) Orientamento: è l'angolo delle bande definito in gradi in senso antiorario rispetto alla verticale.
3) Ampiezza (o contrasto): è la differenza di luminanza tra la parte più chiara e quella più scura tra i picchi e le valli nel profilo di luminanza). E' definita come percentuale rispetto alla massima ampiezza possibile (il 100% è la differenza tra il bianco più luminoso e il nero più scuro, lo 0% è un campo grigio uniforme).
4) Fase: è la posizione della sinusoide rispetto a un punto di riferimento. Si definisce in gradi, cosicché se nel punto di riferimento si trova il punto in cui la sinusoide sta passando dal negativo al positivo, allora la fase è 0° (seno), se nel punto di riferimento si trova il picco più alto allora la fase è 90° (coseno), se vi si trova il punto in cui la sinusoide passa dal positivo al negativo la fase è 180° (anti-seno), se vi si trova la valle la fase è 270° (anti-coseno).

Analisi di Fourier
Il fatto di prendere come primitivi componenti di ogni immagine dei reticoli sinusoidali è basato su una ragione matematica più che empirica: il teorema di Fourier. A partire da esso si costruisce l'analisi di Fourier, che è un metodo per scomporre ogni immagine bidimensionale in una somma di reticoli.
Esempi:
Fig. 4.2.2: Costruzione di un reticolo quadrato con contorni netti di frequenza f, ottenuto sommando un reticolo sinusoidale di frequenza f con un reticolo alla terza armonica (3f) di ampiezza 3a, con uno alla quinta armonica (5f) di ampiezza 5a, e così via.
Fig. 4.2.3: Costruzione di un reticolo a quadri sommando un reticolo quadrato di orientamento orizzontale con uno verticale.
Fig. 4.2.4: Analisi di una figura complessa (foto di Groucho Marx) in due versioni, una con basse frequenze e l'altra con alte frequenze.
L'analisi di Fourier consiste di due parti:
- lo spettro di potenza specifica l'ampiezza di ogni reticolo componente ad una particolare frequenza spaziale ed orientamento;
- lo spettro di fase specifica la fase di ogni reticolo costituente ad una particolare frequenza spaziale e orientamento.
Se i componenti primitivi, con la giusta ampiezza e fase, vengono sommati, l'immagine originale viene ricreata. Perciò questo metodo può essere invertito attraverso la sintesi di Fourier per ricostruire l'immagine a partire dagli spettri di fase e di potenza.
Ora verranno esaminate alcune evidenze empiriche a sostegno di questa teoria.

Canali di frequenza spaziale
Un canale psicofisico è un meccanismo ipotetico selettivamente sensibile a una gamma limitata di valori posti su un continuum.
L'ipotesi è che il sistema visivo sia composto di molti canali psicofisici sovrapposti, sensibili a diverse frequenze e orientamenti. Anche nell'ambito del colore, ad esempio, si ipotizza un meccanismo simile, con tre canali corrispondenti ai tre diversi tipi di coni, ciascuno con maggiore sensibilità per una diversa lunghezza d'onda. Nel caso della frequenza spaziale, ogni canale è determinato dalla frequenza spaziale e dall'orientamento del reticolo a cui è più sensibile.

Funzioni di sensibilità di contrasto
Un prova importante a sostegno della teoria della frequenza spaziale venne fornita da Blakemore e Campbell. Essi determinarono la curva della soglia di distinzione di un reticolo da una superficie uniforme rispetto alla frequenza, determinata dal contrasto minimo a cui si distingue il reticolo. Per far ciò si usa il metodo dell'aggiustamento: il soggetto, per ogni frequenza, aggiusta il contrasto del reticolo fino a trovare il punto in cui ciò che vede cessa di essere un reticolo e diventa un campo uniforme.
La curva della soglia è l'inversa della funzione di sensibilità di contrasto (CSF), che definisce il contrasto in cui la sensibilità è massima rispetto al continuum delle frequenze spaziali. (Fig. 4.2.5A e 4.2.5B).
Fig. 4.2.5C: CSF comparate tra umani, bambini umani e macachi.
Le CSF mostrano una maggiore sensibilità per frequenze medie (4-5 cicli/grado di angolo visivo); inoltre la sensibilità è molto bassa in condizioni scotopiche, poiché non ci sono bastoncelli in fovea.

Adattamento selettivo dei canali
Blakemore e Campbell, dopo aver determinato la CSF di ogni soggetto, lo fecero adattare ad una particolare frequenza spaziale facendogli fissare un reticolo per un po'. Dopo di che, misurarono la CSF di nuovo. La CSF di post-adattamento mostra che la sensibilità diminuisce, ma solo a quella frequenza. Questo suggerisce l'esistenza di un'alta selettività per la frequenza del reticolo di adattamento; perciò si può dire che i canali psicofisici sono caratterizzati da un adattamento selettivo.
Per spiegare questi risultati, gli autori propongono questa teoria: la CSF rappresenta la combinazione di molte bande ristrette parzialmente sovrapposte, che sarebbero i canali sensibili ognuno a un diverso intervallo di frequenza; perciò, se si affatica un canale gli altri non vengono intaccati (vedi fig. 4.2.8). Da notare che non si tratta di un effetto dovuto all'immagine consecutiva, perché i soggetti muovevano gli occhi lungo il reticolo.
La figura 4.2.9 mostra che l'adattamento selettivo ha effetti simili anche sull'orientamento.

Effetti consecutivi della frequenza spaziale
I reticoli ad una particolare frequenza e orientamento producono anche effetti consecutivi. La figura 4.2.10 è un esempio: fissando per un po' i reticoli a sinistra muovendo gli occhi lungo la riga orizzontale, guardate poi la riga di destra e vedete se i reticoli a destra sembrano ancora uguali.
La spiegazione di questo effetto è simile a quella per le immagini consecutive dei colori, solo che qui le cellule rispondono a bande di diversa frequenza spaziale anziché a diverse lunghezze d'onda. La prolungata osservazione produce affaticamento delle cellule sensibili a una frequenza spaziale bassa nella parte superiore del campo visivo, e di quelle sensibili a un'alta frequenza spaziale nella parte inferiore: quindi a destra in alto le cellule che rispondono alle alte frequenze sono relativamente più sensibili, e viceversa in basso, e i due reticoli sembrano diversi.
Una dimostrazione analoga per l'effetto consecutivo dell'orientamento si trova nella figura 1.1.3.

Soglie per reticoli sinusoidali versus quadrati
Graham e Nachmias portarono solide prove a sostegno dell'ipotesi della frequenza spaziale. I loro esperimenti si basano sull'ipotesi che un reticolo quadrato di frequenza f viene scomposto dal sistema visivo in molti reticoli sinusoidali, e cioè uno di frequenza f e ampiezza a, più uno di frequenza 3f e ampiezza a/3, più uno di frequenza 5f e ampiezza a/5, e così via (v. fig. 4.2.2).
Essi formularono due ipotesi, che poi vennero confermate da due esperimenti. La prima è che la soglia di contrasto per discriminare un reticolo quadrato da un campo uniforme è la stessa che per discriminare un reticolo sinusoidale con la stessa f fondamentale. Ciò è controintuitivo, perché si penserebbe che il reticolo quadrato sia più facile da discriminare (cioè abbia una soglia più bassa) dato che il gradiente di luminanza è più brusco, mentre in quello sinusoidale è graduale. Questo viene spiegato dalla teoria della frequenza spaziale in quanto il reticolo quadrato viene scomposto nelle sue componenti sinusoidali, e la sua soglia di contrasto diviene quindi quella della componente con la soglia più bassa, che è la f fondamentale.
La seconda ipotesi è che la soglia di contrasto per discriminare tra un reticolo sinusoidale e uno quadrato sia la stessa che per discriminare tra un campo grigio uniforme e un reticolo sinusoidale la cui frequenza spaziale è la terza armonica (3f) del quadrato. Questo perché, se si pensa che un reticolo quadrato sia scomposto nella f fondamentale e tutte le sue armoniche dispari (3f, 5f, 7f…), allora la differenza tra un reticolo quadrato e uno sinusoidale è solo la presenza di queste armoniche, e per individuare questa differenza bisogna trovare la soglia di una di esse: la terza (3f), che ha l'ampiezza più alta e quindi la soglia più bassa. Questa soglia, secondo la previsione, deve trovarsi allo stesso contrasto a cui la terza armonica si può discriminare da un campo uniforme.
Questi due esperimenti sono estremamente concordanti con la teoria della frequenza spaziale.

Sviluppo dei canali di frequenza spaziale
Nello studio dei bambini, si usa generalmente il paradigma di Fanz sulla fissazione preferenziale: al bambino si mostra un reticolo da una parte e un campo uniforme dall'altra, della stessa luminanza; se il bambino li differenzia, guarda più a lungo il reticolo perché è uno stimolo più interessante.
La figura 4.2.5C mostra le CSF di bambini a diverse età: i bambini sono meno sensibili in generale ai reticoli, e in particolare alle alte frequenze, perciò hanno minore acuità visiva. Nella figura 4.2.11 si vede un volto come appare a un adulto (A) e come appare a un bambino (B), eliminando tutte le frequenze alte a cui sono insensibili.

4.2.2 Fisiologia dei canali di frequenza spaziale

I canali psicofisici sono dei meccanismi ipotetici, che però se esistono devono avere un substrato fisico nel sistema nervoso visivo.
Molti sostengono che le cellule di Hubel e Wiesel effettuano un'analisi di frequenza spaziale locale: locale perché è limitata a pochi gradi del campo visivo. Questi campi recettivi locali si costruiscono con piccole porzioni di reticoli che sfumano allontanandosi verso il centro. Un campo di questo tipo è detto funzione di Gabor (o piccola onda): essa è costruita moltiplicando un reticolo sinusoidale globale per una funzione gaussiana (vedi fig. 4.2.12).
[ Nota 2: Le "piccole onde" sarebbero in realtà particolari funzioni di Gabor in cui la varianza della gaussiana è un numero costante di cicli della sinusoide. Qui ci riferiremo genericamente ad esse come se fossero funzioni di Gabor. ]
De Valois, Albrecht e Thorell trovarono che molte cellule semplici e complesse sono nettamente sensibili a piccoli intervalli di frequenza. La figura 4.2.13 mostra le CSF per 6 cellule della corteccia striata del macaco.
Le cellule non hanno tutte lo stesso grado di specificità: in genere quelle sensibili alle alte frequenze hanno un intervallo più piccolo di risposta, e così anche le cellule semplici. Anche per l'orientamento c'è un continuum di specificità, e queste due caratteristiche di selettività sono correlate: le cellule con una gamma più ampia di selettività per la frequenza di solito ce l'hanno anche per l'orientamento.
La figura 4.2.14 mostra la disposizione spaziale nello strato corticale delle cellule con diversa sensibilità alla frequenza e all'orientamento (De Valois e De Valois). Per i gatti la dimensione della frequenza e quella dell'orientamento si trovano su due assi cartesiani ortogonali all'interno di ogni ipercolonna. Per le scimmie queste due dimensioni corrispondono invece a coordinate polari, cioè l'orientamento è rappresentato dalla direzione dal centro dell'ipercolonna, la frequenza dalla distanza dal centro.
La teoria della frequenza spaziale e quella proposta da Hubel e Wiesel hanno implicazioni molto differenti. Secondo la prima, le cellule della V1 non rispondono a caratteristiche come linee e bordi, ma sono filtri che analizzano l'immagine in modo più generale scomponendola nelle sue componenti. Queste due teorie sono compatibili se si suppone che le cellule che riconoscono linee e bordi si trovano ad un livello superiore, ma non con la pretesa che questo riconoscimento è implementato già nell'area V1.

 

4.3 APPROCCI COMPUTAZIONALI

Il punto di vista dominante tra le teorie computazionale è quello di Marr e colleghi, i quali si sono focalizzati su come si individuano le caratteristiche naturali di un immagine non a colori, come le linee e i bordi; ciò è in stretta relazione con gli studi di Hubel e Wiesel sulle cellule della corteccia striata.
Esistono altri approcci alternativi: ad esempio, uno è basato sulla teoria della frequenza spaziale, quindi si concentra sui filtri nella visione. Inoltre un importante campo emergente è il connessionismo, che utilizza tecniche di apprendimento per far sì che una rete neurale si programmi da sola per eseguire un compito, e poi studiare in che modo ciò è stato fatto. Questo metodo ha portato tra l'altro alla creazione di unità neuronali simili alle cellule di Hubel e Wiesel.

4.3.1 Gli schemi primari di Marr

Nella visione computazionale, la prima cosa che va cercata in un'immagine sono le linee e i bordi. Marr propose una teoria strutturata su due schemi primari (primal sketches) : lo schema primario grezzo (raw) e quello completo (full).
Il raw primal sketch è il primo passaggio che avviene dai dati che arrivano alla retina ad una rappresentazione simbolica dell'immagine (vengono dette simboliche perché si tratta di classi discrete). Nel primal sketch esistono 4 tipi di caratteristiche dell'immagine: bordi, linee (o barre), macchie e terminazioni.
Il raw primal sketch contiene anche alcuni parametri di informazioni sulle 4 classi: posizione, grandezza, orientamento e contrasto. Anche se Marr non ne parla, si possono aggiungere ad essi anche movimento e colore.
Il full primal sketch è un'elaborazione ulteriore del precedente, in cui ad esempio si collegano linee e bordi e si raggruppano elementi simili.

4.3.2 Individuazione dei bordi

I bordi sono gli elementi più studiato tra i costituenti dell'immagine. Essi sono importanti perché indicano un cambiamento di luminanza tra due superfici, che può avere varie cause: cambiamento di riflettanza, di illuminazione o di orientamento della superficie.

Individuatori di bordi e convoluzioni:
Un individuatore di bordi è una schema computazionale che serve a integrare i valori nella scala di grigi di pixel adiacenti in una qualche zona per produrre un singolo numero che rappresenta la probabilità che ci sia un bordo di luminanza in quella zona dell'immagine.
La figura 4.3.1 rappresenta 5 semplici individuatori di bordi. I valori (pesi) servono a integrare zone locali di pixel per rappresentare bordi di luminanza. I individuatori di primo ordine (A e B) calcolano la differenza tra pixel adiacenti, quelli di secondo ordine calcolano differenze di differenze. In tutti i casi la somma dei pesi è zero.
I bordi vengono individuati per mezzo della convoluzione di un individuatore di bordi con un'immagine. Una convoluzione, in termini matematici, è ciò che fa uno strato di cellule corticali, con organizzazione retinotopica e campi recettivi con struttura come quella dei individuatori di bordi, con un'immagine in arrivo. Ogni cellula calcola la somma degli impulsi eccitatori e inibitori, e il risultato di tutte le cellule è la convoluzione del loro campo recettivo con l'immagine. Un esempio di convoluzione di un'immagine con un individuatore di primo ordine verticale e uno orizzontale è dato dalla figura 4.3.2.
Queste cellule non rispondono alle regioni di luminanza uniforme e poco ai cambiamenti graduali, ma hanno una risposta massima per i cambiamenti bruschi di luminanza.
La figura 4.3.3 mostra una rete neurale che attua la convoluzione di un individuatore di bordi verticale con l'immagine della figura 4.3.2. I computer implementano le convoluzioni in serie (spostando il individuatore), ma il sistema visivo lo fa in parallelo, quindi più velocemente.
I individuatori delle figura 4.3.2. e 4.3.3 sono detti di primo ordine, perché individuano semplici differenze tra pixel adiacenti, cioè calcolano la pendenza della funzione di luminanza lungo una particolare direzione. I individuatori di secondo ordine invece calcolano le differenze tra individuatori di primo ordine adiacenti: qui i bordi non sono indicati dai valori estremi, ma dallo zero affiancati da valori estremi.

L'algoritmo dello zero-crossing di Marr e Hildreth:
Un bordo di luminanza unidimensionale viene individuato da un individuatore di bordi di primo ordine come il valore estremo, cioè la massima pendenza della funzione di luminanza. La pendenza per ogni punto descrive a sua volta una funzione, chiamata la derivata prima della funzione di luminanza (vedi fig. 4.3.4). Il bordo è appunto il picco della derivata prima.
Marr e Hildreth criticarono questo modello come dispendioso e poco pratico per il numero di cellule richieste. Ne proposero uno più economici: l'algoritmo dello zero-crossing ( passaggio dello zero) della derivata seconda della funzione di luminanza. La derivata seconda è la funzione di pendenza della derivata prima, cioè la pendenza della pendenza della funzione di luminanza (fig. 4.3.4D e 4.3.4E). In questa funzione la posizione del bordo è sullo zero tra un valore estremo positivo e uno negativo. La derivata seconda viene calcolata dai individuatori di bordi di secondo ordine (fig. 4.3.1C, 4.3.1D, 4.3.1E).
I individuatori di secondo ordine orizzontali e verticali (4.3.1C e 4.3.1D) possono essere combinati in quelli omnidirezionali (4.3.1E). Il risultato è equivalente a quello della derivata prima (entrambe riescono ad individuare correttamente i bordi), ma questo algoritmo è molto più vantaggioso perché una sola cellula calcola i bordi in tutti gli orientamenti contemporaneamente. Nella figura 4.3.5 si vede una versione di un tale individuatore non più discreto ma continuo, e si può notare la somiglianza di questa struttura con il campo recettivo a sombrero delle cellule gangliari della retina e quelle del LGN.
La figura 4.3.6 mostra l'applicazione dell'algoritmo dello zero-crossing su un'immagine naturale in bianco e nero.
Una complicazione è che i bordi di luminanza hanno proporzioni diverse, alcuni più bruschi e altri più graduali. Marr e Hildreth propongono perciò 3 diversi tipi di individuatori: grandi (per risoluzione bassa), medi (per risoluzione media) e piccoli (per risoluzione alta). I tre output vengono poi integrati in un'unica rappresentazione. La figura 4.3.7 è un esempio dei tre tipi di risoluzione.
In un'immagine naturale è comunque più facile trovare i bordi più importanti sia ad un livello basso che ad uno più alto, ed il trovare un bordo a più livelli rende più probabile che ci sia davvero quel bordo nell'immagine originale (vedi fig. 4.3.8).
Marr e Hildreth costruirono questo modello non dal nulla, ma integrando elementi che già esistevano, come la convoluzione con i individuatori (Duda e Hart), l'individuazione dello zero-crossing (Horn), i livelli di risoluzione (Rosenfeld, Thurston e Lee).

Implementazione neurale:
Marr e Hildreth posero particolare attenzione alla plausibilità biologica del loro algoritmo (si occuparono di come questo poteva effettivamente venire implementato nell'hardware neurale); chiaramente la convoluzione dell'immagine con i individuatori di bordi di II ordine corrisponde all'operato delle cellule retiniche ganglionari e di quelle del LGN, proprio l'output del LGN corrisponde al risultato della convoluzione (fig.4.3.6B): infatti tali cellule presentano un campo recettivo analogo ai individuatori di bordi omnidirezionali di II ordine (on-cells/off-cells). L'output dl LGN non presenta ancora una detezione esplicita dello zero-crossing (che dovrà essere effettuata a livelli successivi ).
Lo zero-crossing può venire individuato esplicitamente a partire dall'output dei individuatori di secondo ordine (che presenta valori positivi e negativi elevati ) tramite un operatore in grado di implementare la congiunzione logica (AND ) tra le afferenze di on-cells e off-cells (fig.4.3.9 ); tali unità corrisponderebbero alle cellule semplici di Hubel-Wiesel (situate nell'area V1 ). Le cellule semplici della corteccia striata sarebbero quindi deputate alla detezione esplicita dello zero-crossing dall'output dei individuatori di II ordine.
Canny (1986 ) propose un nuovo e più efficace algoritmo per la detezione dei bordi basato su elaborazioni matematiche che, a partire da individuatori di bordi di I ordine, ricavavano un individuatore ottimale (buona approssimazione delle cellule semplici di Hubel-Wiesel )(fig4.3.10 ).
In seguito altri ricercatori (Deriche, 1987; Spacek,1985 ) proposero altre soluzioni ricavate da tecniche di massimizzazione analoghe a quelle utilizzate da Canny.

Integrazione di scale:
Gli algoritmi per la detezione di bordi presentati non risolvono il problema dell'integrazione di scale di differenti dimensioni, in pratica il sistema visivo deve essere in grado di integrare informazioni a diverse definizioni dell'immagine visiva per trovare le corrispondenze dei bordi a diverse scale (fig.4.3.12). Ad ogni scala/definizione si trovano più bordi (in numero maggiore per le alte definizioni, minore per le basse definizioni) e risulta non banale riconoscere lo stesso bordo su più scale (a seconda della definizione a cui sono analizzati i bordi possono cambiare non solo posizione ma addirittura orientamento ).
Witkin (1983 ) propose un algoritmo basato sul concetto di spazio delle scale: dall'idea di 3 livelli diversi di definizione/dimensione degli individuatori di bordi (Marr-Hildreth ) si passa a considerare un continuum (spazio delle scale ) dalle più alte definizioni a quelle più basse. Tramite questo continuum è possibile "seguire" un bordo fra le diverse scale, riconoscendoli (fig.4.3.13 ).
L'algoritmo dello spazio delle scale può venir implementato in qualche forma dal sistema visivo umano solo supponendo una rappresentazione delle dimensioni molto completa. Effettivamente dati compatibili con tale supposizione vengono dallo studio dei campi recettivi delle cellule corticali (sono state osservate dense rappresentazioni delle dimensioni a diverse frequenze spaziali ).

Schema primario grezzo:
Nello schema primario grezzo per Marr sarebbero stati codificati simbolicamente non solo i bordi ma anche barre, macchie, terminazioni (tutti considerati elementi primitivi ). (Le figg.4.3.14A-B mostrano lo zero-crossing a due scale diverse della fig.4.3.6A; le figg.4.3.14C-D-E mostrano invece rispettivamente macchi, bordi e barre individuati tramite un algoritmo automatico ).
Le barre sono definite come corti segmenti terminanti fuori dal campo recettivo, le terminazioni come parti finali di bordi e barre, le macchie sono barre brevi con terminazioni su entrambi i lati. Come l'individuazione di bordi è svolta da cellule semplici, così dovrebbe essere anche per l'individuazione barre, l'individuazione di terminazioni dovrebbe invece essere operata dalle cellule ipercomplesse.
Le terminazioni vengono inserite nello schema primario grezzo (pur non essendo oggetti ma parti di oggetti) per il ruolo importante che sembrano rivestire in alcuni forti effetti percettivi. I contorni illusori (fig.4.3.15 ) sono contorni percepiti senza che vi sia un bordo di luminanza fisico: sembrano dovuti al ruolo dei terminatori che possono indicare occlusione (di linee o bordi da parte di altri bordi).
Lo schema primario grezzo è la prima rappresentazione simbolica del modello di Marr: aspetti di un'immagine (analogica ) sono trasformati in un insieme (discreto ) di barre, bordi, terminazioni, macchie. Queste quattro categorie di aspetti di dell'immagine vengono considerati nella rappresentazione simbolica tipi (types ) ed ogni singolo bordo, macchia, barra, terminazione è detto segno (token ) di quel tipo. Ciascun segno, per essere distinto dagli altri segni dello stesso tipo, viene distanziato tramite alcuni parametri: posizione, orientamento, contrasto di luminanza e dimensioni ). Le posizioni (sugli assi x-y ) sono rappresentate grazie alla retinotopicità della mappa- output dello schema primario grezzo; molte computazioni successive, basate sullo schema primario grezzo, sono rese possibili all'interno di regione specifiche proprio dalla disposizione retinotopica (che mantiene, per definizione, le posizioni reciproche fra elementi ), per questo è necessario a tale livello il mantenimento della struttura 2-D dell'immagine.
Lo schema primario completo del modello di Marr deriva da quello grezzo tramite processi organizzanti i segni: legami tra segmenti, raggruppamenti di elementi, divisioni in regioni in base a gruppi di texture (trama ).


4.3.3: "Teorie computazionali alternative"

Più spiegazioni computazionali sono state avanzate sulla funzione delle cellule di Hubel-Wiesel. Una possibilità è che tali neuroni rappresentino un passaggio cruciale per l'analisi dell'informazione data dalle texture; un'altra è che servano a ricavare le curvature delle superfici a partire dall'ombreggiatura di queste.

Analisi di texture (Malik e Perona, 1990 )
Attraverso il processo di analisi delle texture il sistema visivo può distinguere aree/regioni distinte spazialmente da proprietà statistiche. L'area V1 sarebbe per alcuni autori deputata alla segregazione di regioni dell'immagine visiva in base all'informazione ricavabile da texture (fig.4.3.16 ). La teoria può spiegare in modo economico molti risultati sulla percezione di texture assumendo i campi recettivi dei neuroni di V1 analizzino texture tramite l'informazione sull'orientamento e la frequenza spaziale. L'algoritmo proposto non individua bordi di luminanza ma produce solo quello che sarà l'input per un successivo riconoscimento di discontinuità nelle superfici; se questa fosse vera si dovrebbe pensare ad un coinvolgimento delle cellule di Hubel-Wiesel in più funzioni.

Strutture dell'ombreggiatura (Lehky e Sejnowski, 1988-1990 )
Sulla base della ricerca con reti neurali è stata proposta una differente funzione dei neuroni presenti in V1. Il problema studiato è la capacità di ricavare da differenze di luminanza dovute alla struttura degli oggetti (ombre), la struttura medesima. Le figure 4.3.17 A e B dimostrano come rappresentazioni 2-D di oggetti 3-D non sia in grado di far comprendere la sua struttura se privato di ombre/bordi di luminanza.
Una rete neurale a 3 strati in grado di riconoscere la curvatura di un oggetto a partire dalle differenze di luminanza presentate dall'immagine (fig.4.3.18) è stata ricavata tramite backpropagation (algoritmo di correzione automatica dei pesi sulle connessioni tra nodi su diversi livelli).
L'input della rete è stato dato come immagine filtrata da on-cells (61) e off-cells (61); l'output come caratteristiche codificanti la curvatura dell'immagine; tramite backpropagation si andavano a modificare i pesi delle unità nascoste (strato intermedio). Il risultato interessante è che i campi recettivi delle unità nascoste ricordavano quelli dei neuroni presenti in V1 (fig.4.13.19). I campi recettivi trovati erano allungati e costituiti da più lobi (probabilmente per le caratteristiche dell'immagine da gestire).
Un'analisi formale delle strutture a partire dalle ombreggiature (Pentland,1989) ha mostrato che sotto certe condizioni un set di filtri di Gabor può essere sufficiente a ricostruire strutture di oggetti da loro proiezioni. Tali filtri comprendono una campionatura di frequenze spaziali e orientamenti secondo fasi di seno e coseno in diverse posizioni: questo è il set di campi recettivi di cellule di V1 secondo alcuni autori: potrebbe quindi darsi che l'output delle cellule di V1 sia il primo passo per arrivare dall'ombreggiatura alla forma (come sostiene l'ipotesi di Lehky e Sejnowsky).


4.3.4 Sintesi teorica

Si tenterà di fare il punto sui risultati inerenti le cellule scoperte da Hubel-Wiesel

Filtri locali di frequenza spaziale:
Queste cellule potrebbero rappresentare l'implementazione fisiologica dei canali per la frequenza spaziale 8IPOTIZZATI DA Campbell e Robson,1968), con la differenza che i neuroni suddetti avrebbero campi retinici localizzati (riguardanti piccole porzioni retiniche), mentre i canali per la frequenza spaziale si ipotizzavano distribuiti per tutto il campo recettivo. Ogni ipercolonna di V1 analizzerebbe quindi solo una piccola porzione di campo recettivo tramite le cellule semplici (sensibili a particolari frequenze spaziali e direzione dello stimolo, come ipotizzato dalla teoria della frequenza spaziale). Le cellule semplici svolgerebbero una analisi di Fourier locale.
Dal punto di vista computazionale le cellule di V1 svolgerebbero un ruolo di individuatori di bordi su diverse scale (Marr-Hildreth,Witkin) con ipotesi anche di un ruolo di queste stesse cellule nell'analisi di texture (Malik-Perona) e sulla loro appartenenza a un sistema di analisi della struttura basato sulla ombreggiatura (Lehky e Sejnowsky).
Riuscire a concludere qualcosa sul reale significato funzionale delle cellule di V1 implica il riconoscere una qualche compatibilità sulle osservazioni fatte in diversi ambiti; forse le diverse descrizioni rappresentano solo una risposta adeguata relativa a livelli di analisi differenti (fig.4.3.20). Il punto di vista psicofisico è generale e specifica solo che i campi recettivi di questi neuroni richiamano caratteristiche delle funzioni di Gabor, ciò è compatibile con l'ipotesi che gli output di queste cellule vengano utilizzati per successivi processi di detezione dei bordi, suddivisioni secondo texture e riconoscimento di forme 3-D a partire dall'ombreggiatura (processi che potrebbero anche essere svolti tutti in parallelo), nonché per altre funzioni non ipotizzate. Da V1, dove avvengono le elaborazioni primarie) si passerebbe così ad altre aree deputate a elaborazioni più specifiche (tutte basate però sugli output delle cellule di Hubel-Wiesel).
Marr aveva ipotizzato uno schema primari grezzo simbolico (costituito de barre, bordi, macchie e terminatori) visto come rappresentazione basata sull'immagine necessaria ad elaborazioni successive: V1 rappresenta l'immagine visiva piuttosto in termini di output continuo di analizzatori/filtri (sensibili a posizioni, orientamenti, scale, fasi), ma la sua funzione appare analoga a quella ipotizzata per lo schema primario grezzo (tale rappresentazione è sufficientemente generale ed efficiente). Questo inficia tuttavia la supposizione di Marr che il sistema visivo "diventi simbolico" a livelli iniziali: una quantità maggiore di informazione (necessaria a livelli successivi di analisi) di un set di primitive simboliche (premature a questo livello).

Sfruttamento della struttura delle immagini naturali:
La rappresentazione delle immagini visive è costruita in questo modo probabilmente per permettere di gestire al meglio la struttura delle immagini naturali (Barlow,1961), cioè delle immagini di ambienti naturali visti in condizioni naturali. Sfruttare la struttura significa eliminare la ridondanza permettendo di rappresentare efficientemente l'informazione visiva. Per dimostrare la veridicità di questa ipotesi è necessario controllare se l'output dei filtri di Gabor è in qualche modo preferibile ad altri: alcune prove vengono da studi computazionali sulla struttura statistica di immagini naturali (Field,1993,1994) e sulla possibilità di ottimizzare i campi recettivi delle cellule di V1 per l'estrazione di informazione di questo tipo (Olshausen e Field,1996).

La comprensione del concetto di struttura statistica delle immagini naturali presuppone la spiegazione del concetto di spazio degli stati in un array di recettori. Dato un array di n recettori (ciascuno dei quali possa rappresentare valori in un certo intervallo di luminanza), ogni possibile immagine rappresentabile in tale array corrisponde a un punto nello spazio n-dimensionale detto "spazio degli stati". Ogni dimensione di tale spazio corrisponde all'output di un singolo recettore (luminanza del singolo pixel corrispondente). Ogni immagine corrisponde a un punto, sullo spazio, individuato dai valori di tutti i suoi pixel (un valore per dimensione).
Lo spazio degli stati rappresenta ogni immagine ( che può venire registrata dall'array di recettori) come un singolo punto; lo spazio degli stati rappresenta a sua volta il set di tutte le immagini che l'array può codificare.
Il set delle immagini naturali rappresenta, a questo punto, un subset delle immagini che possono essere rappresentate dallo spazio degli stati e, siccome è molto piccolo rispetto a questo, andrà a occupare una piccola parte dello spazio degli stati: il problema è capire come si presenta la distribuzione di immagini naturali. Considerando un caso molto semplificato (un array di 2 recettori codificanti a livello di luminanza)(fig.4.3.22) si può subito notare la differenza fra distribuzioni casuali (fi.4.3.22 B) e strutturate (fig.4.3.22 C). E' importante notare che il sistema visivo potrebbe servirsi di eventuali strutture statistiche di immagini naturali per risultare più efficiente. Effettivamente le immagini naturali hanno una struttura statistica (seppur molto complessa) nello spazio degli stati.
Un altro problema è come avvenga lo sfruttamento della struttura statistica delle immagini naturali da parte del sistema visivo. Sono state proposte 2 possibilità: la codifica compatta (che prevede la registrazione degli output degli array di recettori per minimizzare le unità utilizzate (fig.4.3.23 A) e la codifica distribuita (secondo cui la registrazione degli output dei recettori porterebbe a minimizzare le unità attivate) (fig.4.3.23); i due metodi hanno diverse implicazioni riguardo ai campi recettivi che verrebbero utilizzati per la registrazione di immagini.
Un metodo per ottenere una codifica compatta è l'analisi dei princìpi componenti (PCA).
La PCA è una procedura che ricava un set ridotto di vettori ortogonali (funzioni di base) sufficienti a comprendere la varianza dei punti rappresentanti le immagini naturali nello spazio degli stati (i vettori divengono assi); questo metodo è particolarmente economizzante: se le immagini naturali avessero una struttura statistica analizzabile dalla PCA, si potrebbe averne una codifica molto compatta. Questa ipotesi è stata vagliata utilizzando algoritmi di apprendimento non supervisionato (in reti neurali); lo scopo era ricavare campi recettivi ottimali (in accordo con la PCA). La fig. 4.3.24 mostra un set di campi recettivi 8x8 prodotti secondo la PCA (simulanti quelli dei neuroni presenti in V1); tali campi recettivi non approssimano però sufficientemente quelli corticali.
Un altro metodo di codifica della struttura delle immagini naturali è la codifica distribuita, con cui la rappresentazione minimizza il numero di unità attive (non quello di unità distribuite). Un esempio semplificato a due recettori (fig.4.3.25) mostra una struttura statistica (designante un subset di immagini) nello spazio degli stati; tra gli assi (recettori A e B) non c'è una correlazione semplice ma sicuramente una forte relazione di qualche tipo. Mappando indipendentemente su A e B le distribuzioni di punti (che si possono considerare livelli di luminanza) si ottiene sia per A che per B un istogramma con un valore atteso di luminanza media (grigio intermedio) ma si osservano anche alte probabilità di trovare luminanze minime (scuro) o massime (chiaro). Se a questo punto si fanno ruotare gli assi di 45° e si osservano nuovamente gli istogrammi di A e B si osserverà un picco maggiore sui valori intermedi e proprio tal aspetto (KURTOSIS=CURVATURA?) è caratterizzato dalla codifica distribuita. Nella registrazione distribuita si avranno poche unità attive (per risposte lontane dal valore modale, altamente probabile) e molte unità inattive (per risposte limitrofe al valore medio). Esperimenti basati su apprendimento non supervisionato usato per modellare i campi recettivi delle unità in modo che producano codifica distribuita (Olhausen e Field,1996) hanno portato buoni risultati (fig.4.3.26): usando immagini naturali di 16 x16 pixel per addestrare una rete di 192 unità di registrazione in modo da effettuare correzioni penalizzanti le rappresentazioni non distribuite si ottiene un set di campi recettivi simile a quello dei neuroni di V1. Tali campi recettivi sono molto simili alle funzioni di Gabor e comprendono campi di differente grandezza.
L'algoritmo di apprendimento che è riuscito a produrre tali campi recettivi si basa su solo due istruzioni teoriche: l'informazione portata dall'immagine viene preservata nell'output delle unita di registrazione (tanto da poter ricostruire con buona approssimazione l'immagine iniziale, non perdendo informazione); la registrazione è distribuita (risparmiando unità attive). La codifica distribuita sembra perciò preferita sulla corteccia visiva; questo è giustificato dal bisogno di economizzare unità (ma la codifica compatta sarebbe ancora più economica; Field (1994) propone 3 possibilità sul perché la codifica distribuita venga preferita nei sistemi visivi:
1. Proporzione di segnale su rumore (migliora nella codifica distribuita piuttosto che compatta)
2. Individuazione di caratteristiche specifiche (è meglio assistita da una codifica distribuita per cui meno unità sono attivate e queste unità sono più attivate che nella codifica compatta).
3. Immagazzinamento e recupero della memoria associativa (reti neurali artificiali sembrano immagazzinare più dati e recuperarli più efficacemente con codifica distribuita).
Gli studi presentati sulla struttura statistica delle immagini naturali sono molto promettenti ma ancora in fase iniziale: manca la possibilità di calcolare la codifica distribuita ottimale per un set di immagini; non si è in grado di ipotizzare un meccanismo neurale plausibile per la implementazione della codifica distribuita.


4.4 VIE VISIVE

Recentemente è stato studiato un nuovo aspetto dell'architettura generale dei processi visivi primari. L'idea è che il sistema visivo sia organizzato in diverse vie per il processamento concorrente di diverse proprietà visive (forma, colore, movimento, profondità stereoscopica). Tali vie sono strutture neurali più grosse, incorporate in popolazioni di cellule interconnesse.

4.4.1 Prove fisiologiche

L'idea che ci siano rappresentazioni neurali diverse per diverse proprietà nasce dagli studi sulle aree visive superiori. I primi studi (Zeki,1974) suggerivano che l'area MT (medio temporale) fosse specializzata nell'analisi di informazioni di movimento e l'area V4 (visiva IV°) nelle informazioni sul colore. Ma poiché i recettori portano con sé tutte le informazioni, il sistema visivo deve separarle a qualche livello delle vie visive o nelle aree corticali. Dove?
Vi sono prove anatomiche e fisiologiche di differenze funzionali nella retina, mantenute anche negli strati Magno- e Parvocellulare del LGN e poi ulteriormente suddivise in V1.
Livingstone e Hubel (1987) formularono interessanti ipotesi sul loro ruolo funzionale. La loro idea è schematizzata nella fig.4.4.1. La prima distinzione è fra le cellule gangliari M (cerchi pieni) e cellule gangliari P (cerchi vuoti), nella retina. La loro ipotesi è che le cellule M portino l'informazione riguardo al movimento e alla profondità stereoscopica e le cellule P l'informazione relativa al colore e alla forma. Ogni gruppo proietta selettivamente ai neuroni Magno e Parvocellulare del LGN, dove continua la separazione funzionale. Una ulteriore separazione avviene al livello dell'area V1. Livingstone e Hubel osservarono innanzitutto che i neuroni Magno e Parvocellulare terminano in diverse regioni dello strato 4 in V1. I neuroni Magnocellulari sinaptano nello strato 4Ca e i Parvocellulari in 4Cb. Questi substrati proiettano a loro volta selettivamente agli strati 4B e 2 &3.
Vi sono inoltre 2 diverse subregioni negli strati 2&3 per ogni ipercolonna di V1: le regioni "blob" (chiazzate) al centro dell'ipercolonna, e le regioni "interblob" intorno ad esse. Le regioni blob sono ricche dell'enzima citocromo ossidasi, infatti le porzioni superiori di V1 hanno un caratteristico aspetto maculato dopo essere state trattate con colorante, come appare nella parte superiore della fig.4.4.2 (sezione tangenziale della corteccia di una scimmia). Anche l'area V2 produce un pattern caratteristico se trattata: si alternano strie grosse e sottili intervallate da strie pallide (parte inferiore fig.4.4.2). Lo strato 4B in V1 proietta alle strie grosse in V2, i blobs alle strie sottili, gli interblobs alle strie pallide. Le altre vie principali vanno direttamente da 4B a MT. Questa organizzazione descrive 4 vie con funzioni percettive potenzialmente diverse. Risultano così 4 sottoinsiemi funzionali: le strie grosse per la percezione binoculare di profondità; le strie sottili per la percezione del colore, le strie pallide per la forma; le proiezioni dirette per il movimento.
Tale divisione è tutt'altro che chiara (in ogni strato ci sono più cellule differenti), in ogni caso va intesa in termini di preponderanza di un tipo di cellula per ogni via. Le 4 vie sarebbero così composte:
1. Via del colore: Cellule P in retinaàneuroni parvocellulari LGNàV1-4Cbà blobs in V1 àV2-strie sottiliàV4... e così via
2. Via della forma:Cellule P in retinaàLGN-parvoàV1-4Cbàinterblobs in V1àV2-strie pallideà V4à...
3. Via binoculare: Cellule M della retinaàLGN-magnoàV1-4CaàV1-4BàV2-strie grosseàMT...
4. Via del movimento: Cellule M in retinaàLGN-magnoàV1-4CaàV1-4BàMTàMST...
Tale ipotesi è controversa. Anche se è probabilmente errata nel dettaglio (la distinzione funzionale non è completa), è comunque una ipotesi integrativa che potrebbe generare interessanti studi. Anche se la distinzione è fondamentalmente corretta, è tutt'altro che chiaro come le analisi percettive necessarie siano attuate. Ad esempio: la via della forma risponde a stimoli altamente complessi (mani, facce, ecc.), però non abbiamo idea di come i filtri locali di frequenza spaziale orientati, in V1, siano elaborati per arrivare al riconoscimento di una mano. Gli studi sull'area V4, ad esempio hanno trovato cellule altamente selettive per pattern diversi dai reticoli di frequenza spaziale, includendo reticoli radiali, spiraliformi e iperbolici, ma il loro significato funzionale è tutt'altro che chiaro (fig.4.4.3 : reticoli Cartesiani e non-Cartesiani. Questo diagramma indica la risposta di una singola cellula dell'area V4 a una varietà di pattern-stimolo. L'intensità della risposta è codificata in termini di grado di contrasto. Questa cellula risponde più intensamente a pattern concentrici).

4.4.2 Prove percettive

Dato che le nostre esperienze percettive risultano del tutto integrate, l'idea che ogni componente dell'informazione venga analizzata in modo separato ci può sembrare assurda, ma da un altro punto di vista essa è del tutto naturale. Se si chiede di elencare diversi aspetti dell'esperienza percettiva, molto probabilmente le persone affermeranno che forma, colore e movimento sono caratteristiche separate. Entrambi i punti di vista possono essere integrati assumendo che i diversi attributi siano inizialmente elaborati indipendentemente, ma in seguito uniti a un qualche livello successivo. Secondo un'influente teoria l'unificazione si ottiene mediante l'azione dell'attenzione visiva . Essa agirebbe come una ipotetica "colla percettiva" che leghi le diverse caratteristiche in oggetti coerenti.
Questa teoria è supportata da una gran quantità di esperimenti percettivi. Se questi processi sono realmente separati, dovrebbero esserci chiari e misurabili effetti nell'esperienza percettiva. E questo è vero almeno in determinate ristrette circostanze. Una importante fonte di prove viene dall'analisi di alcune lesioni selettive della corteccia visiva. Alcuni pazienti presentano una perdita selettiva della capacità di percepire il movimento, senza danni alle altre componenti percettive. In altri, la lesione riguarda selettivamente la percezione del colore. Tali fenomeni sono facilmente spiegabili se si considera separata l'analisi delle diverse componenti del percetto.
Un altro tipo di prove deriva da effetti psicofisici. Nel 1978 Ramachandran e Gregory ipotizzarono che, se l'informazione relativa al movimento è processata nella via magnocellulare e l'informazione relativa al colore in quella parvocellulare, ci dovrebbero essere condizioni in cui le persone dovrebbero essere incapaci di percepire il movimento in stimoli definiti solo da differenze di colore.
Essi scoprirono che, se punti rossi e verdi di uguale luminanza posizionati casualmente venivano presentati alternativamente in posizioni leggermente diverse in condizioni che avrebbero prodotto normalmente una percezione di movimento, gli osservatori non potevano percepire il movimento.
Effetti correlati sono stati trovati nel movimento continuo di reticoli a bassa frequenza spaziale.
Reticoli di uguale luminanza possono essere ottenuti costruendo un reticolo sinusoidale che varia fra il rosso e il verde anziché nero e bianco. Facendo scorrere questo reticolo attraverso il campo visivo la sua velocità percepita è molto minore che se fosse costruito in bianco e nero. Tali reticoli possono anche apparire fermi, e questo effetto "paradossale" può essere spiegato solo se il sistema per il colore è "cieco per il movimento".
Le stesse affermazioni sono state fatte riguardo la separazione fra colore e informazioni di profondità. Alcune informazioni di profondità dipendono dalla luminanza più che dal colore. Le ombre e sfumature (che forniscono informazioni relative alla luminanza) sono importanti per percepire la profondità. Se le gradazioni di chiaroscuro di una fotografia sono cambiate in differenze cromatiche con uguale luminanza (ad Es: gradazioni dal rosso al verde) la percezione di profondità dovuta alla sfumatura diminuisce o scompare.
Ulteriori studi hanno dimostrato che anche la separazione percettiva, come quella fisiologica, è tutt'altro che completa. Il colore sembra contribuire alla percezione del movimento. Molte evidenze supportano le affermazioni di Livingstone e Hubel, ma molto poche sono definitive. Un grosso problema deriva dal fatto che, non è facile ottenere un'assoluta equiluminanza e molti dei loro effetti si basano su questa tecnica. Quindi, se si fallisce nel trovare effetti chiari di separazione, questo potrebbe essere attribuito sia alla incompleta separazione delle vie, sia a errori nell'ottenere l'equiluminanza. Dato che fisiologicamente la separazione è incompleta, sembra improbabile un chiaro effetto percettivo.
Un altro problema deriva dal fatto che le conoscenze fisiologiche cambiano di continuo. Ad esempio Livingstone e Hubel avevano identificato l'area V4 come parte della via del colore e non della forma (ipotesi basata sui primi risultati di Zeki,1983). Studi più recenti dimostrano che lesioni selettive in V4 nelle scimmie, producono deficit nel riconoscimento di pattern più che del colore. Inoltre singole cellule in V4 hanno mostrato selettività per aspetti complessi della forma. Considerando tutto ciò, possiamo dire che la teoria delle 4 vie è una semplificazione, al massimo.
Forse sarà necessaria una nuova, completa riconcettualizzazione dell'architettura percettiva della corteccia. Attualmente l'idea delle 4 vie rimane comunque un concetto interessante che merita ulteriori approfondimenti.

Collaborators

I am the leader of the Neuromorphics Lab, a highly collaborative lab with connections across both academia and industry.