Palmer Cap 5

Le traduzioni che potrete trovare su questo sito sono unicamente destinate ad uso interno per il corso di Psicologia della Percezione dell'Università degli studi di Trieste. Nascono con l'intento di fornire un ausilio a quegli studenti che non hanno molta dimestichezza con la lingua inglese. Le traduzioni sono opera degli stessi studenti del corso di Psicologia della Percezione 1999 - 2000. Nell'utilizzo di questo materiale va tenuto conto che la correttezza dello stesso va verificata confrontando le traduzioni con il testo originale. Per ulteriori domande, clicca qui.

LA PERCEZIONE DI SUPERFICI ORIENTATE IN PROFONDITA'

 


Le caratteristiche dell'immagine 2-D, come i bordi le linee e gli elementi strutturali, sono importanti per la visione perché ci forniscono l'informazione sul mondo che ci circonda. Ma devono essere interpretati in termini di struttura 3-D per fare il salto deduttivo dall'immagine all'ambiente. Questo salto è richiesto perché gli organismi che percepiscono non sono interessati ai contorni tra regioni di differente luminanza, colore o tessitura a livello retinico; sono interessati ai bordi tra differenti superfici di oggetti nell'ambiente.

Due delle tre dimensioni spaziali dell'ambiente sono presenti esplicitamente nelle immagini bidimensionali delle retine: queste due dimensioni possono essere concepite come specificanti la direzione dall'osservatore alla superficie.

La terza dimensione, la distanza della superficie dall'osservatore, cioè la profondità, viene persa nel processo di proiezione ottica dalle superfici del mondo tridimensionale alle retine bidimensionali; cioè dalla disposizione delle superfici nello spazio, propria della tridimensionalità dell'ambiente circostante, alla proiezione di tali superfici in un piano bidimensionale, ossia le retine. Una volta che questa informazione è persa non può essere recuperata con certezza assoluta ma di fatto la gente riesce a percepire bene il proprio ambiente tridimensionale. Come è possibile?
Ci sono due problemi strettamente legati che devono essere risolti:

1. Determinare la profondità: la distanza della superficie dall'osservatore nell'ambiente 3-D;
2. Il percepire l'orientamento della superficie: "slant" e "tilt" della superficie rispetto alla traiettoria visiva dell'osservatore. Sebbene i termini "slant" e "tilt" siano spesso usati come sinonimi tecnicamente si riferiscono a due parametri diversi. "Slant" si riferisce alla grandezza dell'angolo tra la linea della visuale (cioè la traiettoria visiva) e la normale alla superficie; che è quella linea virtuale che esce dalla superficie nel punto dato, cioè la perpendicolare in quel punto. Quindi avremo una "slant" pari a 0 se consideriamo il piano frontale dell'oggetto; sarebbe infatti come considerare una superficie bidimensionale. La "slant" corrisponde anche alla lunghezza della proiezione della normale alla superficie sul piano frontale. Proiezioni più lunghe corrispondono a "slant" maggiori .Maggiore è l'angolo maggiore sarà la superficie "slant". In figura 5.0.1 "slant"corrisponde all'allungamento delle ellissi proiettate, maggiore è l'allungamento maggiore sarà lo slant relativo al piano frontale. Tilt si riferisce alla direzione del gradiente di profondità relativo al piano frontale. Nella figura corrisponde all'orientamento dell'ellisse proiettata nel piano frontale e alla direzione della normale alla superficie proiettata sul piano frontale.

La profondità e l'orientamento delle superfici sono interdipendenti.
L'orientamento 3-D di una superficie determina quanto lontane sono le sue diverse parti dall'osservatore, parimenti la distanza delle sue varie parti determina il suo orientamento 3-D.

Un modo di formulare il problema è vedere che il sistema visivo calcola, per ogni direzione esterna al punto di vista dell'osservatore, l'orientamento e la distanza - detta anche profondità - della superficie che ha riflesso la luce in quella particolare direzione. Questa concezione della percezione della superficie come determinata dalla sua distanza e orientamento (orientamento a una distanza) fu originariamente formulata da J.J.Gibson (1950). Egli si riferisce alla percezione del "layout di superficie"; l'idea di recuperare l'orientamento a una distanza fu più tardi riformulata più precisamente in termini computazionali da Marr e Nishihara (1978), con il concetto del "2.5 - D sketck" (= modello).

Una rappresentazione delle superfici orientate in profondità è indispensabile alla visione ed è necessaria per capire molti livelli più elevati di fenomeni percettivi.
La percezione delle superfici, quindi, è importante dal momento che essa costituisce la fonte di tutte le informazioni visibili circa le strutture tridimensionali: la proiezione delle superfici sulle retine è il primo passo, tutte le successive astrazioni che portano l'osservatore a trarre informazioni sull'ambiente dipendono da questo.

5.1

IL PROBLEMA DELLA PERCEZIONE DELLA PROFONDITÀ.

Il problema di recuperare la distanza da una superficie deriva dal fatto che la percezione di profondità proveniente dalle immagini 2-D è relativamente ambigua. La ragione di questa ambiguità è che i processi ottici di riflessione di una superficie e di formazione di un'immagine proiettano luce da un mondo 3-D a una superficie 2-D in fondo all'occhio.
La percezione della profondità è quindi l'esempio paradigmatico della ambiguità logica della percezione.

5.1.1

ASSUNZIONI EURISTICHE.

Questa analisi sembra portare alla conclusione che una veridica percezione della profondità sia impossibile. Questo non concorda con il fatto che la gente percepisce correttamente la profondità ogni minuto di ogni giorno.
La risposta è che solo un'infallibile percezione di profondità in tutte le possibili circostanze è logicamente impossibile; ma non c'è contraddizione logica dal momento che la percezione umana della profondità è difficilmente infallibile in tutte le circostanze considerabili.

Infatti, ci sono molte situazioni in cui le persone vengono "ingannate" vedendo la profondità; da molte immagini bidimensionali noi ricaviamo informazioni circa gli oggetti rappresentati, che nella realtà sono tridimensionali. La percezione di profondità è possibile nella vita di ogni giorno perché il nostro sistema visivo implicitamente fa uso di certe assunzioni euristiche riguardo alla natura del mondo esterno e alle condizioni dell'osservazione visiva. Insieme con le informazioni specifiche disponibili nelle due immagini retiniche queste assunzioni sono sufficienti per recuperare l'informazione di profondità. L'ambiguità logica dell'informazione di profondità è comunque importante perché ci aiuta a capire le condizioni sotto le quali il sistema visivo viene ingannato nella percezione della profondità.

 

 

5.1.2

LO SCHEMA 2.5-Ddi MARR.

Come può l'informazione visiva riguardo alla disposizione della superficie nella profondità ad essere rappresentata?
La proposta più rilevante è da attribuire alla concezione dello schema 2.5-D di David Marr (figura 5.1.2).

Questo schema, come implica il nome, sta da qualche parte tra le proprietà 2-D di una rappresentazione basata sull'immagine e le proprietà 3-D di una rappresentazione basata sull'oggetto.

Riassume gli output di differenti elaborazioni che portano l'informazione riguardo all'orientamento e alla profondità di parti della superficie nell'ambiente in una conveniente rappresentazione di orientamento a una distanza. La teorizzazione di Marr va oltre il contributo di Gibson poiché propone come una rappresentazione può essere ricavata da un'immagine reale.
Questo modello sottolinea che ci sono molti moduli di elaborazione indipendenti che calcolano l'informazione di profondità a partire da fonti diverse (fig.5.1.3).
Ogni modulo elabora un diverso tipo di informazione e alla fine porta diversi vincoli all'interpretazione finale della profondità dello schema 2.5-D.

Ci sono molte differenti fonti di informazione di profondità, che possono essere classificati in modi diversi come indicati in figura 5.1.4. Una distinzione è se l'informazione in questione riguarda lo stato degli occhi (informazione oculare) o la struttura della luce che entra negli occhi (informazione ottica). La seconda è se l'informazione richiede entrambi gli occhi (informazione binoculare) o è disponibile a un solo occhio (informazione monoculare). La terza è se l'informazione è disponibile in un'immagine immobile (informazione statica) o se richiede il movimento dell'osservatore e/o dell'oggetto (informazione dinamica. Il quarto è se la fonte determina la reale distanza dall'oggetto (informazione assoluta) o se specifica soltanto quanto sono distanti gli oggetti tra loro (informazione relativa). L'ultimo è se l'informazione specifica relazioni di distanza numeriche (informazione quantitativa) o solamente relazioni ordinali di vicino/lontano (informazione qualitativa).


5.2

L'INFORMAZIONE OCULARE.

L'informazione oculare riguardo alla distanza da una superficie fissata dipende sia dallo stato di entrambi gli occhi sia dai loro vari componenti. Di particolare importanza sono la messa a fuoco delle lenti (accomodazione) e l'angolo tra le linee di vista dei due occhi (convergenza).


5.2.1

L'ACCOMODAZIONE.

L'accomodazione è il processo attraverso il quale i muscoli ciliari nell'occhio controllano la messa a fuoco delle lenti cambiando la loro forma. E' un'informazione di profondità monoculare perché è disponibile anche mediante un occhio solo.

Le lenti dell'occhio umano hanno una capacità variabile di messa a fuoco, diventando più sottili per focalizzare la luce proveniente da oggetti distanti e più spesse per focalizzare quella proveniente da oggetti vicini. Se il sistema visivo ha l'informazione riguardo alla tensione dei muscoli che controllano la forma delle lenti allora ha l'informazione sulla distanza dall'oggetto focalizzato.

Sebbene l'accomodazione è di solito considerata come una fonte debole di informazione di profondità studi sperimentali indicano che la gente la usa quando le distanze sono piccole e la usa per inferire la grandezza degli oggetti.
L'accomodazione fornisce informazione sulla profondità assoluta; può specificare la reale distanza dall'oggetto fissato, ma è necessario che l'oggetto sia a fuoco sulla retina per ottenere risultati accurati. Questo implica che il sistema visivo deve in qualche modo conoscere quando un oggetto è a fuoco. Una delle migliori indicazioni per capire se un oggetto è a fuoco è la presenza di bordi netti anziché sfumati. Così l'immagine offuscata è lo stimolo effettivo che guida l'accomodazione. E' probabile che il sistema visivo controlla l'accomodazione aggiustando la tensione dei muscoli ciliari. A causa del suo ristretto raggio d'azione l'accomodazione è raramente usata come indizio cruciale di informazione di profondità negli umani.

 

 

 

5.2.2

CONVERGENZA.

La convergenza è la misura con cui gli occhi sono rivolti verso l'interno (uno verso l'altro) quando fissano un oggetto. Gli occhi fissano un punto dato nello spazio esterno quando entrambi guardano direttamente un punto così che la luce da esso proveniente cade sui centri di entrambe le fovee simultaneamente. Poiché ogni fovea ha solo un centro solo un punto può essere fissato con esattezza in un dato momento. L'angolo formato dalle due linee di vista cambia sistematicamente con la distanza tra l'osservatore e il punto fissato.

Quando fissiamo un oggetto vicino si forma un grande angolo di convergenza, se l'oggetto è lontano l'angolo è piccolo (figura 5.2.2). Siccome la convergenza dipende dall'uso di entrambi gli occhi, è una fonte di informazione di profondità binoculare, diversa dall'accomodazione, ma come l'accomodazione fornisce informazione sulla distanza assoluta dall'oggetto fissato. Convergenza e accomodazione, di norma, covariano. Però, sebbene siano importanti fonti di informazione per quanto riguarda la profondità, sia nel caso di grandi distanze che in quello di visione binoculare, i loro rapporti e il loro contributo risultano essere solamente parziali.

5.3

INFORMAZIONE STEREOSCOPICA.

La "stereopsi" è il processo di percezione della relativa distanza dagli oggetti basata sul loro spostamento laterale nelle due immagini retiniche, cioè la percezione della terza dimensione che si ha con la normale visione binoculare. La stereopsi è possibile perché abbiamo due occhi separati lateralmente e i loro campi visivi si sovrappongono nella regione centrale. A causa della distanza tra i due occhi le due immagini retiniche di molti oggetti sono leggermente diverse nella zona di sovrapposizione. Infatti lo stesso punto nell'ambiente proietta a diverse posizioni nelle retine destra e sinistra che sono spostate in un modo che dipende da quanto è vicino o lontano il punto dal punto di fissazione. Questo spostamento laterale relativo si chiama disparità binoculare.

5.3.1

DISPARITA' BINOCULARE.

Le due immagini retiniche sono abbastanza simili così che non noti la differenza se le paragoni chiudendo un occhio alla volta.

L'informazione data dalla disparità binoculare è molto precisa. La direzione della disparità fornisce l'informazione su quali punti sono così vicini e quali più lontani dal punto fissato. La grandezza della disparità fornisce informazioni su quanto questi sono vicini o lontani. La natura quantitativa della disparità binoculare è importante dal punto di vista percettivo, anche se fornisce solo informazione di profondità relativa, specifica i rapporti di distanza dagli oggetti piuttosto che specificare quale è più lontano e quale più vicino.


POSIZIONI RETINICHE CORRISPONDENTI.

Il primo passo per capire la geometria della disparità binoculare è definire posizioni corrispondenti nelle due retine: posizioni che coinciderebbero se le due fovee venissero sovrapposte da un semplice spostamento laterale.

La disparità binoculare si ha quando un punto nel mondo esterno non proietta a posizioni corrispondenti nella retina destra e in quella sinistra .
Per esempio, considera il diagramma di due occhi che fissano un punto P in figura 5.3.2. Il punto P cade nelle fovee di entrambi gli occhi e così stimola punti corrispondenti.
Ora considera le proiezioni di un punto C più vicino mentre gli occhi stanno ancora fissando il punto P. Come indicato in figura essi non cadono su punti corrispondenti nelle retine poiché quello nella retina destra è a destra della fovea e quello nella retina sinistra è a sinistra della fovea. Si parla di disparità crociata per le due immagini del punto C che indica che questo è più vicino del punto fissato P. Quanto vicino dipende da quanto sono lontani i punti disparati nella direzione crociata.
Ora considera le proiezioni della retina di un punto F più lontano del punto fissato P; anche questo punto cade in punti diversi delle retine ma questa volta quello dell'immagine destra è a sinistra della fovea e quello nell'immagine sinistra è a destra della fovea. Questa direzione interna è chiamata disparità non crociata, indica che il punto che l'ha creata è più distante del punto fissato P.

L'OROPTERO.

L'insieme dei punti dell'ambiente che stimola punti corrispondenti sulle due retine si chiama oroptero. Ci sono due modi di definirlo. Teoricamente mediante in maniera geometrica ed empiricamente mediante esperimenti. L'oroptero teorico può essere definito geometricamente proiettando coppie di punti retinici corrispondenti esternamente verso il punto nodale dell'occhio. Alcune di queste paia di linee si intersecono in un punto dell'ambiente che, per definizione, proietta alle corrispondenti posizioni retiniche.
L'insieme di tutti i punti costituisce l'oroptero. Nel piano orizzontale dell'occhio l'oroptero teorico è un cerchio chiamato il cerchio di Vieth-Muller, che passa attraverso il punto di fissazione e i punti nodali di entrambi gli occhi. La disparità di ogni punto in questo cerchio è pari a 0. Nel piano verticale le posizioni ambientali che proiettano a punti corrispondenti nelle due retine stanno lungo una linea dritta perpendicolare alla linea di vista (figura 5.3.4).

L'oroptero empirico è definito dai risultati di esperimenti psicofisici. Questi indicano che l'oroptero empirico nel piano orizzontale sta leggermente più indietro rispetto all'oroptero teorico. L'oroptero empirico nel piano verticale è inclinato lontano dall'osservatore sopra il punto di fissazione e verso l'osservatore sotto tale punto, come indicato in figura 5.3.4.Nonostante non si conoscano i motivi di tale disparità, la differenza tra i due oropteri è così piccola da poter essere ignorata per propositi pratici.

La percezione stereoscopica di profondità proviene così da diverse direzioni e gradi di disparità retinica per punti dell'ambiente che stanno davanti e dietro all'oroptero.

La disparità binoculare è una fonte relativa di informazione di profondità. La direzione e la quantità di profondità specifica quanto è più vicino o più lontano un punto dato in relazione all'oroptero. La distanza assoluta dei punti lungo l'oroptero varia al variare della distanza del punto fissato.

Una domanda che sorge spontanea dopo aver parlato della disparità tra le due immagini retiniche è perché non abbuiamo normalmente l'esperienza di immagini doppie (diplopia ). Dopo tutto ogni punto nel mondo esterno che cade in una porzione binoculare del campo visivo produce due immagini retiniche e noi raramente abbiamo una visione doppia. La risposta ha due parti. Una è che i punti su o vicino all'oroptero vengono fusi nella percezione in una immagine sperimentata singolarmente. La regione intorno all'oroptero nella quale le immagini vengono fuse si chiama area fusionale di Panum (figura 5.3.5). La seconda parte della risposta è che per punti che stanno fuori dall'area di Panum la disparità viene di solito percepita come profondità. Si può sperimentare la visione di immagini doppie quando l'ammontare della disparità è abbastanza grande (ad esempio incrociando gli occhi) o se si considera la disparità come una "doppiezza" (percettiva). Generalmente, comunque, la normale visione stereoscopica è limitata alla regione centrale del campo visivo dove le due immagini retiniche si sovrappongono, per cui la disparità risulta essere talmente piccola da non venir percepita come "doppiezza" dell'immagine.

STEREOGRAMMI.

Forse la più potente dimostrazione che la disparità binoculare possa produrre l'esperienza di superfici con differente profondità viene dagli stereogrammi: paia di immagini che differiscono nello spostamento laterale relativo degli elementi così che quando sono visti stereoscopicamente producono delle irresistibile illusioni di profondità provenienti da una pagina piatta.

Gli stereogrammi furono inventati da Charles Wheatstone quando analizzò la geometria della disparità binoculare nel 1838. Egli realizzò che se l'occhio sinistro e l'occhio destro possono essere stimolati con immagini che differiscono solo per uno spostamento laterale appropriato di oggetti altrimenti identici, questi possono essere percepiti come sistemati a differenti profondità. La caratteristica di uno stereogramma è che oggetti corrispondenti nelle immagini sinistra e destra sono spostati lateralmente, e così producono la disparità binoculare. La direzione della disparità e la sua grandezza determinano la profondità che viene percepita.

La figura 5.3.6 mostra degli esempi.
Per avere l'esperienza percettiva adeguata con gli stereogrammi è necessario che entrambi gli occhi registrino un'immagine diversa e che quindi il cervello fonda queste due immagini distinte in una sola. Esistono due modi per ottenere l'effetto: il "metodo della convergenza crociata" e quello della "convergenza non crociata".
Utilizzando il primo, bisogna incrociare gli occhi fino a "vedere" una terza immagine in mezzo alle due presentate. Questa terza "immagine" avrà le caratteristiche proprie della profondità in quanto deriva dal processo di fusione del cervello, reso possibile dall'aggiustamento operato sulla convergenza. Nel secondo procedimento, senza incrociare gli occhi, è necessario semplicemente aggiustare la distanza dall'osservatore alle due immagini, finchè tra di esse verrà percepita la terza immagine, frutto della fusione delle prime due.


5.3.2

IL PROBLEMA DELLA CORRISPONDENZA.

Il problema della corrispondenza è quello di determinare quali caratteristiche in un'immagine retinica corrispondono a caratteristiche nell'altra.

Per molti anni i teorici hanno ritenuto che questo problema venisse risolto da una specie di analisi della forma che veniva prima della stereopsi. L'ambiguità deriva dal fatto che un punto luminoso tra migliaia di punti debba corrispondere ad un altro punto, sempre rintracciabile tra migliaia di altri, nella retina opposta. Questa ambiguità può essere enormemente ridotta se consideriamo la teoria per cui l'analisi della forma venga per prima, indipendentemente, in ogni occhio e solo successivamente si abbia la fusione delle due immagini monoculari. Figura 5.3.7 B.


STEREOGRAMMI DI TIPO "RANDOM DOT".

Bela Julesz (1971), cercò di verificare la teoria secondo cui viene elaborata prima la forma costruendo quelli che chiamò stereogrammi "random dot" (=a punti casuali).
Si tratta di una coppia di immagini formate da migliaia di puntini distribuiti casualmente il cui spostamento laterale produce una convincente percezione di profondità quando vengono visti in modo stereoscopico cioè quando un'immagine stimola un occhio e l'altra immagine stimola l'altro. La figura 5.3.8 mostra un esempio di queste coppie di immagini da cui dovrebbe emergere un quadrato che fuoriesce dalla pagina.

Quando ogni immagine di questo stereogramma viene vista da sola, i punti sembrano distribuiti casualmente nel senso che non è presente una forma globale. Secondo la teoria della forma riguardo alla corrispondenza stereoscopia dovrebbe essere impossibile percepire la profondità focalizzando le immagini "random- dot" stereoscopicamente perché questa teoria assume che la corrispondenza deve essere basata su una informazione monoculare riguardante una figura riconosciuta.

Dal momento che non ci sono figure monoculari da essere accoppiate nelle due immagini retiniche, la conclusione è che questa teoria non è corretta.

Il sistema stereoscopico sembra capace di risolvere il problema della corrispondenza senza l'informazione monoculare sulla forma perché gli stereogrammi di Julesz contengono solo una piccola o nessuna informazione sulla forma. E' importante non esagerare la conclusione raggiunta, il fatto che le persone possono percepire la profondità in questi stereogrammi non prova che non c'è una analisi della forma precedente alla stereopsi. Mostra solo che la profondità stereoscopia può essere percepita senza l'informazione monoculare della forma.

AUTOSTEREOGRAMMI.

Un altro tipo di stereogrammi, diventato popolare negli ultimi anni non richiede particolari apparecchiature per essere visto. Tyler e Chang (1967) li hanno chiamati autostereogrammi, ma sono più conosciuti come stereogrammi "magic eye". La figura 5.3.12 mostra un esempio.
L'illusione di profondità viene creata quando i due occhi fissano due oggetti dversi e li fondono come fosse lo stesso oggetto. Incrociando i tuoi occhi puoi fare in modo che il tuo sistema visivo fissi oggetti diversi con i due occhi. Gli oggetti nella stessa traiettoria sono identici per forma e rendo possibile il verificarsi di questo "errore di fusione". Infatti, quando vengono fissati, essi appaiono come un singolo oggetto nel piano della profondità sul quale gli oggetti convergono (questo piano sta davanti a quello reale)
La figura 5.3.13 è un autostereogramma molto semplice se paragonato al primo creato dal computer, ma i principi di base sono gli stessi; superfici sempre più complesse possono essere costruite usando dense strutture di elementi casuali.

 


RIVALITÀ BINOCULARE,

Immagini diverse nei due occhi appaiono all'osservatore che guarda solo un'immagine alla volta; questo fenomeno è conosciuto come rivalità binoculare o soppressione binoculare. Tu puoi sperimentare la rivalità binoculare guardando la figura 5.3.15 e usando il metodo della convergenza crociata o non crociata. Fondere le immagini in un singolo, stabile oggetto percepito è quasi impossibile, ma guardando per un po' si può notare come l'immagine percepita cambi, in diverse aree del quadrato e in tempi diversi. Questa alternanza presumibilmente accade perché i neuroni responsabili di una percezione si affaticano dopo una stimolazione prolungata, lasciando il posto alla percezione dei neuroni non affaticati. La rivalità binoculare sembra un fenomeno innaturale tuttavia ci sono molti casi in cui condizioni normali producono immagini diverse su punti corrispondenti della retina, soprattutto quando esiste una grande disparità tra punti corrispondenti delle immagini. Dato che raramente percepiamo le immagini doppie, una spiegazione è che la rivalità binoculare è al lavoro, permettendo la percezione di una singola immagine sotto condizioni che dovrebbero far risultare due immagini disparate.

 

 

 

5.3.3

TEORIE COMPUTAZIONALI

Ritorniamo a una questione precedente: come può il sistema visivo risolvere il problema della corrispondenza negli stereogrammi "random-dot" quando non c'è informazione sulla forma globale?
Esistono teorie computazionali diverse per questo problema di corrispondenza alcune collegano punti individuali (pixel), altre linee e bordi, altre ancora collegano regioni localizzate di una forma con un'altra.


IL PRIMO ALGORITMO DI MARR E POGGIO.

Un interessante e conosciuto algoritmo è stato progettato da David Marr e Tomasso Poggio nel 1977. È un esempio interessante di come una rete neurale dinamica può essere costruita per risolvere un difficile compito visivo. È anche un buon esempio di come le assunzioni euristiche possono essere implementate in queste reti. L'idea base di questo algoritmo è quella di risolvere il problema della corrispondenza accoppiando pixels individuali nelle immagini di destra e di sinistra. Il punto di partenza per capire come questo viene fatto è il concetto di proiezione inversa dalle due immagini retiniche verso il mondo esterno, come si vede in figura 5.3.16. Questo diagramma mostra una vista dall'alto di due superfici a strisce nero-bianco nell'ambiente, una piccola e situata davanti a una più grande, come mostrato in alto. La luce riflessa da queste superfici viene registrata nelle immagini retiniche a sinistra e a destra. Per formare una proiezione inversa ogni pixel di queste immagini deve essere proiettato indietro in un'immagine ambientale riflessa, mostrata sotto. Le celle ombreggiate in questa matrice rappresentano posizioni nelle quali ci sono colori accoppiati tra i pixel nelle due immagini. I punti sono accoppiati (e ombreggiati) se entrambi i pixel sono bianchi o entrambi sono neri; non vengono accoppiati (e non sono ombreggiati) se uno è bianco e l'altro è nero. Tra questi numerosi accoppiamenti ce ne sono alcuni corretti che corrispondono alla porzione visibile della superficie reale nel mondo reale. Queste coppie sono più scure nella figura 5.3.16 per differenziarle dai falsi accoppiamenti. Il fatto che ci sono sia coppie false che vere riflette il fatto che questo problema inverso è forzato, e ha molte possibili soluzioni. Il problema per il sistema visivo è determinare quali accoppiamenti sono corretti e quali no. Marr e Poggio hanno proposto una rete neurale dinamica capace di portare a termine questo compito (fig 5.3.17). Questo mostra le immagini di destra e di sinistra della figura 5.3.16 che attivano nodi interni in una rete neurale, che rappresenta l'insieme di tutte le possibili corrispondenze. Così ogni nodo rappresenta un potenziale accoppiamento tra due pixel. Solo le intersezioni che provengono dai pixel di uguale colore sono accoppiamenti possibili perché solo i pixel che vengono proiettati dallo stesso punto nell'ambiente devono avere lo stesso colore. Questi colori accoppiati costituiscono il maggior vincolo nella risoluzione del problema della corrispondenza perché tutti i nodo bianchi possono essere eliminati dalla considerazione. Accoppiandoli in base al colore non possiamo giungere ad un'unica soluzione del problema della corrispondenza perché ci sono ancora molti accoppiamenti di colore per ogni punto nelle immagini sinistra e destra. Bisogna trovare ulteriori euristiche in grado di portarci a una formulazione del problema che ci porterà a un'unica corretta soluzione. Marr e Poggio hanno proposto due ulteriori euristiche:

1. Opacità della superficie: la costrizione (ostacolo) data dall'opacità stabilisce che, poiché la maggior parte delle superfici nel mondo sono opache, può essere vista solamente quella più vicina.
2. Continuità della superficie: la costrizione della continuità stabilisce che, poiché le superfici nel mondo tendono ad essere localmente continue in profondità, la corretta soluzione sarà quella in cui gli accoppiamenti sono "vicini insieme" (fusi, uniti) nella profondità, come se fossero situati su di una superficie continua.

Queste euristiche di solito sono vere ma non sempre; se sono vere la soluzione trovata dall'algoritmo sarà corretta. Marr e Poggio hanno implementato questi due vincoli nelle connessioni tra nodi di una rete neurale nella fig 5.3.17. Il modello lavora attivando inizialmente tutti i nodi nella rete di intersezione che rappresenta i pixel colorati nelle immagini destra e sinistra. I nodi ombreggiati indicano che sono stati attivati nella fase iniziale dell'algoritmo. Questo set di possibili corrispondenze è soggetto ai vincoli di opacità e continuità a causa delle connessioni tra i nodi nella rete. L'opacità è implementata da un'inibizione reciproca tra tutti i nodi lungo la stessa linea di vista nella rete. Questa parte di architettura è chiamata "winner-take-all network" (rete del tipo chi vince prende tutto) perché fa in modo che solo un nodo in ogni linea diagonale rimanga attivo dopo che l'attivazione ha raggiunto uno stadio stabile. Il vincolo di continuità è implementato nella rete da una eccitazione reciproca tra i pixel negli stessi o nei vicini piani di profondità. Queste interazioni tra i nodi sono indicate in figura da connessioni orizzontali più dense.

Corrispondenze possibili nello stesso piano di profondità tendono ad attivarsi l'un l'altra mediante reciproca facilitazione. L'effetto congiunto di questi due vincoli è di ridurre il set di possibili accoppiamenti a un singolo set compatibile con:

1. L'informazione di disparità disponibile nell'immagine sensoriale;
2. Il vincolo di opacità;
3. Il vincolo di continuità.

La rete manda attivazione e inibizione avanti e indietro attraverso la connessioni eccitatorie e inibitorie finché non raggiunge uno stato di equilibrio. Lo stato finale della rete di solito corrisponde al reale stato di cose nell'ambiente. Questo significa che, dopo l'iniziale stadio in cui l'attivazione coinvolge gli elementi che coincidono per colore, si ha l'effetto dei vincoli di opacità e continuità con l'interazione eccitatoria o inibitoria dei neuroni.

Questo algoritmo è un esempio interessante di come un processo di inferenza inconscia può essere implementato in una rete neurale. Un insolubile problema inverso è stato risolto introducendo delle assunzioni euristiche che portano soluzioni corrette quando sono vere. In questo caso il problema è di trovare corrette corrispondenze in uno stereogramma "random-dot", viene risolto facendo certe assunzioni riguardo alla struttura delle superfici nel mondo come ad esempi che sono opache e continue. Queste assunzioni sono euristiche perché sono solo probabilisticamente vere. Così l'algoritmo è un esempio di come l'inferenza inconscia può essere compiuta nella percezione senza usare deduzioni basate su calcoli numerici o logica simbolica.

Questo algoritmo è anche un esempio di reti neurali dinamiche come Gestalt fisiche. I Gestalisti ritengono che il minimo stato di energia rifletta il principio di Pregnanza: cioè che il percepito sarà tanto "buono" o "semplice" quanto lo permettono le condizioni prevalenti. Esso propone che la base per scegliere tra diverse interpretazioni sia data dalla bontà o dalla semplicità delle alternative. Anche nell'algoritmo di Marr e Poggio si nota questo principio.

ALGORITMI BASATI SUI BORDI

Dopo la pubblicazione del primo algoritmo, Marr e Poggio (1979) hanno proposto un secondo algoritmo che differisce dal primo in alcuni aspetti importanti:

1. Accoppiamento basato sui bordi: questo secondo algoritmo trova corrispondenze stereoscopiche accoppiando bordi invece che pixel nelle due immagini destra e sinistra. Questo è più efficiente perché permette di ricavare un tipo di informazione che non è disponibile quando si accoppiano pixel individuali. I bordi che non si accoppiano per orientamento e polarità possono non essere considerati; abbiamo un ulteriore vincolo nella soluzione.
2. Scale multiple: questo secondo algoritmo usa canali di grandezza multipla ( o scala, o frequenza spaziale) nel sistema visivo, iniziando col cercare bordi corrispondenti su larga scala e successivamente su scala ridotta. Questo significa che l'elaborazione su larga scala questa volta, non lavora con punti individuali, ma con regioni più grandi dell'immagine.
3. Operazione in un singolo passo: questo algoritmo non richiede molti cicli di interazione, semplicemente trova la migliore corrispondenza basata sui bordi in un singolo passo attraverso un'operazione multistadio. L'implementazione di questo secondo algoritmo è più veloce del primo.

Molti dei benefici di questo algoritmo derivano dal fatto che l'operazione di accoppiamento viene effettuata sull'output dei rilevatori di bordi piuttosto che su pixel individuali. Questo è più plausibile dal punto di vista biologico perché l'elaborazione binoculare inizia nell'area V1 della corteccia, dopo che gli output dei recettori individuali sono stati ricombinati in aree percettive più complesse della corteccia.
Questo secondo algoritmo è più vicino ai risultati di esperimenti psicofisici con soggetti umani. Purtroppo ci sono importanti risultati che nessuno dei due algoritmi riesce a spiegare. Un problema è dato dal fatto che è scarsa l'informazione di profondità perché l'algoritmo basato sui bordi specifica le corrispondenze solo ai bordi. Questo non è il caso dell'algoritmo basato sui pixel che specifica una densa corrispondenza per ogni pixel nell'immagine. Nel secondo algoritmo l'informazione di profondità che riguarda gli spazi tra i bordi deve essere ricavata con processi additivi di interpolazione (elaborazione).


ALGORITMI BASATI SUL CONCETTO DI FILTRO.


Più recentemente Jones e Malik (1992) hanno proposto un algoritmo che accoppia regioni locali intorno al punto in questione.
Non accoppia regioni locali dell'immagine direttamente, perché sarebbe troppo costoso in termini computazionali. Piuttosto questo algoritmo è basato sull'accoppiamento dell'output di una serie di filtri spaziali che differiscono nella loro risposta alla misura e all'orientamento.
Jones e Malik hanno capito che l'output di questi filtri a multiorientamento e a multiscala (MOMS) veramente provvedono ad ottenere un più efficiente punto di inizio per l'accoppiamento in stereo rispetto ai pixel individuali o ai bordi orientati. Essi non prendono posizione riguardo all'esatta natura dei campi recettivi che potrebbero essere funzioni Gabor,funzioni sinusoidali funzioni differenziali di Gauss o altre possibilità.
Il punto di partenza di questa teoria è il fatto che ci sono molte cellule in una singola colonna corticale i cui campi recettivi sono centrati sulla stessa posizione della retina, ogni cellula risponde diversamente a diversi orientamenti e diverse misure.
Il pattern di attività in questa ipercolonna di cellule può essere modellato matematicamente come un vettore: un set ordinato di numeri corrispondenti a lle stimolazioni di ognuna di queste cellule.

Il vettore contiene una ricca rappresentazione della struttura spaziale in una regione centrata in quella posizione. La figura 5.3.19 mostra due esempi nei quali la posizione è il centro delle immagini a sinistra.
Le immagini a destra mostrano la ricostruzione della informazione spaziale nel vettore che rappresenta l'out put di circa 60 cellule in una ipercolonna ipotetica. Chiaramente queste cellule catturano una grande quantità di informazioni riguardo alla struttura spaziale dell'immagine nelle vicinanze della posizione centrale.

Il cuore di questo modello MOMS è il processo di accoppiamento del vettore che rappresenta un punto dato in un occhio con ognuno dei vettori che rappresentano posizioni spostate lateralmente nell'altro occhio. La cosa importante è che la posizione spostata lateralmente nell'altro occhio che ha il vettore più simile specifica la corrispondenza più probabile per quella posizione. Quando si ha uno stesso paragone per tutte le posizioni ad ogni possibile disparità, il risultato ci porta a una ben definita soluzione del problema della corrispondenza. Gli accoppiamenti che trova questo algoritmo sono di solito migliori di quelli trovati dall'algoritmo basato sui pixel e da quello basato sui bordi perché i vettori MOMS ci danno molto in dettaglio informazione spaziale riguardo alla struttura dell'immagine locale.
Come risultato si evince che tutte queste teorie incontrano delle difficoltà nella risoluzione degli stereogrammi di tipo "random dot", per quanto riguarda la risoluzione di superfici che si presentano localmente discontinue. Esistono dei problemi da risolvere per le teorie computazionali della corrispondenza, come per esempio il fatto che il sistema visivo umano sia in grado di raggiungere la percezione stereoscopica mediante la fusione dei contorni di luminanza in un occhio con la tessitura o i contorni di colore nell'altro occhio. Di sicuro, per poter venire a capo di tali dilemmi, sono necessarie del concettualizzazioni di tipo astratto che prendano in considerazione livelli più alti di elaborazione.

5.3.4

MECCANISMI FISIOLOGICI.

Il fatto che la visione umana sia migliore di qualunque altro schema computazionale per la stereopsi rende necessario capire come il cervello umano lo fa.

La risposta non è conosciuta in dettaglio ma sono stati scoperti dei fatti interessanti. Le prime cellule sensibili alla binocularità furono scoperte da Hubel e Wiesel (1962) mediante la registrazione nell'area V1 della corteccia dei gatti. Essi trovarono delle cellule che rispondevano maggiormente se stimolate con lo bordo in entrambi gli occhi simultaneamente piuttosto che quando tale caratteristica stimolava solo un occhio. Comunque le cellule trovate nell'area V 1 sembrano essere regolate in base a caratteristiche che appaiono in posizioni corrispondenti nelle retine dei due occhi, piuttosto che a posizioni differenti binocularmente.
Così, sebbene queste cellule fossero binoculari, non sembravano sensibili alla disparità binoculare. Alcuni anni dopo Barlow, Blakemore e Pettigrew (1967) trovarono che alcune cellule binoculari in area V 1 rispondevano in modo ottimale alla stimolazione in punti disparati delle due retine.

Un'ulteriore ricerca di Hubel e Wiesel (1970) questa volta sulle scimmie ha confermato i loro primi risultati cioè che le cellule in V 1 erano sensibili ad una disparità pari a 0 o quasi 0. Hanno anche riportato un ulteriore conferma del fatto che le cellule in V 2 rispondono ottimamente alla presenza delle caratteristiche della stessa immagine in posizioni ad una distanza relativamente grande. La disputa tra questi ricercatori riguardo alla diversa risposta delle cellule binoculari risulta essere il risultato di una serie di difficoltà metodologiche.
Forse la più affascinante interpretazione di questi risultati è che due sistemi fisiologici separati siano coinvolti nella percezione stereoscopica della profondità: uno situato nell'area V1, altamente sensibile a disparità piccole o nulle. L'altra localizzata in area V 2, sensibile a grandi disparità.


5.3.5

DISPARITA' VERTICALE.

Esiste anche la disparità binoculare verticale, sebbene non abbia ricevuto molta attenzione fino a poco tempo fa. Forse è più facile capire perché la disparità verticale è presente nelle immagini binoculari se si considerano le differenze in dimensioni che esistono tra le immagini dello stesso oggetto nei due occhi. La figura 5.3.22 A mostra una visione geometrica della situazione per un oggetto target che sta a destra dell'osservatore. Se entrambi gli occhi fissano il centro dell'oggetto target l'immagine nell'occhio destro sarà più grande di quella dell'occhio sinistro perché l'occhio destro è più vicino.


5.3.6

STEREOPSI DI dA VINCI.

C'è un ulteriore fonte di informazione strereoscopica; riguarda il fatto che nella visione binoculare di superfici a diverse profondità c'è di solito una parte della superficie più lontana che è vista solo da un occhio. Questo sta a indicare che nel caso di regioni "viste" da un solo occhio non può esserci un'adeguata soluzione al problema della corrispondenza, semplicemente perché non ci sono punti corrispondenti nell'immagine dell'altro occhio. La figura 5.3.23 mostra un esempio: Nakayama e Shimojo (1990) hanno chiamato questa forma di informazione di profondità stereopsi di da Vinci in onore di Leonardo da Vinci. L'informazione di profondità deriva dalla geometria visiva (visibile) adiacente ai bordi occludenti la profondità.
La regione vista monocularmente è sempre parte di una superficie più lontana. Se questa regione vista monocularmente è presente nell'immagine di destra necessariamente si troverà immediatamente a destra del bordo occludente (bordo appartenente alla superficie più vicina all'osservatore, cioè quello che determina geometricamente l'area occlusa, nascosta, all'occhio opposto, in questo caso il sinistro); se la regione visibile monocularmente è situata nell'immagine sinistra (cioè l'immagine la cui proiezione cade sulla retina sinistra) si troverà a sinistra del bordo occludente. Questi ricercatori hanno dimostrato sperimentalmente questa forma di stereopsi; Hanno trovato che produce la percezione prevista di profondità relativa quando viene presentata in modo appropriato appena descritto, ma non quando le relazioni geometriche vengono invertite artificialmente.


5.4

INFORMAZIONE DINAMICA

L'informazione visiva dinamica si riferisce ai cambiamenti nella struttura visiva che accadono a causa di certi tipi di movimento di immagine, chiamati da Gibson "optic flow" (= il fluire, lo scorrere ottico). Quando un osservatore si muove rispetto all'ambiente, la direzione e la velocità alle quali differenti oggetti vengono rappresentati sulla retina non solo dal movimento dell'osservatore ma anche da quanto sono lontani questi oggetti e da dove si trova l'osservatore. L'informazione di profondità a partire dal movimento deriva dalla parallasse di movimento: la differenza di movimento di una coppia di punti dovuta alla loro diversa profondità relativa al punto di fissazione.

5.4.1

PARALLASSE DI MOVIMENTO.
Nota: parallasse= angolo sotto cui si vede un corpo osservato da due punti di vista diversi. Fenomeno per cui quando un oggetto è visto da due luoghi diversi sembra cambiare posizione rispetto agli oggetti più lontani.
La parallasse di movimento è strettamente legata alla disparità binoculare; nel caso della disparità binoculare l'osservatore, stando fermo, compara l'immagine retinica di destra con quella di sinistra mentre entrambe sono normalmente disponibili nello stesso momento. Nel caso della parallasse di movimento, invece, l'osservatore si muove e compara una prima immagine con una che viene dopo. Perciò, mentre la disparità binoculare coinvolge la differenza tra una coppia di immagini retiniche che si trovano spostate l'una rispetto all'altra, mentre però sono disponibili nello stesso momento, la parallasse di movimento coinvolge la differenza tra una coppia di immagini retiniche spostate in modo sequenziale, ossia una prima dell'altra. Esperimenti controllati hanno mostrato che la parallasse di movimento è sufficiente per percepire la profondità quando non è presente nessun altra forma di informazione, ma solo se l'informazione spaziale è sufficientemente ricca e complessa.

La natura della parallasse di movimento nella retina dipende non solo dalla distanza rispetto all'oggetto ma anche dal punto di vista dell'osservatore.
Normalmente è difficile percepire la parallasse di movimento; oggetti stazionari nell'ambiente sono percepiti come stazionari anche se le loro immagini nella retina si muovono mentre si muovono gli occhi rispetto a loro.
Questa tendenza a percepire la reale posizione degli oggetti nell'ambiente nonostante i cambiamenti nella loro posizione nella retina viene chiamata "costanza di posizione".

La parallasse di movimento è anche simile alla disparità binoculare per il fatto che fornisce informazione relativa sulla profondità. Non specifica la reale distanza da un oggetto, ma solo quanto è più vicino o più lontano rispetto all'oggetto fissato. Ma al contrario della disparità, la parallasse fornisce informazioni di profondità anche su oggetti situati a grandi distanze.

 

5.4.2

FLUSSO OTTICO DETERMINATO DAL MOVIMENTO DI UN OSSERVATORE.

In naturali condizioni percettive, la parallasse di movimento di due punti isolati avviene di rado. Come Gibson (1966) ha enfatizzato nei suoi importanti lavori, gli osservatori di solito si muovono ed esplorano attivamente ambienti disordinati, occupati in diverse attività che fanno emergere complessi pattern di flusso ottico.
Gibson ha intuito, abbastanza correttamente, che il movimento dell'immagine risultante dal movimento dell'osservatore non è caotico, ma altamente strutturato in un modo che dipende precisamente sia dalla disposizione delle superfici nell'ambiente 3 - D sia dal movimento dell'osservatore. Ha anche capito che questo pattern globale di flusso ottico può essere usato per percepire la posizione spaziale delle superfici. I cambiamenti sistematici nel movimento dell'immagine che avvengono sopra regioni estese di flusso ottico ambientale chiamati da Gibson gradienti di movimento, per enfatizzare il fatto che spesso sono cambiamenti graduali nella velocità e nella direzione. La figura 5.4.2 mostra degli esempi; si vedono i punti di un'immagine che cambiano a causa del movimento dell'osservatore .

Un altro pattern di flusso ottico preso in considerazione da Gibson è l'espansione ottica o "looming", come illustrato in figura 5.4.2B. Si ha quando un osservatore si muove direttamente verso una superficie nel piano frontale fissando il punto verso il quale si dirige. Per esempio l'espansione oculare si presenta quando camminiamo verso un muro e guardiamo dritto in avanti. Il punto fissato è sempre stazionario sulla retina e gli altri punti della superficie scorrono esternamente ad una velocità che aumenta se aumenta la distanza dal punto di fissazione sul piano frontale.

Questi gradienti di movimento sono solo dei casi speciali di semplici pattern di flusso ottico che si creano da movimenti molto semplici rispetto a una singola superficie ambientale. Pattern di flusso ottico diventano troppo complessi quando la situazione si avvicina alle condizioni naturali. Un complicato flusso è causato da cambiamenti nella direzione dello sguardo.

I pattern realistici che producono il flusso ottico nel corso di normale attività in normali situazioni ambientali sono così complessi che non possono essere catalogati in termini di tipi semplici; la loro struttura può essere scoperta solo con sofisticate analisi matematiche.

5.4.3

FLUSSO OTTICO PROVOCATO DA MOVIMENTI DEGLI OGGETTI.

L'informazione di profondità riguardo a oggetti specifici diventa disponibile non solo quando l'osservatore si muove rispetto ad essi, ma anche quando essi si muovono rispetto all'osservatore.
Se differenti parti dell'oggetto sono posizionate a differenti distanze dall'osservatore e se queste parti cambiano la loro distanza relativa all'osservatore durante il movimento, allora ci sarà movimento relativo tra i punti della superficie dell'oggetto quando questo si muove. Questo movimento relativo fornisce informazione riguardo a quali punti della superficie sono più vicini e quali più lontani. Questa abilità di percepire la profondità dal movimento dell'oggetto fu dimostrata da Wallach e O'Connell (1953) in un fenomeno chiamato effetto cinetico di profondità (KDE). La figura 5.4.3 mostra questo effetto; un oggetto 3 - D è illuminato da dietro, e la sua ombra si proietta su uno schermo translucido visto da un osservatore. Quando è stazionario sembra una figura piatta bidimensionale, ma se ruota l'oggetto ruotante è percepito in tre dimensioni.

Quando le condizioni di stimolazione sono logicamente sottodeterminate il sistema visivo deve implicitamente o esplicitamente compiere delle assunzioni addizionali per raggiungere un'interpretazione. In questo caso sembra che il sistema visivo usi una euristica della rigidità: una tendenza verso la percezione di movimenti rigidi piuttosto che verso deformazioni plastiche, che fa sì che la stimolazione sensoriale sia consistente con l'interpretazione.
Perché il sistema visivo è più disposto selettivamente a percepire movimenti rigidi piuttosto che plastici? La risposta più ovvia è quella empirica: movimenti rigidi sono più probabili dei corrispondenti movimenti plastici se il movimento dell'immagine è consistente con un movimento rigido. I teorici della Gestalt giungerebbero alla stessa conclusione applicando il principio della Pregnanza: il sistema visivo preferisce le interpretazioni più semplici date da prevalenti condizioni di stimolazione.

L'interpretazione "rigida" può essere considerata più semplice perché non induce cambiamenti nella forma dell'oggetto e così è più facile rappresentarlo ed elaborarlo. Questo è un altro esempio del fatto che i principi di probabilità e di pregnanza predicono la stessa cosa.


5.4.4

COMPARSA E SCOMPARSA DI TESSITURA.

Un'ulteriore fonte di informazione di profondità proviene dagli eventi provocati dal movimento dell'immagine: la comparsa e la scomparsa di tessitura dietro a un bordo in movimento. Il bordo appartiene necessariamente alla superficie più vicina e la tessitura che appare e scompare alla superficie più lontana. Quando il movimento della figura più vicina viene a cessare, infatti, i bordi di quest'ultima non risultano più tali e la trama della figura viene inglobata in quella dello sfondo, dando origine a un oggetto percepito come unitario e non più come due oggetti posizionati a distanze diverse dall'osservatore.
La comparsa e la scomparsa (aggiunta e cancellazione) di tessitura dovuta all'osservatore in moto sono in relazione con la stereopsi di da Vinci, allo stesso modo in cui la parallasse di movimento è correlata alla disparità binoculare. Ossia: "accretion" e "deletion" della tessitura sono fonti dinamiche, non statiche, di informazione sulla profondità, informazione questa ottenibile in tempi diversi; e concettualmente è uguale a dire che l'informazione statica è rintracciabile binocularmente attraverso lo spazio nelle stereopsi di da Vinci.


5.5

INFORMAZIONE PITTORICA.

Sebbene la visione stereoscopia e il movimento producano irresistibili esperienze di profondità, non significa che siano le uniche fonti da cui ricavare questa informazione. Ulteriori fonti di informazione di profondità sono raggruppate sotto il nome di informazione pittorica perché sono tutte potenzialmente in disegni statici visti monocularmente. L'informazione pittorica può essere molto potente; infatti spesso abbiamo una buona percezione di profondità in disegni 2 D.

 


5.5.1

PROIEZIONE IN PROSPETTIVA.

Nel capitolo 1 abbiamo parlato del fatto che la luce viaggia in linea retta ed è riflessa sulla retina dalle superfici ambientali. La geometria meglio applicabile a questo processo si chiama proiezione in prospettiva e produce profonde differenze tra gli oggetti nel mondo reale e le immagini ottiche nelle retine.

La più ovvia di queste differenze sta nella dimensionalità: oggetti tridimensionali producono immagini bidimensionali. La dimensione persa è la profondità.

Fortunatamente le immagini bidimensionali formate dalle proiezioni in prospettiva contengono un gran numero di informazioni riguardo a questa dimensione "persa" che può essere recuperata anche se non perfettamente.

L'importanza della proiezione in prospettiva per la percezione della profondità fu scoperta quando un artista tentò di dipingere la profondità in modo realistico su delle tele piatte. Nel 1436 un artista di nome Alberti descrisse un metodo per disegnare dei quadri in prospettiva che rivoluzionò la rappresentazione artistica della profondità. L'idea base è semplice come mostrato in figura 5.5.2. Per disegnare una scena tridimensionale su una tela bidimensionale è necessario solamente ricreare l'immagine che passerebbe attraverso una finestra piatta messa al posto delle tele. Prendendo questa idea letteralmente l'informazione di profondità può essere catturata su una superficie bidimensionale tracciando i contorni degli oggetti su una pannello di vetro mentre si osserva la scena attraverso il vetro stesso, da una posizione vantaggiosa . Se il vetro viene poi messo sopra una superficie bianca uniforme e guardato monocularmente dalla stessa posizione relativa la linea disegnata ricreerà la profondità pittorica.
Questa tecnica è chiamata finestra di Alberti.

5.2.2

CONVERGENZA DI LINEE PARALLELE.

Un importante fatto che riguarda la proiezione in prospettiva è che le linee parallele nell'ambiente tridimensionale di solito non vengono proiettate come linee parallele nell'immagine bidimensionale, ma come linee che convergono in un punto che svanisce nella linea dell'orizzonte (vanishing point).
Figura 5.5.4

Questo aspetto della proiezione in prospettiva è spesso riferito alla prospettiva lineare (convergenza di linee parallele).
Nella figura 5.5.5si può osservare l'uso del "vanishing point" per produrre un realistico senso di profondità.

 


5.5.3

POSIZIONE DI UNA SUPERFICIE RELATIVA ALL'ORIZZONTE.

Un'altra fonte pittorica di informazione di profondità che deriva dalla proiezione in prospettiva è l'altezza relativa all'orizzonte degli oggetti in un disegno piano.
La figura 5.5.6 mostra una semplice scena in cui non ci sono linee parallele che convergono in un punto all'orizzonte, ma c'è una forte impressione di profondità. Nella proiezione in prospettiva di una scena tridimensionale, gli oggetti su un livello piano che sono più vicini all'orizzonte, sono percepiti come più lontani dall'osservatore.
Gli alberi in basso sembrano più vicini di quelli in alto e anche le nuvole verso l'alto sembrano più vicine di quelle più lontane in basso.
La ragione di queste percezioni è la disposizione degli oggetti in un piano relativo alla linea dell'orizzonte. La regola generale è che per tutti gli oggetti su un piano quelli più vicini all'orizzonte vengono percepiti come più lontani.

 

5.5.4

GRANDEZZA RELATIVA.

A parità di altre condizioni oggetti più distanti proiettano immagini più piccole sulla retina. La fig 5.5.8 illustra il perché. Quando la luce proveniente da due oggetti identici posti a diverse distanze viene riflessa nell'occhio, l'angolo visivo sotteso dall'oggetto più vicino sarà necessariamente più grande di quello sotteso dall'oggetto più lontano. La relazione distanza-grandezza ci dice che la grandezza dell'immagine retinica di un oggetto (a) fornisce un importante informazione riguardo alla distanza dall'osservatore (d). Ma c'è un problema. Per risolvere questa equazione per la distanza:

la reale grandezza di un oggetto (h) deve essere conosciuta, e questa informazione non può essere ottenuta facilmente dall'immagine retinica perché la grandezza e la distanza dell'oggetto determinano insieme la grandezza della sua immagine proiettata. Tu non puoi quindi dire a partire dalla grandezza di un immagine se stai guardando un oggetto più piccolo e vicino o uno più grande e lontano (fig 1.2.9). Infatti c'è un numero infinito di grandezze possibili dell'oggetto per un immagine di una particolare grandezza nella retina.
Un'euristica usata dal sistema visivo assume che due oggetti altrimenti identici abbiano la stessa grandezza oggettiva cosi che le loro distanze relative possano essere determinate dalle loro grandezze relative nell'immagine. Questa situazione è un altro esempio di come l'inferenza inconscia possa essere usata nella percezione di profondità a partire dalla grandezza relativa.

 

5.5.5

GRANDEZZE FAMILIARI.

Molti oggetti tendono ad avere una grandezza caratteristica o a variare entro una certa gamma di valori "familiari" a coloro che li percepiscono. Questo è importante perché se è conosciuta la grandezza di un oggetto, l'equazione grandezza-distanza può essere risolta determinando la reale distanza dall'osservatore. L'equazione non viene risolta consciamente, è un processo inconscio, rapido che accade automaticamente.

5.5.6

GRADIENTI DI TESSITURA.
(Per texture si intende trama, superficie di un oggetto)

Un'altra importante manifestazione della struttura della proiezione in prospettiva per quanto riguarda la percezione di profondità è quello che Gibson (1950) ha chiamato gradienti di tessitura: cambiamenti sistematici di forma e dimensione di piccoli elementi strutturali che avvengono in molte superfici ambientali.
I gradienti di tessitura possono informare gli osservatori sull'orientamento di una superficie in profondità e sulla sua curvatura. Stevens (1979) ha dimostrato che due aspetti della variazione strutturale (forma e grandezza) forniscono indipendenti fonti d'informazione sull'orientamento della superficie. La grandezza totale degli elementi strutturali (di texture) diminuisce con la distanza perché tutte le dimensioni diminuiscono in rapporto all'aumento della distanza dal punto di vista. La dimensione degli elementi può essere usata per stimare la distanza relativa tra differenti parti della superficie e fornire così l'orientamento della superficie strutturata. Questo sarà vero solo se gli elementi strutturali saranno della stessa dimensione. Questo è un altro esempio di assunzioni euristiche nella percezione di profondità, poiché la conclusione percettiva sulla distanza dagli elementi strutturali basata sulla grandezza della loro immagine sarà accurata solo se gli elementi che formano la tessitura saranno simili in grandezza. Infatti, se questi elementi appartenenti alla trama della superficie differiscono in grandezza, si avrà un ' "illusione" di profondità (figura 5.5.12): elementi di grandezza diversa danno l'impressione di profondità e forma, seppur appartenendo a un'immagine bidimensionale; invece oggetti visti nell'ambiente, cioè nello spazio 3 - D, hanno superfici la cui struttura è formata da elementi uguali, che vengono percepiti come più grandi o più piccoli in base alla reale distanza dall'osservatore e in questo modo danno informazione sulla profondità.
La forma proiettata degli elementi strutturali (cioè: la grandezza ed la forma delle proiezione retiniche di tali oggetti) può anche portare informazione riguardo all'orientamento della superficie (fig 5.5.12). Di nuovo questa informazione può essere recuperata dall'immagine solo se le assunzioni addizionali riguardano le forme reali degli elementi strutturali nell'ambiente. Stevens usò l' "aspect ratio" (il rapporto tra la dimensione più lunga e quella più corta) degli elementi strutturali per stimare l'orientamento degli stessi elementi e della superficie sulla quale si trovano. La sua analisi si basa sull'assunzione che le dimensioni degli elementi strutturali del mondo reale sono approssimativamente uniformi sotto diversi orientamenti.

Kender (1979) sviluppò altri algoritmi per stimare l'orientamento della superficie a partire dalla forma strutturale facendo assunzioni lievemente diverse: che gli elementi strutturali sono per la maggior parte regolari, omogenei e simmetrici.

Witkin (1981) propose un altro algoritmo basato sull'assunzione che i bordi degli elementi strutturali tendono ad essere distribuiti isotropicamente, cioè che la quantità di contorno a diversi orientamenti sarà la stessa o quasi. Questa è un'euristica utile quando gli elementi strutturali isotropici sono visti tenendo conto della "slant" i loro bordi allora non saranno isotropici nell'immagine piana.
Piuttosto, i margini saranno inclinati nel senso dell'orientamento di ognuno, orientamenti questi che sono perpendicolari alla direzione del "tilt" a causa dell'accorciamento anteriore lungo l'asse del "tilt".
I programmi per computer di Stevens, Kender, e Witkin falliscono nella simulazione della percezione di superfici che presentano strutture allungate come un prato o un campo di grano. Essi assumono che le strutture allungate degli elementi dell'immagine dipendano dal fatto che essi sono inclinati in profondità non dal fatto che sono semplicemente allungati. Se il sistema visivo facesse lo stesso sbaglio sarebbe un punto a favore di questa teoria, ma la gente fa raramente questo errore.

Malik e Rosenholtz (1994) hanno proposto una migliore soluzione computazionale a questo problema. Hanno progettato un algoritmo per recuperare lo "slant "e il "tilt" di piccoli pezzi della struttura di una superficie, basato solo su una debole assunzione che gli elementi strutturali sono approssimativamente gli stessi se ci sono solamente piccoli spostamenti lungo la superficie. Così assumono che tutti gli elementi strutturali abbiano uguale forma e grandezza e differiscano solo nella trasformazione nel piano strutturale. Questa assunzione permette all'algoritmo di ottenere un vantaggio da tutte le informazioni disponibili nella struttura senza ulteriori vincoli.


5.5.7

INTERPRETAZIONE DEI BORDI.

Un tipo molto importante di informazione pittorica sulla profondità viene dall'interpretazione di bordi o contorni. Un semplice esempio, considerato nel cap 1, è dato dall'occlusione (o interposizione). In fig 5.5.14, per esempio, la gente percepisce un quadrato dietro ad un cerchio parzialmente occluso. Quello che è realmente presente è una configurazione 2-D di regioni circondate da bordi, e noi percepiamo questi bordi come se indicassero una relazione di profondità: il cerchio è davanti al quadrato.
Come fonte di informazione di profondità, i bordi hanno sia punti forti che punti deboli. I punti di debolezza riguardano il fatto che l'informazione dei bordi è relativa piuttosto che assoluta e qualitativa piuttosto che quantitativa, così fornisce solo relazioni ordinali di profondità. I punti di forza invece riguardano il fatto che è capace di ottenere l'informazione a partire da distanze virtualmente illimitate. È solo necessario che gli oggetti siano visibili e che quello più vicino, che occlude l'altro, sia opaco.

CLASSIFICAZIONE DEI VERTICI.

La teoria computazionale dell'interpretazione dei bordi è iniziata con il programma SEE di Guzman (1968,1969) ,che cercava di interpretare le linee di una semplice configurazione di blocchi.(fig.5.5.15) Egli realizzò che le intersezioni di bordi erano cruciali per determinare quali bordi erano occlusi da altri.. Sviluppò una classificazione standard dei bordi (o vertici o giunzioni) :T's, Y's, K's, X's, L's e così via. Le giunzioni T sonno quelle maggiormente collegate alle situazioni di occlusione. La parte alta della T corrisponde al bordo occluso e il gambo al bordo che occlude. Altri tipi di giunzioni hanno diversi tipi di interpretazioni. Questo programma ha lavorato molto bene considerando le sue modeste basi teoriche.
Huffman e Clowes (1971) hanno proposto una completa catalogazione dei tipi di vertici che provengono dalla vista di angoli "triedici" (angoli solidi circondati da tre facce piane) da ogni punto di vista. Essi furono capaci di spiegare come dei vincoli locali in ogni vertice e le loro rapporti riducono il numero delle possibili interpretazioni di ogni bordo.
Molti programmi sofisticati sono in grado di interpretare correttamente i bordi in quasi tutte le linee disegnate e in semplici solidi geometrici.

QUATTRO TIPI DI BORDI.

1. Bordi di orientamento: si riferiscono ai luoghi dell'ambiente nei quali ci sono discontinuità nell'orientamento della superficie. Questo accade quando due superfici di differente orientamento si incontrano lungo un bordo nel mondo 3-D.

2. Bordi di profondità: si riferiscono ai posti dove c'è una discontinuità spaziale in profondità tra le superfici; cioè i posti nell'immagine dove una superficie occlude un'altra che si trova dietro.

3. Bordi di illuminazione: si formano dove c'è una differenza nella quantità di luce che cade su una superficie omogenea (come bordi creati da un'ombra, da alta luminosità o da un punto luminoso. Fig. 5.5.16).

4. Bordi di riflettanza: si formano quando c'è un cambiamento nella luce riflessa da parti della superficie di diverso materiale.

5.
Figura 5.5.16

 

DEFINIZIONI DEI BORDI.

I bordi di orientamento e di profondità negli oggetti con superfici piatte si escludono reciprocamente. Se un bordo nell'immagine è causato da due superfici diversamente orientate che si incontrano, è un bordo di orientamento; se è causato da una superficie che occlude un'altra è un bordo di profondità. Ogni bordo di una linea disegnata è o un bordo di orientamento o un bordo di profondità. La teoria deve scoprire un processo che classifica i bordi nello astesso modo in cui la gente percepisce i bordi della stessa scena.
I due tipi di bordi di orientamento sono chiamati convessi e concavi, e forniscono importanti informazioni sulla profondità del bordo relativo alla superficie.

1. Bordi con orientamento convesso: si hanno quando due superfici si incontrano lungo un bordo e circondano un volume corrispondente a un angolo "diedrico" minore di 180°.

2. Bordi a orientamento concavo: si hanno quando due superfici si incontrano lungo un bordo e circondano un volume corrispondente a un angolo "diedrico" maggiore di 180°.


Possiamo anche distinguere due tipi di bordi di profondità: nel primo la superficie che occlude si trova da una parte del bordo e nell'altro caso sta dall'altra parte. I bordi di profondità vengono classificati con delle punte dei frecce che corrono lungo il bordo; la convenzione per questa direzione è la "regola della mano destra". La freccia è cioè rivolta nella direzione in cui la superficie più vicina (quella che occlude) si trova a destra del bordo nell'immagine. In altre parole, se immagini di muoverti in avanti lungo il bordo nella direzione della freccia la superficie più vicina è sempre alla tua de

Collaborators

I am the leader of the Neuromorphics Lab, a highly collaborative lab with connections across both academia and industry.