Palmer Cap 2

Le traduzioni che potrete trovare su questo sito sono unicamente destinate ad uso interno per il corso di Psicologia della Percezione dell'Università degli studi di Trieste. Nascono con l'intento di fornire un ausilio a quegli studenti che non hanno molta dimestichezza con la lingua inglese. Le traduzioni sono opera degli stessi studenti del corso di Psicologia della Percezione 1999 - 2000. Nell'utilizzo di questo materiale va tenuto conto che la correttezza dello stesso va verificata confrontando le traduzioni con il testo originale. Per ulteriori domande, clicca qui.

Approcci Teorici alla Visione

tradotto e curato da:
Laura Bortolossi
Cristina Silvestri
Elena Vittone
Elena Burlon
Cristina Zomero


Approcci teorici alla visione 2

2.1 Teorie classiche sulla visione
2.1.1 Strutturalismo
2.1.2 Gestaltismo
Olismo
Isomorfismo Psicofisico
2.1.3 Ottica Ecologica
Analisi della struttura dello stimolo
Percezione diretta
2.1.4 Costruttivismo
Inferenza Inconscia
Interpretazione euristica
2.2 Una breve storia dell'Information Processing
2.2.1 Computer Vision
L'invenzione dei computer
Mondo dei blocchi
Approccio computazionale all'Ottica Ecologica
Connessionismo e Reti Neurali
2.2.2 Psicologia dell'Information Processing
Primi Sviluppi
Registrazione di una singola cellula
Autoradiografia
Tecniche di Brain Imaging
2.3 Teorie dell'Information Processing
2.3.1 La metafora del computer
2.3.2 Tre livelli dell'Information Processing
Il livello computazionale
Il livello algoritmico
Il livello implementazionale
2.3.3 Tre assunzioni sull'Information Procesing
Descrizioni informazionali
Decomposizione ricorsiva
Incorporazione Fisica
2.3.4 Rappresentazioni
2.3.5 Processi
Informazioni Implicite versus Esplicite
Processamento come Inferenza
Assunzioni Nascoste
Processamento Euristico
Assunzioni Nascoste versus Validità Ecologica
Processi Top-down versus Validità Ecologica

2.4 Quattro Stadi della Percezione Visiva
2.4.1 Immagine Retinica
2.4.2 Stadio Basato sull'Immagine
2.4.3 Stadio Basato sulle Superfici
2.4.4 Stadio Basato sugli Oggetti
2.4.5 Stadio Basato sulle Categorie

 

 

Gli scienziati della visione cercano di capire come la conoscenza dell'ambiente può essere estratta dalla luce che entra negli occhi. Il sapere scientifico di un dominio complesso, quale è quello della percezione visiva, richiede molto di più che una semplice conoscenza dei fatti; richiede una teoria. Una teoria è un integrato set di asserzioni (chiamate ipotesi) sui meccanismi costitutivi o principi che, non solo organizzano e spiegano i fatti, ma fanno anche delle predizioni.
Esamineremo molte teorie in questo libro. Molte di queste hanno qualcosa in comune: non sono corrette. Conoscere teorie diverse, anche incomplete o sbagliate, è importante perché anch'esse possono contenere importanti elementi veri o possono proporre un nuovo e illuminante punto di vista.
Come decidere qual è la teoria migliore? Gli scienziati usano un principio chiamato rasoio di Ockham: la miglior teoria è quella più parsimoniosa, cioè la teoria che spiega i risultati empirici con meno assunzioni. Alla parsimonia, come criterio di valutazione, va aggiunta alla consistenza logica e all'adeguatezza empirica.


________________________________________________________________________________

 

 

 

 

 

 

 

 


2.1 TEORIE CLASSICHE DELLA VISIONE

Kurt Koffka (1935), psicologo gestaltista, enucleò meglio di chiunque altro il problema della percezione visiva in una semplice domanda: "Perché le cose appaiono come appaiono?" Ecco tre classiche risposte che formano il cuore di teorie psicologiche della percezione visiva:
1. Ambiente versus organismo. Una possibile risposta al quesito di Koffka è "Perché il mondo è fatto così". Questa frase rimanda all'analisi delle condizioni esterne per capire la percezione. In particolare, suggerisce che si potrebbe esaminare se il tipo di informazione dello stimolo prossimale corrisponde a quella dello stimolo distale. Una risposta alternativa potrebbe essere "Perché il nostro sistema nervoso della visione è fatto così". Qui si richiama all'analisi della natura dell'organismo piuttosto che alla natura esterna del mondo. Facendo un compromesso è possibile trovare una posizione intermedia: sia la struttura degli stimoli esterni, che la struttura interna dell'organismo sono importanti.
2. Acquisito versus innato. "Perché abbiamo imparato a vedere in quel modo": è la visione empirista in accordo con il fatto che noi vediamo in quel modo grazie alle conoscenze accumulate con la nostra personale interazione con il mondo. Una risposta alternativa è "Perché siamo nati per vedere in quel modo", questo è il punto di vista innatista per cui noi non abbiamo bisogno di acquisire specifiche conoscenze durante la nostra vita perché l'evoluzione ci ha forniti del necessario meccanismo neuronale. Questa spiegazione in termini di maturazione può considerarsi innatista.
3. Atomismo versus olismo. "In funzione del modo in cui appare ogni piccolo pezzo del campo", questa è la visione atomistica per cui la percezione dell'intero campo visivo si può raggiungere semplicemente mettendo insieme ogni pezzo dell'esperienza visiva di ogni regione locale. Ciò contrasta con la risposta " In funzione del modo in cui è organizzato l'intero campo visivo ": questa è la visione olistica che suggerisce che pezzi singoli non possono essere semplicemente messi insieme ma devono essere integrati globalmente.
4. Introspezione versus comportamento. Questa controversia concerne se la teoria della percezione può derivare dalle osservazioni fenomenologiche della nostra esperienza conscia (introspezione) o da misurazioni obiettive della performance umana (comportamento). Koffka presupponeva un approccio introspettivo chiedendosi "Perché le cose appaiono come appaiono?", infatti "come appaiono " presuppone l'esperienza cosciente. Un comportamentista si sarebbe chiesto "Che cosa ci rende capaci di fare la visione?"

Con queste domande in mente analizziamo ora quattro teorie diverse della percezione visiva; tre di queste, strutturalismo, gestaltismo e ottica ecologica, sono facilmente identificabili con le quattro questioni chiave, l'ultima, il costruttivismo è una specie di mix delle altre tre. Il costruttivismo rappresenta la corrente dominante e ci porta direttamente al moderno punto di vista dell'Information Processing.


TEORIA INNATISMO VSEMPIRISMO ATOMISMO VS OLISMO ORGANISMO VS AMBIENTE PRINCIPALE ANALOGIA METODO
Strutturalismo Empirismo Atomismo Organismo Chimica Introspezione
Gestaltismo Innatismo Olismo Organismo Fisica Introspezione
Ottica Ecologica Innatismo Olismo Ambiente Risonanza meccanica Analisi dello stimolo


2.1.1 STRUTTURALISMO

Il primo approccio psicologico alla teoria della percezione è chiamato strutturalismo: mette radici nella scuola filosofica dell'empirismo inglese (Locke , Berkeley, Hume). Queste idee furono introdotte in psicologia dal suo padre fondatore, W.Wundt in Germania e furono più tardi portate negli Stati Uniti da uno dei suoi allievi, E.Titchener.
Lo strutturalismo vede la percezione come un processo che sorge da atomi sensoriali base, primitivi, indivisibili elementi dell'esperienza specifica di una modalità (visiva, uditiva), che rimandano a ricordi di altri atomi sensoriali che sono stati associati (raggruppati assieme) nella memoria attraverso avvenimenti ripetuti precedentemente. Queste associazioni si verificano quando l'esperienza sensoriale è abbastanza chiusa in uno spazio e in un tempo e dopo un sufficiente numero di presentazioni. Nel caso della visione gli atomi sensoriali sono le esperienze visive di colore in ogni piccola regione del campo visivo risultanti presumibilmente dall'attività di ogni fotorecettore nella retina. Queste locali sensazioni sono assunte come combinazione da semplici concatenazioni in percezioni: immaginiamo di unire assieme pagine trasparenti ognuna delle quali contiene una piccola macchia di colore ad una singola locazione al fine di creare un disegno unitario.
Inoltre le esperienze visive suscitano ricordi di altre modalità sensoriali tramite associazione. Ad esempio la memoria di com'è un cane può essere associata a come abbaia, al suo odore, etc.; e una parte del cane, ad esempio la testa, può essere associata ad un'altra parte del corpo come le gambe, il corpo e la taglia. La percezione è concepita come un processo di associazione molto rapido e inconscio che permette l'accesso alla memoria attraverso l'esperienza con il mondo. Secondo il Strutturalismo, un osservatore apprende sempre di più grazie alle associazioni, e le sue percezioni diventano più ricche, più accurate, e più complesse. Le sensazioni sono tenute assieme in percetti più complessi, che sono il risultato di associazioni nella contiguità spazio-temporale delle esperienze passate.
Un altro fondamento su cui il strutturalismo è costruito è il metodo dell'introspezione "allenata". Gli strutturalisti ritengono che uno può scoprire le unità elementari della percezione spostando l'attenzione all'interno (introspezione) e osservando la sua stessa esperienza. Prima la persona deve essere addestrata ma, ad ogni modo, rimane un metodo poco credibile in quanto ha forti influenze rilevabili nei risultati ottenuti
Comunque il strutturalismo può essere visto come una fase di transizione tra il periodo filosofico all'inizio della storia della teoria della percezione e un periodo psicologico più sofisticato. Senza benefici per le scoperte dei nuovi scienziati, il strutturalismo ha cercato di tradurre la visione filosofica degli empiristi inglesi più o meno direttamente nell'emergente disciplina della psicologia.

2.1.2 GESTALTISMO

Storicamente il movimento gestaltista è considerato una reazione contro il strutturalismo; i suoi leader furono Max Wertheimer, Wolfang Kohler, Kurt Koffka.

Olismo. Gestalt è una parola tedesca che significa "forma intera" o "configurazione". Come il nome suggerisce, l'idea strutturalista che i gestaltisti rifiutarono più veemente è quella secondo cui la percezione e costruita da atomi di sensazioni uniti da una semplice concatenazione. Infatti il loro grido di battaglia era "L'intero è diverso dalla semplice somma delle parti"; un esempio sono le configurazioni che hanno delle proprietà emergenti che non sono divisibili in nessuna delle loro parti locali. I Gestaltisti rifiutano le idee strutturaliste perché la semplice concatenazione delle parti può raramente catturare la struttura percepita dell'intero. Il merito dei psicologi Gestaltisti fu quello di teorizzare quegli aspetti della percezione che dipendono dalla qualità della figura intera o dalla configurazione.
Ovviamente i Gestaltisti rifiutano l'analogia classica del strutturalismo con la chimica perché è una visione troppo atomistica. Preferiscono riferirsi ai processi mentali come una analogia alle forze dei campi magnetici della fisica. L'aspetto cruciale dei campi magnetici a cui si appellano i gestaltisti è la loro natura olistica. Per esempio, una singola particella caricata positivamente definisce un campo magnetico che si estende in uno spazio. Ma se si aggiunge una seconda particella, la struttura dell'intero campo magnetico cambierà, è cambierà in relazione alla carica delle due particelle. Questo esempio è conforme all'idea gestaltista della struttura delle configurazioni come un intero, piuttosto che come una concatenazione di parti.
Come ulteriore reazione contro lo strutturalisno i Gestaltisi rifiutano l'empirismo come base della percezione. Per esempio, essi credevano che il meccanismo dell'organizzazione percettiva non richiede apprendimento dall'esperienza, ma avviene grazie all'interazione delle strutture del cervello con la struttura dello stimolo. Comunque, la posizione innatista nella teoria gestaltista è meno centrale di quella olistica.

Isomorfismo Psicofisiologico. I Gestaltisti formularono la loro posizione nella relazione tra mente e cervello nella loro dottrina dell'isomorfismo psicofisico. Esso consiste nel fatto che le esperienze percettive sono strutturalmente le stesse (isomorfiche) ai sottostanti eventi mentali (fisiologici). Un esempio è la teoria dell'isomorfismo psicofisiologico della teoria dell'opponent process (Hering): cioè ci sono sei colori primari strutturati come tre paia di opposti: rosso vs verde, blu vs giallo, nero vs bianco. Questa analisi è basata su osservazioni intuitive grazie alle esperienze visive del colore. La dottrina Gestaltista dell'isomorfismo psicofisiologico, asserisce che ci potrebbero essere delle strutture neurali corrispondenti che governano la percezione del colore. Ci sono delle evidenze sperimentali che confermano questa ipotesi: nel sistema visivo umano ci sono tre tipi di neuroni che codificano il colore in tre paia di opposti rosso/verde, blu/giallo, nero/bianco, proprio come l'analisi dell'esperienza del colore di Hering suggerisce. Questa corrispondenza tra esperienze del colore e eventi neuronali opposti supporta la dottrina Gestaltista dell'isomorfismo psicofisiologico.
Ma l'isomorfismo psicofisiologico non è sufficiente a definire una teoria neurologica delle funzioni mentali. Wolfang Kohlerhikkokkh (1920/1950), esplorò in modo più approfondito le connessioni tra le idee della teoria della Gestalt e i meccanismi del cervello sottostanti. Il cervello stesso è un esempio di ciò che chiamiamo Gestalt fisica: un sistema fisico dinamico che converge verso uno stato di equilibrio spendendo energia il meno possibile. I Gestaltisti usano spesso la metafora della bolla di sapone: esse hanno l'interessante proprietà per cui, non importa la loro forma iniziale, esse inevitabilmente si evolveranno in una sfera perfetta. I cambiamenti avvengono perché la distribuzione locale della tensione allo sforzo si propaga in tutta la superficie finché la bolla di sapone raggiungerà lo stato di stabilità globale. Ci sono molte altre "gestalten" fisiche definibili con questa proprietà dinamica, e i Gestaltisti credono che il cervello sia il primo esempio.
Il secondo, più specifico principio di Kohler dice che i meccanismi del cervello che sottostanno alla percezione sono campi elettromagnetici generati da milioni di neuroni. Molti esperimenti per testare questa ipotesi fallirono e, ne conseguì che la teoria della Gestalt perse i favori della comunità scientifica. Oggigiorno però le idee gestaltiste hanno avuto un ritorno nella forma di teorie dinamiche connessioniste, come vedremo più avanti.

2.1.3 OTTICA ECOLOGICA

Questa teoria della visione è il risultato primariamente di un uomo: James.J,Gibson della Cornell University. Anche Gibson si oppose vigorosamente agli strutturalisti e, allo stesso tempo, fu influenzato fortemente dal movimento Gestaltista, in particolare per l'enfasi olistica. Diversamente dai gestaltisti essi però, rifiutava l'idea che la struttura organismica è alla base della percezione. Gibson propose invece che la percezione può essere capita meglio analizzando la struttura dell'ambiente in cui è inserito l'organismo. Questa è l'ecologia.
L'ottica ecologica è più una teoria sulle basi informazionali della percezione dell'ambiente piuttosto che sulle basi del meccanismi nel cervello. Questo approccio segna una drastica divisione dalle teorie precedenti e precede di un bel po' i moderni lavori nella visione computazionale.

Analisi della struttura dello stimolo. La meta della teoria ecologica della visione di Gibson è sottolineare che come il mondo viene strutturato dalla luce nell'ambiente dell'optic array (AOA), così le persone sono capaci di percepire l'ambiente campionando informazione. In termini diversi Gibson si propose di trovare quali caratteristiche dello stimolo prossimale producono l'informazione sullo stimolo distale. In particolare l'intero pattern di stimolazione prossimale contiene molta più informazione sullo stimolo distale di quanto si sospettava. Per esempio Gibson teorizzò il gradiente di tessitura ovvero un graduale cambiamento in termini di diminuzione di grandezza, di aumento di densità e di proiezione in 2-D in corrispondenza all'allontanamento delle superfici. Molte superfici nel mondo hanno un'approssimativa tessitura uniforme: prati erbosi, muri di pietra, pareti tappezzate, piastrelle…solo per nominarne alcune. Gibson identifica nel gradiente di tessitura l'origine dell'informazione sulla profondità, l'inclinazione, e la grandezza degli oggetti nell'ambiente e dimostra come i soggetti possono percepire queste proprietà.
La teoria ecologica è anche importante perché enfatizza il ruolo della visione come attività esploratrice del mondo, con le relative conseguenze di tipo informazionale. Quando l'osservatore si muove attorno al mondo il pattern spaziale di stimolazione della retina cambia costantemente nel tempo (concetto di optic flow e di AOA dinamica). Infatti, il sistema visivo degli organismi si evolve con il movimento adattivo: cercare cibo, acqua, compagni, riparo. L'ottica ecologica cerca anche di specificare, per un osservatore in movimento, quali informazioni ricavate dall'ambiente sono utilizzabili. Un altro dei più importanti insight nello studio della "informazione utile" nella dinamica AOA è che la stessa informazione ottica che specifica l'informazione ambientale specifica anche la traiettoria dell'osservatore.
Gibson credeva che l'informazione sufficiente ricavabile dalla stimolazione della retina permette ad un organismo di esplorare attivamente l'ambiente e di percepirlo senza ambiguità. Questo processo, che si completa nel cervello, si chiama information pick up e si basa sulla metafora della risonanza, per specificare come avviene questo processo. Semplicemente, l'informazione nello stimolo produce l'attivazione delle appropriate strutture neuronali appropriate, analogamente al modo in cui una data vibrazione meccanica dell'aria mette in vibrazione un diapason con la stessa frequenza caratteristica.

Percezione diretta. L'aspetto più controverso della teoria di Gibson è l'assunto della percezione diretta: l'idea che la percezione visiva dell'ambiente è pienamente specificata dall'informazione ottica ricavabile dalla retina in movimento, dall'esplorazione di un organismo attivo senza nessun processo di mediazione di rappresentazioni interne. Gibson infatti era contrario all'idea che la percezione è possibile solo facendo delle "inferenze inconsce" in aggiunta all'informazione strettamente percettiva. Egli rifiuta questa influenza aggiunta alla percezione, sostenendo invece che non c'è nessun bisogno di quelle inferenze se si considerano le molte potenzialità dell'informazione ottica, in particolare quella ricavata dall'optic flow dell'organismo che esplora l'ambiente.
Sfortunatamente, la brillante analisi dell'informazione ricavabile nella dinamica AOA ha dei limiti nel spiegare la fondamentale indeterminazione nella ricostruzione del mondo reale a 3-D dalla piatta informazione retinica 2-D (the inverse problem, sezione 1.2.3.). Gibson enfatizza ancora una volta il ruolo dell'osservatore esplorativo, che risolve il problema aggiungendo la dimensione temporale allo stimolo prossimale. Ma nella dinamica AOA, questa informazione aggiunta è ancora insufficiente in quanto gli eventi ambientali sono effettivamente a quattro dimensioni (tre spaziali più una temporale) e l'informazione nella dinamica AOA è solo tridimensionale (due dimensioni spaziali e una temporale), anche quando sono usati i due occhi contemporaneamente. L'informazione addizionale della dimensione temporale vincola le soluzioni al problema inverso (cioè restringe il numero delle soluzioni valide), ma non lo risolve completamente.

2.1.4 COSTRUTTIVISMO

Molti teorici della percezione, discutendo sul problema inverso, hanno concluso che, nel processo della visione, ci deve essere qualche tipo addizionale di informazione in aggiunta all'immagine retinica. In un modo o nell'altro, il nostro sistema visivo dalle informazioni che contribuiscono a formare l'immagine retinica arriva alla soluzione più idonea tra quelle logicamente infinite. Questa è la posizione a cui si rifà il costruttivismo.
Il costruttivismo, che è il classico approccio dominante alla teoria della visione, combina i più diversi aspetti delle teorie precedenti; per questo si può definirla una teoria eclettica.
Il moderno costruttivismo intende essere primariamente una teoria del meccanismo interno della percezione, piuttosto che centrata sull'ambiente esterno. Comunque il meccanismo interno delle teorie costruttiviste si basa spesso sull'estrazione di informazioni ambientali dai pattern di stimolazione ottica che Gibson ha descritto all'interno dell'ottica ecologica. Il costruttivismo perpetua l'idea che i percetti globali sono costruiti dall'informazione locale. Allo stesso tempo sottolinea l'importanza delle proprietà emergenti quali linee, bordi, angoli e anche le figure intere dei gestaltisti. Rispetto alla controversia innato-acqusito, il moderno costruttivismo è neutrale. Per certi aspetti il processo percettivo deve essere sicuramente innato per altri, invece, sono appresi attraverso l'interazione con il mondo. Definire quali aspetti sono innati e quali acquisiti è un problema che deve essere affrontato studiando lo sviluppo infantile. Infine i più moderni costruttivisti sono, metodologicamente parlando, comportamentisti. Cioè, essi estraggono inferenze sui processi percettivi studiando misure quantitative di comportamenti umani e animali piuttosto che ( o in aggiunta) introspettivamente. In questo essi si scontrano sia con i strutturalisti che con i gestaltisti, anche se non ci sono dubbi che l'analisi introspettiva è il primo passo importante nella teoria costruttivista; la differenza è che i costruttivisti poi procedono nella raccolta di misure comportamentali per dimostrare la loro ipotesi oggettivamente.

Inferenze inconsce. Il padre della teoria costruttivista è Hermann von Helmholtz, brillante fisico, matematico e psicologo tedesco. Molte delle sue idee base sono state pubblicate già nel 1867, nel libro Trattato di Ottica Fisiologica, e sono sorprendentemente rimaste intatte. Nonostante i molti contributi significativi allo studio della percezione visiva, uno dei concetti helmholtziani più "duraturi", è l'idea centrale che la percezione dipende da inferenze inconsce. Diversamente da Gibson, Helmholtz conosceva il buco esistente tra l'informazione ottica direttamente ottenuta dalla stimolazione retinica e la conoscenza percettiva che ne deriva (gap(=buco, divario) richiama la natura indeterminata dell'inverse problem). Helmholtz sosteneva che il buco poteva essere coperto. Egli sosteneva che la visione richiede un processo di inferenze, o qualcosa di molto simili ad esse, che trasformi le informazioni insufficienti a 2-D, in un'interpretazione percettiva dell'ambiente a 3-D. Il processo di inferenza percettiva è inconscio perché le persone non hanno coscienza di come , quando, perché, avvengano. Più recentemente, Richard Gregory(1970), Julian Hochberg (1964), e Irvin Rock (1983), hanno rimodernizzato e rielaborato l'idea helmholtziana.
Se il sistema visivo fa inferenze sulla natura dell'ambiente dalle informazioni ottiche derivanti dalla stimolazione retinica, è importante conoscere le basi sulle quali vengono fatte queste inferenze. Questo proposito viene chiamato likelihood principle: è un modo probabilistico di vedere la percezione per cui il sistema visivo computa l'interpretazione con la più alta probabilità determinata dalla stimolazione retinica.
Il likelihood principle è spesso confuso con il principio della Gestalt di Pregnanza (chiamato anche principio del minimo), che sta alla base della selezione sopra le possibili interpretazioni secondo la "bontà" e la "semplicità" tra le alternative.
Per esempio, il fatto che le persone percepiscono la prima figura come un cerchio dietro un quadrato, piuttosto che come un quadrato dietro tre quarti di cerchio (terza figura), viene spiegato dal likelihood principle costruttivista come conseguenza del fatto che è molto più probabile che un cerchio intero sia in parte occluso da un quadrato. Lo stesso esempio può essere spiegato dal principio gestaltista della Pregnanza, per cui un cerchio intero è una figura "migliore" di tre quarti di cerchio nella direzione di una forma più regolare, semplice, e più simmetrica.

 

 

 


Interpretazione euristica. La prospettiva teorica di questo libro fa riferimento largamente alla nozione helmholtziana dell'inferenza inconscia. In particolare svilupperemo l'idea che il sistema visivo va oltre l'informazione ottica facendo un alto numero di possibili assunzioni sulla natura dell'ambiente e sulle condizioni sotto le quali è visto. Quando queste assunzioni vengono "accoppiate" con l'immagine sensoriale, danno come risultato un processo di interpretazione euristica, con cui il sistema visivo fa inferenze sulla migliore condizione ambientale che può aver prodotto l'immagine. Questo processo è euristico perché usa le regole probabilistiche che sono spesso, anche se non sempre, vere. Se, per esempio l'inferenza è falsa, avremo delle conclusioni sbagliate, le illusioni visive (sezione 2.3.5).
Il likelihood principle è strettamente in connessione con la nozione costruttivista della percezione come processo euristico. L'utilità evoluzionistica della visione è massimizzata dall'uso della più probabile ipotesi per arrivare ad una interpretazione corretta della realtà esterna.
Le ipotesi "nascoste" fatte dal sistema visivo sono molte e varie. Un esempio è il fatto che gli ambienti interni, quali soffitti, piani, muri sono tutti allineati verticalmente e perpendicolarmente dalla forza gravitazionale.
Un'interpretazione letterale dell'inferenza inconscia è che la percezione è accompagnata da un modo sequenziale di applicare le regole della logica simbolica o risolvendo equazioni matematiche. Inoltre, questo è il tipo di processo che Helmholtz sembrava avere in mente quando propose la sua interpretazione di inferenza inconscia. Fortunatamente, oggigiorno ci sono interpretazioni più plausibili che utilizzano il modello computazionale che si adatta allo schema generale inferenziale dei costruttivisti. Per esempio reti connessioniste possono arrivare a conclusioni percettive basate parzialmente su dati sensoriali in entrata e con l'aggiunta di elementi inclusi in pattern di interconnessioni di elementi simili ai neuroni. Tali reti sono in grado di "fare inferenze" sulla base di assunzioni euristiche senza operazioni né logiche né matematiche.


2.2 UNA BREVE STORIA DELL' INFORMATION PROCESSING (elaborazione delle informazioni).

La scienza della visione nasce negli anni 1950-60, quando tre importanti cambiamenti hanno modificato il modo di concepire la visione:
l'uso della simulazione al computer
l'applicazione delle concezioni base dell'elaborazione delle informazioni alla psicologia
l'emergere dell'idea che il cervello è un elaboratore biologico di informazioni.

2.2.1 LA VISIONE NEL COMPUTER.

Nello sviluppo della scienza della visione ha avuto un ruolo centrale l'idea che i moderni computer digitali potevano venire usati per simulare la complessa elaborazione percettiva. In precedenza la visione era considerata una funzione esclusiva degli organismi viventi e gli scienziati testavano le ipotesi che formulavano solo su esseri viventi. L'avvento della simulazione al computer ha radicalmente cambiato la situazione: gli scienziati lavoravano così su sistemi le cui regole di funzionamento erano conosciute in anticipo ed utilizzavano il computer per confrontare il comportamento del computer con quello degli organismi viventi.

L'INVENZIONE DEL COMPUTER. Il computer è stato inventato nel 1930 da un brillante matematico inglese : Alan Turing. Egli inventò una serie di macchine ipotetiche, che noi conosciamo ora come le macchine universali di Turing. Queste macchine potevano essere programmate per elaborare in maniera automatica le informazioni. La macchina di Turing era ipotetica nel senso che era un'astrazione matematica.
Nel 1946 il matematico John von Neumann costruì il primo computer digitale, che fu chiamato ENIAC.
Da allora il computer è stato sempre più perfezionato, comunque i moderni computer digitali sono tutti degli esempi delle macchine universali di Turing.
Sin dal 1940 Turing capì le incredibili capacità della sua macchina per simulare il pensiero intelligente. E' proprio questa idea che da origine all'INTELLIGENZA ARTIFICIALE, la branca della scienza del computer nella quale i programmi vengono scritti con lo scopo di simulare il comportamento intelligente. All'inizio i teorici dell'intelligenza artificiale cercavano di simulare dei compiti cognitivi difficili, come giocare a scacchi e dimostrare i teoremi matematici. Solamente in seguito vennero creati dei programmi che consentivano una simulazione della percezione visiva.
Questo sforzo porta alla nascita di quella branca della scienza della visione, che si occupa di come il computer può essere programmato ad estrarre dall'immagine ottica informazioni sulle condizioni ambientali.
Lo studio della visione al computer(computer vision) ha promosso due importanti cambiamenti:
1) IMMAGINI REALI: le teorie della visione simulate al computer possono venire applicate ad immagini su scala grigia, ottenute registrando con una videocamera scene del mondo reale. Le teorie classiche della percezione visiva sono state generalmente costruite per tenere conto di condizioni stimolo che non esistono nella situazione reale.
Le teorie della visione simulate al computer sono applicate ad immagini reali di oggetti reali.
2) TEORIE ESPLICITE: prima della simulazione al computer, le teorie della percezione visiva erano vaghe, informali ed incomplete, puntavano su leggi concettuali e tutto ciò portava a tralasciare importanti dettagli.
La simulazione al computer ha cambiato questo stato di cose, perché una delle qualità caratteristiche della programmazione al computer è quella di cercare di rendere esplicita ogni cosa.
Questi cambiamenti hanno portato alla consapevolezza che la visione è qualcosa di estremamente difficile: è difficile far si che il computer "veda" le cose più semplici. Inoltre tutte le concezioni, che gli psicologi avevano precedentemente studiato, hanno richiesto un'enorme fatica per essere tradotti in termini computazionali.

MONDO DEI BLOCCHI (blocks world). All'inizio le teorie della visione simulate al computer consideravano le scena come un mondo composto da blocchi: un micromondo nel quale tutti gli oggetti che possono essere percepiti sono dei solidi geometrici, semplici, colorati uniformemente e posti su una superficie. Una delle prime simulazioni significative della visione fu un programma di Roberts (1965).
Fig. 2.2.2:Una immagine video di una configurazione in blocchi (parte a) viene elaborata nei bordi locali (parte c), che vengono poi uniti in contorni continui (d,e). Questa configurazione di linee viene poi uniformato attraverso l'individuazione di volumi, che dovrebbero condurre insieme alla creazione di una forma corretta (f) e dovrebbero predire la sua apparenza in un'altra prospettiva (b).

L'APPROCCIO COMPUTAZIONALE ALL'OTTICA ECOLOGICA: i progressi più recenti nello studio della visione al computer sono il risultato di un'analisi formale dell'informazione disponibile nell'immagine ottica. Questo approccio fu sostenuto dai lavori sull'ottica ecologica di Gibson. Viene posta una nuova enfasi sull'analisi di come la struttura ambientale è riflessa in una struttura immaginativa. Il risultato di questo cambiamento fu che i teorici cercarono di capire i modi di recuperare, direttamente dall'immagine, delle informazioni complete sulla scena visiva (particolarmente sulla profondità e sulle inclinazioni delle superfici nelle condizioni tridimensionali).
I pionieri di questo approccio furono due psicofisici olandesi Jan Koenderink e Andrea Van Doorn. Essi applicarono le sofisticate tecniche matematiche della geometria differenziale ai problemi come la percezione del movimento dal flusso ottico, la percezione della profondità dall'informazione stereoscopica…Loro non crearono programmi per il computer, ma i loro lavori hanno ispirato altri a farlo. L'approccio matematico, che ha portato alla creazione de questi programmi, era stato formulato all'Istituto di Tecnologia nel Massachusetts (M.I.T.) da David Marr e dai suoi collaboratori. Questa ricerca è caratterizzata da analisi matematiche di come la luminanza nell'immagine bidimensionale porta informazioni sulla struttura delle superfici e degli oggetti nello spazio tridimensionale.

CONNESSIONISMO E RETI NEURALI: I modelli delle reti connesionistiche e neurali sono basati sull'assunzione che la visione umana dipende dalla struttura parallela di circuiti neuronali nel cervello. Questi modelli sono reti composte da molte unità interconnesse. Lo stato di attivazione di queste unità, che corrisponde approssimativamente all'attivazione dei neuroni, avviene attraverso di reti di connessioni, che, come le sinapsi, sono eccitatorie o inibitorie.
Fig. 2.2.4. Rete connesionista usata nell'apprendimento per back propagation(all'indietro) formata da tre layers (strati): l'input, la trasformazione dall'input all'output e l'output.
Sebbene questi modelli connessionisti possono essere specificati matematicamente, il loro comportamento dipende generalmente da equazioni non lineari, che non sono facilmente risolvibili in maniera analitica (vd. Appendice B). Questo significa che per determinare come si comporta una rete, l'operazione va simulata su un computer.
I precursori storici delle teorie connessionistiche moderne della percezione sono gli studi sui "perceptrons", una particolare classe di modelli di reti studiate da Frank Rosenblatt e coll. Questi perceptrons ci consentono di apprendere come vengono identificate nuove categorie, aggiustando dei pesi sulle loro connessioni secondo delle regole specifiche.
Rosenblatt voleva dimostrare come una semplice regola di apprendimento era sufficiente alle reti per imparare a fare una discriminazione categoriale.
In questo stesso periodo lo psicologo Donald Hebb ha sintetizzato una grande quantità di ricerche sull'apprendimento umano ed animale in una struttura neurale in cui le associazioni sono formate all'interno e tra complessi di cellule, che si attivano nello stesso tempo. Nonostante questi progressi, Marvin Minsky e Seymour Papert (1969) indicarono come questi perceptrons avessero dei seri limiti. Fu proprio la loro critica ad arrestare la ricerca nel campo delle reti neurali per più di una decade. Solo pochi ricercatori tenaci hanno continuato a sostenere l'approccio delle reti neurali e, nei primi anni del 1980, un gruppo di scienziati cognitivi, che lavorano nel dipartimento di psicologia all'università della California, hanno ottenuto importanti risultati, che hanno rivitalizzato questo approccio. Chiamando la loro teoria PDP ( modelli dell'elaborazione distribuita in parallelo), D. Rumelhart, James McClelland, Geoffrey Hinton, Paul Smolensky, Micheal Jordan e i loro coll. Hanno dimostrato che i modelli delle reti neurali hanno importanti vantaggi sui programmi più tradizionali della scienza al computer.

2.2.2. L'ELABORAZIONE DELL' INFORMAZIONE IN PSICOLOGIA.

Un altro importante evento per lo sviluppo della scienza della visione fu la comparsa dell'approccio basato sull'elaborazione dell'informazione in psicologia. A partire dal 1920, gran parte della psicologia era dominata dal comportamentismo. I comportamentisti credevano che la psicologia doveva avere come oggetto di studio il comportamento osservabile. Dal punto di vista metodologico, questo voleva dire abbandonare il metodo introspettivo; dal punto di vista teoretico, si doveva purificare le teorie psicologiche da tutti quei concetti che si riferivano a processi interni.
Tenendo conto di queste cose, la percezione non è tanto importante, dato che è un tipo di esperienza interna del mondo esterno.
Il comportamentismo ha dominato la scena durante gli anni 1940-1950, soprattutto nel campo dell'apprendimento. Alla fine del 1950, iniziò ad emergere un nuovo approccio, che contestò il dogma comportamentista, considerando importanti i processi e gli stati interni. L'idea, che contraddistingue questo movimento, era che i processi interni potevano venire compresi in termini di elaborazione di informazioni, sulla base di nuovi concetti che si erano sviluppati nei campi dell'ingegneria elettrica, della scienza del computer e della teoria dell'informazione. Questo portò al fatto che gli psicologi formulavano le loro teorie sulla visione all'interno di un nuovo, più preciso linguaggio che era strettamente collegato ai programmi del computer. A poco a poco l'approccio dell'elaborazione dell'informazione si consolidò nella psicologia cognitiva, diventando la struttura dominante per capire la percezione visiva e molti altri tipi di attività mentali.
Una delle più grandi pubblicazioni in questa area fu il libro di Broadbent:" Percezione e comunicazione" 1958, nel quale viene analizzato il modo in cui si presta attenzione all'informazione uditiva, che va da un orecchio all'altro. Broadbent suggerì che l'attenzione opera come un filtro che seleziona le informazioni, attraverso dei canali che elaborano l'informazione dopo un'iniziale analisi degli aspetti sensoriali ( vd. Fig. 2.2.5).
Broadbent fu tra i primi a proporre una teoria psicologica nella forma di un diagramma di flusso, che specifica la struttura temporale degli eventi dell'elaborazione delle informazioni.
Una pietra miliare nello sviluppo dell'elaborazione dell'informazione visiva, fu la scoperta da parte i George Sperling della memoria iconica, un particolare tipo di memoria visiva a brevissimo termine. I suoi esperimenti ci hanno fatto vedere molte proprietà affascinanti di questo sistema di memoria ed hanno generato centinaia di studi.
Tutti questi sviluppi sono contrapposti all'approccio del comportamentismo, dato che l'approccio dominante era quello di capire l'attività cognitiva umana.
Un evento importante fu la pubblicazione del libro di Neisser " La psicologia cognitiva" nel 1967, perché ha allontanato definitivamente gli psicologi dal comportamentismo, indirizzandoli verso lo studio della cognizione(percezione, attenzione, ecc.).

2.2.3. ELABORAZIONE DELL'INFORMAZIONE IN BIOLOGIA.

Il terzo importante sviluppo, che ha contribuito all'emergere del paradigma dell'elaborazione dell'informazione fu l'invenzione di una tecnica fisiologica per studiare l'attività neurale nel sistema visivo. Questo nuovo metodo ha portato gli studiosi a chiedersi come l'informazione visiva viene elaborata nella retina e quali sono i centri coinvolti nel cervello. L'esistenza di un metodo per lo studio dell'attività neuronale significa poter tracciare un diagramma funzionale dell'intero sistema visivo, neurone per neurone, specificando quale compito ha ciascun neurone. Così anche in campo biologico si è insediati l'approccio dell'elaborazione delle informazioni.

PRIMI SVILUPPI: prima del 1950 il cervello era semplicemente visto come un organo puramente biologico i cui meccanismi erano oscuri. Infatti ci sono voluti molti anni di studi prima che i biologi scoprano che i neuroni non sono direttamente collegati tra di loro, ma sono delle entità separate che comunicano tra di loro attraverso trasmissioni chimiche lungo sinapsi. L'idea del cervello come elaboratore di informazioni viene accettata solo quando inizia a prendere piede l'analogia tra computer e cervello.
Il matematico John von Neumann (1951) rese esplicita l'analogia, dicendo che gli impulsi neurali che viaggiano lungo gli assoni sono codici digitali, analoghi al processamento binario (0,1)del computer digitale. Pochi neuroscienziati presero seriamente questa semplice analogia, affermando che ci sono molte differenze tra il cervello e i moderni computer digitali. Ma l'idea che il cervello è un elaboratore di informazioni ora è universalmente accettata ed i risultati dei più moderni studi psicologici delle funzioni cerebrali sono interpretati all'interno di questo contesto.
I primi studi sulle funzioni cerebrali furono gli esperimenti sulle lesioni, dove il cervello dell'animale veniva intenzionalmente lesionato o asportato, che portarono alla localizzazione delle funzioni cerebrali. Lo stesso si può dire per le tecniche di stimolazione elettrica cerebrale, che consistono nell'introduzione nel cervello dell'animale di elettrodi e nell'emissione di piccole scosse elettriche, per vedere quale comportamento viene elicitato.
Entrambe queste tecniche si sono rivelate importanti per la comprensione delle strutture dei centri visivi cerebrali, ma nessuna di queste è adeguata per lo studio dell'elaborazione dell'informazione, che ha luogo nel normale funzionamento del cervello, perché esse non misurano il comportamento elettrochimico dei singoli neuroni.

REGISTRAZIONE DELLE SINGOLE CELLULE: tecnica fisiologica creata durante il 1950 per studiare l'elaborazione delle informazioni eseguito dai singoli neuroni.
Fig.2.2.6. Un microelettrodo viene inserito nel sistema visivo dell'animale, mentre patterns di luce sono presentati alla retina. L'attività elettrica degli impulsi neurali viene registrata dall'elettrodo e monitorata dal ricercatore.
Pochi elettrodi sono posizionati su un assone del neurone in modo che possano registrare i piccoli cambiamenti nel potenziale elettrico, che avvengono ogni volta che un impulso neuronale passa lungo l'assone. L'output dell'elettrodo può poi essere registrato ed analizzato per determinare le condizioni stimolo che attivano il neurone. Nel caso della visione, questo è stato scoperto proiettando specifici patterns di luce sulla retina dell'animale per vedere se la loro presenza rende il neurone più o meno attivo.
La più importante scoperta è stata fatta da Stephen Kuffler, David Hubel e Torsten Wiesel all'università di Harvard. Kuffer (1953) ha usato la tecnica di registrazione delle singole cellule per determinare i campi recettivi delle cellule gangliari retiniche: la regione della retina che influenza l'attivazione base del neurone aumentandola (eccitazione) o diminuendola (inibizione). Lo stimolo ottimale per attivare le cellule gangliari era un punto luminoso al centro del campo recettivo, circondato da un disco nero oppure il pattern inverso.
Fig. 2.2.7. CAMPI RECETTIVI NELLE CELLULE DEI GANGLI RETINICI. L'attivazione ON-CENTER, OFF-SURROUND c'è quando la luce stimola la regione centrale, decresce quando la luce stimola il contorno ed è immutato dalla luce fuori dal contorno. L'attivazione dell'OFF-CENTER, ON-SURROUND avviene nel modo opposto.
Fig. 2.2.8.I premi Nobel Hubel e Wiesel hanno cominciato a studiare la corteccia visiva, scoprendo molte proprietà dei campi recettivi delle cellule della corteccia visiva primaria. Loro usarono la tecnica di registrazione delle singole cellule.
Fig. 2.2.9.CAMPI RECETTIVI NELLE CELLULE CORTICALI. Le cellule che si trovano nella prima area della corteccia visiva si prolungano nei campi recettivi, che rispondono più vigorosamente, se sono stimolate da un bordo o da una linea con una particolare posizione ed orientamento.

AUTORADIOGRAFIA: tecnica usata per studiare simultaneamente l'attività in un'ampia area di tessuto cerebrale. Nell'animale viene iniettato uno zucchero radioattivo, che viene accumulato all'interno dei neuroni attivati. Poi viene fatto un autoradiogramma, che è un'immagine fotografica dei pattern di radioattività.
Fig. 2.2.10. Un'autoradiografia di colonne orientate nella corteccia visiva. Le cellule corticali si colorano in nero se sono state attivate, mentre vengono presentate striscie verticali. Le bande verticali nere sono le colonne orientate negli strati più alti della corteccia. La banda nera orizzontale è lo strato 4, che riceve l'input dai nuclei genicolati laterali e risponde a tutto l'orientamento.

I METODI DI BIOIMMAGINE: metodi non invasivi che costruiscono delle immagini del cervello umano. Essi sono:
· la TOMOGRAFIA COMPUTERIZZATA (TC)

· la RISONANZA MAGNETICA (MRI)

· la TOMOGRAFIA AD EMISSIONE DI POSITRONI (PET)

· La costruzione dell'immagine TC dipende dalla trasmissione attraverso una sottile sezione dell'encefalo di un fascio di raggi X. Questo fascio viene poi misurato sull'altro lato e tale misurazione viene poi utilizzata per costruire la struttura tridimensionale del cervello con l' aiuto di un computer, che usa sofisticati modelli algoritmici. Alla fine la mappa costruita, rappresenta una singola sezione del cervello, ma si possono considerare molti altri livelli, ottenendo così diverse sezioni, in modo tale che si può ottenere un'immagine relativamente completa della struttura anatomica del cervello.
Fig. 2.2.12. Numerose immagini di sezioni del cervello umano.
Questi diagrammi mostrano le mappe computerizzate di un cervello, che ha una grande lesione nel lobo parietale destro. Le scansioni sono state prese dai livelli indicati nella prima immagine, dove è raffigurato un lato del cervello.

· Nella MRI il cervello è sottoposto ad un forte campo magnetico, che polarizza le molecole al suo interno, così tutti i poli magnetici sono allineati con i campi magnetici. Poi vengono pulsate onde radio e così le molecole emettono segnali radio, che portano l' informazione sulle loro proprietà chimiche. Questa informazione è ricopiata da rivelatori posti intorno alla testa. Le loro misurazioni vengono poi elaborate da algoritmi ed usate per costruire la struttura tridimensionale del cervello. La MRI produce delle immagini del cervello molto più dettagliate di quelle prodotte con la TC, ed inoltre con la MRI c'è il vantaggio di non esporre il cervello agli effetti dei raggi X.

· Nel PET viene iniettata nel sangue una sostanza radioattiva, che entra così nel flusso sanguigno. Questa sostanza è poi presente nei tessuti cerebrali. L'isotopo radioattivo emette spontaneamente positroni e questa emissione di positroni viene poi misurata fuori dalla testa ed elaborata da un computer che utilizza algoritmi per costruire una mappa tridimensionale dell'attività del cervello. La tecnica PET misura l'attività in modo indiretto, attraverso il flusso cerebrale. Quando un'area del cervello è attivata, riceve una maggiore quantità di sangue e questo fatto porta ad un aumento delle emissioni di positroni.

Uno dei più recenti sviluppi nelle tecniche di bioimmagine è stata la modificazione dei metodi MRI, in modo da tener conto delle misurazioni strutturali e funzionali dell'attività del cervello. Questa tecnica è chiamata f-MRI, che significa: risonanza magnetica funzionale. Come i metodi PET, la f-MRI dipende dal fatto che il flusso sanguigno aumenta nell'area del cervello attivata, la misurazione del f-MRI è relazionata alla concentrazione di ossigeno nel sangue.


2.3 TEORIA DELL'ELABORAZIONE DELL'INFORMAZIONE

In questa parte del capitolo prepareremo le basi per il resto del libro. All'inizio esamineremo i fondamenti teorici dei paradigmi dell'elaborazione dell'informazione nei quali sono incluse le moderne teorie della visione. Poi discuteremo i concetti centrali della teoria - rappresentazioni e processi - e analizzeremo importanti risultati in merito .Alla fine del capitolo anticiperemo la struttura teoretica generale che sarà basilare per molte delle nostre discussioni sulla percezione visiva. Questa si basa su quattro momenti che partono dall'immagine retinica per arrivare all'identificazione dell'oggetto. Si avverte il lettore che il materiale di questa sezione è astratto e teorico e risulterà forse difficile perché appare molto presto nel libro, prima di aver esaminato alcuni esempi specifici.
Il paradigma dell'elaborazione dell'informazione è un modo di considerare la natura della mente umana come un processo computazionale. Esso è stato applicato con considerevole successo non solo nella percezione visiva ma anche nel vasto ambito dei fenomeni cognitivi nella percezione uditiva, nella memoria, linguaggio, giudizi, pensiero e soluzione dei problemi. Infatti l'approccio dell'elaborazione dell'informazione si è così imposto su questi argomenti che diversi scrittori hanno sostenuto che esso costituisce un "paradigma kuhniano" per la conoscenza (Lachman, Lachman e Butterfield, 1979; Palmer e Kimchi, 1986).
Il noto filosofo della scienza Thomas Kuhn (1962) definisce un paradigma scientifico come "un insieme di assunzioni di lavoro che una comunità di scienziati condivide (spesso implicitamente) nelle ricerche condotte su un determinato argomento". Le assunzioni di un paradigma di solito implicano modi metateorici di concettualizzare i problemi più importanti e modi rilevanti di approccio a tali teorie. Kuhn descrive la fisica newtoniana come un paradigma che sopravvive largamente intatto dal diciassettesimo secolo fino alla maggior parte del ventesimo secolo. Sebbene ci siano stati molti sviluppi teorici seguenti a Newton nessuno di loro pretende di respingere le assunzioni fondamentali che sottostanno all'idea di Newton riguardo alla natura del mondo fisico. Per esempio, Newton e i suoi successori implicitamente o esplicitamente assumono che c'è una distinzione qualitativa tra massa ed energia, che il tempo è assoluto, e che la causalità è deterministica. Soltanto la meccanica quantistica e la teoria di Einstein sulla relatività determinarono la morte di questo paradigma newtoniano e si fece strada un nuovo paradigma che incorporava una serie di assunzioni quali, per esempio, che massa ed energia sono equivalenti, che il tempo è relativo e che la causalità è connessa con la probabilità.
L'affermazione che l'elaborazione dell'informazione costituisce un paradigma per le scienze cognitive - includendo la scienza della visione - è basata sulla credenza largamente sostenuta che la natura dei processi mentali può essere colta dalle teorie che li specificano in termini di eventi dell'elaborazione dell'informazione (vedi sotto). Sebbene rimanga un piccolo ma convinto insieme di scienziati della visione che non vedono la percezione visiva come un processo di elaborazione - più precisamente proponendo la teoria di Gibson dell'ottica ecologica - il paradigma dell'elaborazione dell'informazione è certamente la struttura dalla quale derivano le più attuali teorie della percezione visiva.

2.3.1 LA METAFORA DEL COMPUTER

Lo sviluppo storico delle teorie sulla visione è stato fortemente influenzato dalle tecniche di ricerca disponibili. Nel caso della teoria dell'elaborazione dell'informazione, la forza più significativa è stata sicuramente l'invenzione dei computer elettronici. La loro influenza è stata sentita in due modi distinti ma collegati. Primo, essi sono diventati lo strumento privilegiato per verificare nuove teorie sull'elaborazione visiva. Come abbiamo visto nella sezione 2.2 questo approccio ha fatto emergere la visione come un settore speciale all'interno della scienza dei computer. Il suo scopo è programmare computer così che essi capiscano le parole che li riguardano nel modo più simile possibile alle persone.
La seconda influenza dei computer è stata anche più profonda: essi sono stati usati come la prima analogia teoretica per i processi mentali all'interno del paradigma dell'elaborazione dell'informazione. In poche parole i processi mentali (come tali la percezione visiva) sostengono la stessa relazione con il cervello come fanno i programmi con il computer sul quale lavorano; significa che i processi sono dei "software" di stime biologiche e i cervelli sono "hardware" .Il motivo di queste analogie è che molte teorie della percezione sorpassate da oltre venti o trenta anni, sono state attualmente implementate dai programmi di computer e molte di più sono state descritte all'interno della struttura dell'elaborazione dell'informazione. In questo capitolo mostreremo quale forma prendono queste teorizzazioni e perché sono diventate così popolari.
L'analogia del computer ha largamente sostituito le analogie teoriche che abbiamo discusso nella sezione 2.1.L'analogia del computer è abbastanza compatibile con l'analogia deduttiva del costruttivismo.
Alcuni teorici credono che le somiglianze tra mente/cervello e programma/computer si sono diffuse abbastanza con una corretta programmazione "vedendo" il computer come se attualmente avesse l'esperienza di una coscienza visiva. Questa visione della relazione tra i programmi di computer e gli eventi mentali è talvolta chiamata "STRONG AI" (Searle, 1980): vale a dire che una corretta macchina di programmazione attualmente esegue processi mentali, includendo esperienze coscienti. Questa posizione è stata contrastata con la cosiddetta "WEAK AI", nella quale l'affermazione è che come una macchina l'intelligenza simula solo gli eventi mentali, oppure coscienti. Se le affermazioni della "STRONG AI" siano valide o meno non si sa, è aperto un serio dibattito, con argomenti che sostengono entrambi i punti di vista (vedi Searle, 1980 e contributi che seguono).
Senza considerare le più estreme affermazioni che sono state fatte, se gli eventi mentali accaduti nel cervello umano sono davvero analoghi ai programmi di computer, in seguito saranno usati per esaminare cosa si conosce riguardo all'elaborazione dell'informazione su dispositivi simili al computer. Questo per cercare di intuire come la mente può lavorare e come può essere studiata in modo più vantaggioso.

2.3.2 TRE LIVELLI DELL'ELABORAZIONE DELL'INFORMAZIONE

Nel suo autorevole libro "Vision" David Marr (1982) distingue tre differenti livelli di descrizione coinvolti in un complesso sistema di elaborazione dell'informazione: COMPUTAZIONALE, ALGORITMICO E IMPLEMENTAZIONALE. Così facendo egli fornisce un'analisi metateoretica del paradigma dell'elaborazione dell'informazione. Una metateoria è una teoria delle teorie, una teoria che cerca non di analizzare la visione stessa ma di analizzare la natura delle teorie della visione. Marr dimostra che ci sono importanti distinzioni concettuali riguardo a questi tre livelli e che tutti sono essenziali per comprendere la visione (o qualsiasi altro processo) come elaborazione di informazioni.

Commento alla figura 2.3.1 pag.72
La descrizione del livello computazionale di un termostato. A)Il diagramma mostra gli input e gli output del termostato. B)Il grafico segna il comportamento di input/output del termostato per tre particolari misure come una funzione della temperatura.

IL LIVELLO COMPUTAZIONALE
La più astratta descrizione che Marr ha proposto era il livello computazionale. Egli lo definisce come un insieme di vincoli informazionali disponibili per rilevare le informazioni in input verso le informazioni in output. Questo livello di teorizzazione specifica di che cosa ha bisogno la computazione per essere mostrata e su quale informazione dovrebbe essere basata, senza specificare come è realizzata. Per illustrare questo concetto prenderemo in considerazione un sistema di elaborazione dell'informazione molto semplice: un termostato domestico. La "computazione" che un termostato deve eseguire è la rilevazione sia del valore della temperatura dell'aria in quel momento, sia la regolazione su una temperatura preferita (l'informazione di input) verso un segnale di on/off per la caldaia (l'informazione di output), che cambia in funzione della temperatura dell'aria a seconda se è minore o maggiore del punto di regolazione (vedi fig. 2.3.1A). La figura 2.3.1B mostra questa doppia misura come una funzione della temperatura dell'aria: se la temperatura è sotto il punto di regolazione l'impianto va su on, se è uguale o sotto l'impianto va su off. Possiamo riassumere la descrizione di questo livello computazionale in forma matematica come una funzione doppia a due variabili

1 se e solo se T<S
0(T,S) =
0 se e solo se T³S

dove 0 è l'output della funzione, T è la temperatura e S è il punto di regolazione.
Non diremo come questa funzione matematica è stata ottenuta, abbiamo soltanto definito cosa sono gli input e come sono stati relazionati formalmente agli output. Questa è la descrizione del livello computazionale del termostato.

IL LIVELLO ALGORITMICO
Il livello che sta nel mezzo della gerarchia di Marr è il livello algoritmico. Le descrizioni algoritmiche sono più specifiche di quelle computazionali nelle quali si specifica come è eseguita una computazione in termini di elaborazione dell'informazione. In principio ci sono molti modi diversi nei quali un dato livello computazionale potrebbe realizzare una rilevazione dall'input all'output, nello stesso modo in cui ci sono molti differenti programmi di computer che potrebbero realizzare lo stesso compito computazionale. Di conseguenza il livello algoritmico corrisponde più strettamente al concetto di programma così come è compreso nella scienza del computer. Per costruire un algoritmo per un certo compito bisogna decidere prima una rappresentazione per l'informazione di input e output e poi costruire una serie di processi che trasformeranno la rappresentazione dell'input nella rappresentazione di output in una maniera ben definita. I concetti di "rappresentazione" ed "elaborazione" saranno discussi a fondo fra breve, ma per ora, si può pensare alla rappresentazione come un modo di codificare l'informazione e l'elaborazione è un modo di cambiare una rappresentazione in un'altra. Nel nostro esempio del termostato l'algoritmo più semplice è usare una variabile continua per codificare la temperatura e un'altra per codificare il punto di regolazione; poi mostrare un'operazione di confronto tra queste due grandezze per determinare se la temperatura è più alta o più bassa del punto di regolazione. Un diagramma corrispondente a questo algoritmo è dato dalla figura 2.3.2. Questo è l'algoritmo standard per molti termostati, ma ne sono possibili anche altri. Bisogna infatti sottolineare che più di un algoritmo può soddisfare una data descrizione computazionale.

Commento alla figura 2.3.2 pag. 73
Descrizione del livello algoritmico di un termostato. Il diagramma mostra una scomposizione del diagramma computazionale della fig. 2.3.1 nella codificazione, comparazione e operazioni di output.

Commento alla figura 2.3.3 pag. 73
Descrizione del livello implementazionale di un termostato. Un diagramma schematico mostra un dispositivo fisico che compie l'operazione indicata nello schema del livello algoritmico in fig.2.3.2

IL LIVELLO IMPLEMENTAZIONALE
Il più concreto livello di descrizione è il livello implementazionale. Esso permette di capire che un algoritmo può essere realizzato come un processo fisico all'interno di un sistema fisico. Così come lo stesso programma può essere applicato su molti computer che si differenziano nella loro struttura fisica così lo stesso algoritmo può essere implementato usando materialmente molti diversi dispositivi.
Per illustrare concretamente il livello di implementazione la figura 2.3.3 mostra un modo per costruire un termostato fisico usando il primo algoritmo che abbiamo descritto. La doppia linea curva rappresenta una striscia bimetallica, costituita dall'unione di due strisce di metallo che hanno differenti movimenti di dilatazione termica. La differenza di dilatazione dei due metalli alle diverse temperature causa la larghezza che piega la striscia più o meno a seconda dei cambi di temperatura. Il punto finale, non collegato a nessun altro dispositivo di questa striscia, è parte di uno scambio di contatto che completa un circuito elettrico quando tocca il contatto stesso. La posizione verticale del contatto è modificata da chi regola il setting del termostato; sollevandolo aumenta il punto di rilevazione e abbassandolo diminuisce. Se l'interruttore si chiude o meno dipende da due fattori: l'altezza della fine della striscia bimetallica (determinata dalla temperatura) e l'altezza del contatto (determinata dal setting).
Ci sono innumerevoli modi alternativi per implementare la funzione continua della temperatura e classificare le variabili cosicché possano essere paragonate ad un semplice processo fisico.

2.3.3 TRE ASSUNZIONI SULL'ELABORAZIONE DELL'INFORMAZIONE

Palmer e Kimchi (1986) hanno fornito una differente analisi metateorica del paradigma dell'elaborazione dell'informazione secondo una prospettiva psicologica. Sebbene la loro analisi all'inizio possa apparire abbastanza diversa da quella di Marr, vedremo invece che è ad essa strettamente collegata.

DESCRIZIONE DELL'INFORMAZIONE
Palmer e Kimchi (1986) analizzarono le assunzioni implicite che sottolineano le teorie dell'elaborazione dell'informazione nella psicologia cognitiva. Le tre teorie più importanti sono elencate in questa e nella seguente sezione.

1) Descrizione dell'informazione
Gli eventi mentali possono essere descritti funzionalmente come eventi informazionali, ciascuno dei quali è diviso in tre parti: l'informazione in input, l'operazione rappresentata nell'input, l'informazione di output.

Commento alla figura 2.3.4 pag.74
Diagramma di una scatola nera. Gli eventi mentali possono essere descritti come eventi informazionali definiti dall'informazione di input, output e dalle operazioni che mappano l'input verso l'output.

Questa prima assunzione afferma che gli eventi mentali, includendo la percezione visiva, possono essere considerati come un'operazione che trasforma un insieme iniziale di informazioni-input in informazioni-output. Così l'evento informazionale può essere rappresentato come una "scatola nera" in un diagramma di flusso, come illustrato in figura 2.3.4. Se il rilievo dell'input/output è ben definito, ci sarà un modo di specificare l'operazione cosicché conoscendo l'input e l'operazione si determina l'output. Una teoria cognitiva a questo livello di astrazione corrisponde al livello computazionale di Marr perché specifica quale informazione è mappata dall'input all'output ma senza specificare come questa trasformazione può essere compiuta. Una funzione matematica che mette in relazione l'input all'output è il modo ideale di specificare l'operazione, come abbiamo fatto per l'esempio del termostato, ma più avanti ne faremo una descrizione migliore.

SCOMPOSIZIONE RICORSIVA
Sebbene la descrizione informazionale è una condizione necessaria per una teoria dell'elaborazione dell'informazione, essa non è sufficiente perché ci sono teorie che si basano sull'assunzione della descrizione informazionale ma che non sono tuttavia teorie dell'elaborazione dell'informazione. La teoria della raccolta dell'informazione di Gibson, per esempio, specifica le corrispondenze informazionali tra input e output e quindi soddisfa l'assunzione della descrizione informazionale. Tuttavia la teoria di Gibson non è una teoria dell'elaborazione dell'informazione perché esplicitamente nega la necessità di analizzare le rappresentazioni interne o i processi che compiono la mappatura. Palmer e Kimchi (1986) specificano questa nuova cruciale istanza delle teorie dell'elaborazione dell'informazione come assunzione della scomposizione ricorsiva. Essa è usata per formulare descrizioni più complete di che cosa deve andare all'interno della scatola nera.

2) Scomposizione ricorsiva
Alcuni complicati eventi informazionali possono essere spiegati più completamente a partire da un basso livello di scomposizione e con un diagramma di flusso che specifica le relazioni di ordine temporale tra le componenti. L'importante concetto introdotto da questa assunzione è che si può definire una scatola nera in termini di un numero di più piccole scatole nere dentro di essa, oltre che da una specificazione di come esse sono interconnesse. Queste più piccole scatole nere sono spesso chiamate "stages" e sono indipendenti da altri "stages". Un piccolo esempio di scomposizione è l'analisi di un sistema stereo nei suoi componenti funzionali: sintonizzatore, lettore cd, piastra di lettura/registrazione cassette, preamplificatore, amplificatore e microfono (vedi figura 2.3.5). In molti casi, tutti questi componenti sono protetti da una vetrinetta, in altri casi ognuno di essi ha una propria chiusura con dei fili collegati tra loro che corrispondono alle frecce del flusso di informazioni della figura 2.3.5.

Commento alla figura 2.3.5 pag.74
Diagramma di flusso di un sistema stereo. La scomposizione funzionale di un tipico sistema stereo lo separa nelle diverse componenti e nelle relazioni tra le varie parti.

Dicendo che la scomposizione è ricorsiva significa che può derivare dal risultato della scomposizione precedente. Così tutte le componenti dell'esempio dello stereo possono essere scomposte ulteriormente nei suoi circuiti interni in un processo interattivo di ulteriore scomposizione.
Questi diagrammi di flusso scomposti in singole componenti di un sistema di elaborazione dell'informazione possono corrispondere a quello che Marr chiamava "livello algoritmico". Ma è presente una differenza tra i due: Marr vedeva questo livello algoritmico come singolo, di unitaria entità, mentre Palmer e Kimchi lo concepiscono come composto da molte gerarchie di livelli incastrati. Anche un programma di computer può essere visto come una singola entità o come una gerarchia di incastri di diagrammi di flusso. Palmer e Kimchi (1986) ritengono che la scomposizione ricorsiva per gli psicologi giace nel cuore dell'approccio dell'elaborazione dell'informazione perché riflette come tipicamente essi lavorano: cercando di specificare e testare successivamente e più dettagliatamente i diagrammi di flusso.

Commento alla figura 2.3.6 pagina 75
La scomposizione ricorsiva nella cognizione umana. La mente può essere descritta come un evento informazionale a diversi livelli di dettaglio. Ogni diagramma di flusso mostra una scomposizione funzionale della scatola nera sotto (unita dalla linea tratteggiata) in un set di semplici operazioni e flusso di informazioni fra essi.

Questa figura illustra un esempio di scomposizione ricorsiva applicata alla cognizione umana. La mente come "tutto" è rappresentata da una singola scatola nera nella figura 2.3.6A. Gli psicologi la scompongono in rapporto ad un piccolo numero di componenti base illustrati in fig. 2.3.6B ed evidenziano le loro connessioni. Ricordiamo che l'argomento di questo libro - la percezione visiva - è rappresentato come un singolo processo in questo diagramma di flusso.
La scomposizione ricorsiva ammette che si comprenda gradualmente la complessità di un sistema di elaborazione di informazione. È importante ricordare che gli eventi informazionali al livello più basso devono anche avere una descrizione informazionale che specifica cosa fanno quando mappano input e output ma non hanno bisogno di specificare come lo fanno. Il "come" si può capire scendendo di livello nella via gerarchica della nuova scomposizione.
Questa impresa di scomposizione ricorsiva in una gerarchia di componenti sarà un successo solo nell'estensione del sistema stesso. Il Nobel Herbert Simon (1969) ha avanzato diverse argomentazioni sul fatto che il sistema del processo di elaborazioni di informazioni è strutturato in questo modo. Egli caratterizza la cognizione umana come "quasi scomponibile" per distinguerla da alcuni sistemi costruiti dall'uomo, come lo stereo del nostro esempio precedente, che sono del tutto scomponibili. La distinzione di Simon confronta le interazioni che esistono all'interno delle componenti con quelle che esistono tra le componenti. Un sistema scomponibile è uno nel quale le interazioni tra le componenti sono irrilevanti se confrontate con quelle all'interno di esse. In una più recente terminologia, questi sistemi sono chiamati modulari, significando che sono scomponibili in un set di processi indipendenti: il filosofo Jerry Fodor (1983) ha confermato la verità dell'ipotesi modulare del pensiero umano. Un sistema quasi scomponibile è quello in cui le interazioni tra le componenti sono deboli ma non irrilevanti, e un sistema non scomponibile è quello in cui le interazioni tra le componenti sono tanto forti quanto quelle all'interno delle componenti.
Alcuni teorici della percezione - in particolare Gestaltisti, della scuola ecologica e di quella connessionista del pensiero - sono sensibilmente meno ottimisti di Simon (1969) e Fodor (1983) riguardo al dominio verso il quale il pensiero umano è anche quasi scomponibile in moduli. Molti Gestaltisti credevano che gli eventi mentali dovessero essere compresi in termini di insieme di più parti, olistico, come un'area di interazione che prende posto nel cervello. Questa concezione non si adatta all'idea che i processi cognitivi formano un "quasi sistema" scomponibile, caratterizzato da un diagramma di flusso della scomposizione ricorsiva. Più recentemente alcuni teorici connessionisti hanno anche messo in discussione la validità della scomposizione ricorsiva confermando la spiegazione dei livelli neurali di percezione e cognizione. Essi spiegano che alcune descrizioni dei più alti livelli - che sono dimostrati nei diagrammi di flusso - sono solo una semplice approssimazione della vera e propria descrizione del livello neurale (Smolensky, 1988). Gibson e alcuni dei suoi seguaci prendono la posizione opposta, concentrandosi prima sulla descrizione informazionale della percezione al più alto livello computazionale senza cercare di analizzarlo nei suoi processi interni.
L'idea che la scomposizione possa essere applicata in modo ricorsivo alle descrizioni informazionali solleva l'importante questione di quando fermarsi. La risposta ovvia è che bisogna fermarsi quando un certo tipo di primitivi eventi informazionali è passato. Ma questo solleva la nuova questione di come definire gli eventi "primitivi". Palmer e Kimchi (1986) distinguono due approcci diversi a questo problema, uno basato su "software primitivi" e l'altro su "hardware primitivi".
L'approccio "software" è considerare come primitivi alcuni set di operazioni plausibili dal punto di vista computazionale, che sono sufficienti per mostrare il compito. Essi sono chiamati "software primitivi" perché le operazioni che mostrano sono ispirate alle richieste dei "programmi" che sono scritti nella proposta "dell'elaborazione dell'informazione linguistica della mente" piuttosto che dalle operazioni mostrate dalle primitive componenti fisiche della macchina sulla quale essi funzionano. I "software primitivi" si sono dimostrati utili nel modellamento di una varietà nascosta di alti livelli dei processi cognitivi, come il pensiero e il problem solving, ma non hanno avuto ancora molto successo sui modelli percettivi.
L'approccio "hardware" è considerato come l'insieme delle operazioni primitive mostrate attraverso le basilari componenti fisiche del sistema. Nel caso degli eventi mentali, la supposizione corrente è che le unità di base del cervello siano i neuroni. Il modello neurale è un approccio più comune rispetto ai precedenti nella teoria percettiva, in particolare nella sua prima elaborazione e grazie ad esso gli scienziati ora conoscono molti dettagli della struttura neurale.
È importante considerare che anche se si effettua una scomposizione a livello descrittivo degli "hardware primitivi", non si giungerà mai realmente al sistema fisico stesso. L'informazione quindi non può essere completamente ridotta nella sua particolare implementazione fisica.
Forse il modo più chiaro per illustrare questo punto è immaginare che si è scomposto il sistema stereo dell'esempio della figura 2.3.5 tutto secondo il modo degli "hardware primitivi". Tuttavia questa descrizione non si riferisce all'attuale dispositivo fisico che mostra. Esso si applicherebbe tanto bene allo standard elettrico quanto l'equivalenza dell'ottica di alta tecnologia o di alcuni altri dispositivi implementano la stessa funzione di input/output. Questa osservazione è strettamente legata alla distinzione di Marr tra il livello algoritmico e quello implementazionale. In entrambi i casi il sistema fisico è visto come un settore fondamentalmente distinto.

TRASFORMAZIONE FISICA
Palmer e Kimchi (1986) specificano la connessione tra il livello informazionale e il livello fisico nella loro terza assunzione.

3) Trasformazione fisica
Nel sistema fisico il comportamento è stato descritto come un evento informazionale, l'informazione è diffusa dagli stati del sistema (chiamati rappresentazioni), mentre le operazioni che usano queste informazioni sono diffuse dai cambiamenti di stato (chiamati processi).
Questa terza assunzione costruisce una divergenza tra il livello funzionale astratto dell'informazione "non incarnata/non personificata" e le operazioni e l'attuale attività del reale sistema fisico (o implementazione nella terminologia di Marr). Seguendo questo punto di vista le informazioni e le operazioni sono, in termini tecnici, entità nel dominio astratto delle descrizioni dell'elaborazione dell'informazione, mentre le rappresentazioni e i processi sono entità del mondo fisico quando sono considerati trasformazioni di informazione e operazioni. Questa è una sottile distinzione ma che non è comunemente utilizzata nella letteratura. Molti teorici sembrano usare il termine "rappresentazione" per riferirsi alle entità informazionali e ai processi che si riferiscono ai cambiamenti nel concetto di informazione.
I tre livelli che abbiamo discusso - computazionale, algoritimico, implementazionale - chiariscono la nostra discussione sulla teoria visiva dall'inizio alla fine di questo libro. La maggior parte dei lavori su un livello computazionale è stata fatta attualmente dalle ricerche nella visione al computer. Questi teorici cercano di identificare l'informazione ottica disponibile nelle immagini retiniche che permettono la percezione dell'ambiente esterno. Così facendo, essi implicitamente seguono il programma di Gibson dell'ottica ecologica, studiando la percezione attraverso un'accurata analisi delle relazioni matematiche tra lo stimolo prossimale e quello distale. A livello algoritmico, gli scienziati del computer e gli psicologi stanno attivamente esplorando come i complessi problemi computazionali possano essere scomposti in una serie di semplici componenti e di un flusso di informazione attraverso di loro. A livello implementazionale, gli scienziati del computer spesso organizzano i loro algoritmi in attuali dispositivi elettronici; fisiologici e psicologi cercano di determinare come i cervelli elaborano realmente l'informazione visiva a livello neurale. Uno dei principi centrali nel presente punto di vista interdisciplinare è che solo affrontando il problema della visione in tutti e tre i livelli contemporaneamente noi possiamo raggiungere una comprensione adeguata.

2.3.4 LA RAPPRESENTAZIONE.

Abbiamo sostenuto che le componenti fondamentali di un sistema di elaborazione dell'informazione sono le rappresentazioni e le elaborazioni. Abbiamo ulteriormente definito una rappresentazione come un'entità fisica che porta l'informazione riguardo qualcosa ed elaborazione come trasformazioni fisiche che cambiano una rappresentazione nell'altra. Ma che tipo d'informazione porta una rappresentazione visiva e come riesce a realizzarla? E che tipo di elaborazioni sono compiute da un sistema di elaborazione di informazione visiva? Queste sono le domande base riguardo la natura delle teorie del processo di elaborazione che ora considereremo. Una rappresentazione si riferisce ad uno stato del sistema visivo che si conserva per una proprietà ambientale, un oggetto, o evento: esso è un modello di ciò che rappresenta (Palmer, 1978). In questo modo di pensare, una rappresentazione si trova solo come parte di un largo sistema di rappresentazione che include due mondi collegati ma distinti: il mondo rappresentato fuori dal sistema di rappresentazione dell'informazione (di solito chiamato il mondo esterno o ambientale) ed il mondo rappresentante dentro il sistema di elaborazione dell'informazione (chiamato di solito rappresentazione interna o semplicemente la rappresentazione). Che cosa permette ad un mondo interno di rappresentare un mondo esterno? Una possibilità è che la rappresentazione interna preserva l'informazione sulla struttura del mondo esterno grazie al fatto di avere una struttura simile. Per questo la struttura dei due mondi deve essere la stessa fino ad un certo punto. Un sistema di rappresentazione può essere analizzato come omomorfismo: un'applicazione/rilevamento da oggetti in un dominio (il mondo esterno) a oggetti in un altro dominio (il mondo interno) tale che le relazioni tra gli oggetti nel mondo esterno sono rispecchiati da relazioni corrispondenti tra oggetti corrispondenti nella rappresentazione (Tarsky, 1954). Questa applicazione omomorfica è rappresentata schematicamente in Figura 2.3.7. Incontriamo qualche semplice esempio di rappresentazioni nella nostra discussione sui termostati. Abbiamo detto che la temperatura fu rappresentata dalla fine "non collegata" della striscia bimetallica. Ora possiamo vedere che cosa significa più precisamente. Come la temperatura aumenta nel mondo esterno, causa la posizione verticale della fine della striscia che aumenta in proporzione. Come risultato, le relazioni tra temperature esterne (più freddo di, più caldo di) sono collegate da relazioni tra altezze dell'ultima parte della striscia (più basso di, più alto di). L'altezza della striscia così preserva l'informazione sulla temperatura esterna dal potere di questo omomorfismo azionato in modo causale e perciò rappresenta la temperatura esterna. Il fattore dell'omomorfismo è importante per due ragioni. Una é che la rappresentazione deve essere attuale e deve richiedere un costante aggiornamento. L'altra é che la rappresentazione deve essere autentica, deve essere un collegamento al mondo che rappresenta. La Figura 2.3.8 mostra diversi esempi che illustrano altri aspetti di questa nozione di rappresentazione (Palmer, 1978). Il "mondo esterno" rappresentato è l'insieme dei quattro rettangoli mostrati in Figura 2.3.8A. Nonostante la loro semplicità, questi oggetti contengono molti differenti aspetti che potrebbero essere formati o codificati in una rappresentazione, come la loro altezza, larghezza, area. Le Figure 2.3.8B e 2.3.8C mostrano come due differenti aspetti di questo mondo in miniatura potrebbero essere rappresentati dalle stesse relazioni interne: più lungo di. Nella Figura 2.3. 8B la lunghezza delle linee nella rappresentazione riflette l'altezza relativa dei rettangoli nel mondo esterno: questo è, il fatto che "a" sia più lungo di "b" nel mondo B riflette il fatto che "a" è più alto di "b" nel mondo A. Simili condizioni possono essere costruite per coppia di rettangoli in A e le loro corrispondenti linee in B. Dato questo stato di eventi, possiamo dire che la lunghezza relativa delle linee in B preserva l'informazione riguardo l'altezza relativa dei rettangoli in A. Ogni domanda che può essere posta riguardo l'altezza dei rettangoli in A può venir confutata dal considerare la lunghezza delle linee relative in B. E' in questo senso che la linea relativa alla lunghezza del mondo B rappresenta l'altezza relativa nel mondo A. La linea della lunghezza è ancora usata in Figura 2.3.8C per rappresentare fatti riguardo i rettangoli in A, ma questa volta, è la larghezza relativa dei rettangoli che è rappresentata, come in Figura 2.3.8B. La Figura 2.3.8D descrive una rappresentazione dell'altezza del rettangolo fisiologicamente plausibile i termini di frequenza di scarica di neuroni, in cui ciascuna linea verticale indica una punta di scarico e la linea orizzontale il tempo. Questi ipotetici neuroni scaricano a una frequenza proporzionale all'altezza dei rettangoli corrispondenti come i rettangoli più alti causano frequenza di scarica più alta. Nota che l'altezza del rettangolo potrebbe essere stata codificata in opposta maniera: la frequenza di scarica potrebbe essere inversamente collegata all'altezza del rettangolo, nel cui caso una frequenza di scarica maggiore potrebbe corrispondere a rettangoli più corti. Nonostante le ovvie differenze tra le rappresentazioni della frequenza di scarica e la lunghezza delle linee codificate in Figura 2.3.8B, sono equivalenti dal punto di vista informazionale, nel senso che riflettono gli stessi fatti riguardo al mondo esterno (Palmer, 1978) e quindi portano informazioni identiche sui rettangoli. Un modo differente di codificare relazioni "più alto di" riguardo ai rettangoli è illustrato in Figura 2.3.8E e 2.3.8F. Ciascun rettangolo corrisponde ad uno specifico nodo (cerchio) in questi grafici (o reti), e le relative relazioni dell'altezza collegate tra loro da frecce. In Figura 2.3.8E, le frecce sono interpretate direttamente come relazioni "più alto di". Così, il fatto che a è più alto di "b" nella parte A è riflesso dal fatto che "a" indica direttamente "b" attraverso una delle frecce nella parte E. In questo caso, tutte le frecce richieste sono presenti nella rappresentazione, così nessuna relazione ha bisogno di essere dedotta da un'elaborazione ulteriore. Le relazioni "più alto di" nella parte A sono codificate da relazioni di "concatenamento" nella parte E, dove "x concatena y" significa che esiste una serie di frecce che parte da x e arriva ad y. Questa definizione della relazione di concatenamento e` una rappresentazione economica nel senso che sono richieste poche frecce per esprimere tutte le potenziali relazioni. L'informazione richiesta può essere dedotta dal fatto che "a" concatena "b" e che "b" concatena "c". Ci sono molte controversie circa la natura delle rappresentazioni visive: o la rappresentazione di un fatto dato è localizzata in un particolare elemento rappresentante o è distribuita sopra molti elementi, o le rappresentazioni visive sono analogiche o proposizionali, o un fatto certo è rappresentato esplicitamente o implicitamente, o che tutta la rappresentazione visiva possa essere ricondotta ad un ambiente finito di atomi primitivi o costituire un sistema aperto-finito.

2.3.5. LE ELABORAZIONI

Abbiamo detto che le rappresentazioni sono entità fisiche in un sistema di elaborazione dell'informazione e che portano l'informazione. Ma da dove vengono le rappresentazioni? E come una rappresentazione deriva da un'altra? Per rispondere dobbiamo esaminare l'altra metà del sistema: le elaborazioni. Le elaborazioni sono le componenti attive di un sistema di elaborazione dell'informazione che trasformano o eseguono un'operazione su un'informazione combinando un'informazione con la successiva. In altre parole, le elaborazioni sono l'aspetto dinamico del sistema che attualmente causano trasformazioni informazionali perché accadano. Ora dovrebbe essere facile vedere perché c'è bisogno sia della rappresentazione sia delle elaborazioni. Nella presente sezione, consideremo che cosa fanno le elaborazioni e come.

Informazione implicita contro quella esplicita.
Uno dei più importanti aspetti di cosa fanno le elaborazioni è quello di rendere l'informazione che era implicita nella rappresentazione di input in esplicita in quella di output (e viceversa). Tutta l'informazione deve essere accessibile ad entrambi nella struttura ottica che è progettata dall'ambiente sopra la retina o da sorgenti interne all'interno dell'osservatore. Le elaborazioni collegano e combinano l'informazione in modi appropriati, per costruire nuove rappresentazioni in cui le nuove rappresentazioni avranno facilmente accesso all'informazione richiesta. Inizialmente l'informazione esplicita per la visione è l'intensità di luce che è registrata da ciascun fotorecettore nel mosaico retinico bidimensionale. Ciò che sono importanti sono i fatti più complessi come: dove sono situati i confini tra le zone retiniche proiettate da differenti superfici, dove queste superfici sono localizzate nello spazio tridimensionale, come le superfici sono configurate per formare oggetti significativi, e a quale uso questi oggetti potrebbero essere messi a disposizione. Niente di questa informazione è rappresentata esplicitamente nella reazione della retina delle immagini ottiche. Inoltre, c'è un senso in cui tutto di ciò deve essere implicitamente presente nell'immagine retinica oltre al fatto che colui che percepisce produca un'ulteriore conoscenza interna nell'elaborare l'immagine. Il compito della percezione visiva è combinare le percezioni esterne e interne per produrre fatti significativi sull'ambiente adatti all'organismo.

Processo come inferenza.
L'informazione implicita può essere resa esplicita progettando una rappresentazione in un'altra. I processi che si realizzano come trasformazioni possono essere intesi come inferenze, come propose Hemholtz, sebbene sia inconscio. Per illustrare la natura dell'inferenza, consideriamo un classico sillogismo logico. Inizialmente l'informazione esplicita è data nella forma della premessa ("Tutte le persone sono mortali e John è una persona") e la logica provvede che i ruoli da cui l'informazione che è solo implicita nella premessa possano essere resi espliciti nella conclusione ("Quindi John è mortale"). Estendendo questo modo di vedere inferenziale del processo d'informazione alla visione, potremmo far corrispondere la premessa all'immagine retinica più qualunque conoscenza immagazzinata o precedenti assunzioni che il percepente trattiene per portarla nel corso del processo dì percezione. Per esempio, data un'immagine retinica in cui una serie di linee converge verso un punto evanescente (v. Fig.2.3.9), più l'assunzione della convergenza della prospettiva lineare (cioè le linee che convergono ad un punto sull'orizzonte in un'immagine proiettata sono attualmente parallele e si allontanano in profondità nel mondo esterno), il sistema visivo conclude che le linee che convergono nell'immagine sono, infatti, linee parallele che si allontanano nel contesto tridimensionale. Nonostante la formale somiglianza tra inferenze logiche ed elaborazione visiva, ci sono diverse differenze. Le "reali" inferenze logiche che la gente fa per risolvere i sillogismi sono di solito abbastanza ponderate, lente, verbali e consce, poiché le inferenze visive sono generalmente spontanee, rapide, non verbali e inconsce. Invece, poca gente è consapevole che le linee parallele nel mondo proiettano linee convergenti nelle loro retine. In che modo allora i processi visivi possono essere considerati meccanismi d'inferenza?
Ci sono due tipi generali d'inferenza: l'inferenza deduttiva ed induttiva. Entrambi sono modi di combinare l'informazione per giungere alle conclusioni, ma differiscono in aspetti importanti. Altre forme di simbolismo logico sono incluse nella classe dell'inferenza deduttiva e così fanno operazioni matematiche standard. Uno degli aspetti chiave dell'inferenza deduttiva è che le sue condizioni sono certe a patto che le premesse siano vere. Se le premesse sono false , qualsiasi inferenza deduttiva che si basa su di loro non può essere fondata. Al contrario, le inferenze induttive sono ancora intrinsecamente incerte e probabilistiche se le affermazioni su cui si basano sono vere. Esse hanno questo carattere incerto perché sono basate su un'evidenza incompleta o probabilistica. La maggior parte delle inferenze nell'elaborazione visiva sono induttive nel senso che non garantiscono la verità, a causa della natura sottomessa e probabilistica del problema inverso che essi cercano di risolvere.

Le assunzioni nascoste.
La precedente discussione propone una strategia generale per l'inferenza visiva. Sebbene molti processi chiave nella visione sono effettivamente inferenze induttive piuttosto che deduttive possono essere trattate come inferenze deduttive col fare assunzioni nascoste (Cutting 1991). Questo è attualmente ciò che noi abbiamo fatto nell'esempio delle linee convergenti/parallele. La premessa della convergenza delle linee data esplicitamente nell'immagine non permette l'inferenza di parallelismo eccetto nel senso probabilistico di induzione. Comunque, assumendo la verità della premessa ulteriore dell'assunzione della convergenza, la conclusione delle linee parallele può essere estratta deduttivamente dall'immagine più l'assunzione della convergenza nascosta della prospettiva lineare. Se le ulteriori assunzioni della situazione attuale risultano false, la conclusione non sarà necessariamente valida. Infatti, questo è il caso nell'esempio della Fig. 2.3.9. perché le linee attualmente fanno convergenza nel disegno piuttosto che essere parallele in profondità. Per esempio, molti teorici credono all'illusione di Ponzo mostrata nella Fig. 2.3.10. Se le linee convergenti sono attualmente parallele (v. Fig.2.3. 10.) e le linee orizzontali si dispongono su questo piano, allora la linea orizzontale superiore potrebbe essere in verità più lunga invece che più bassa; poiché attualmente tutte le linee si dispongono nella figura, comunque la differenza in lunghezza è illusoria. Cutting(1991) ha riformulato il dibattito tra le teorie dirette (gibsoniane) e indirette (helmholtziane) della percezione. Egli identifica la posizione di Helmholtz d'inferenza inconscia con l'affermazione che la percezione è induttivamente basata sull'immagine e può essere completata solo con l'incremento di ulteriori assunzioni alcune delle quali saranno violate in situazioni insolite e quindi produrre illusioni. Molti teorici dell'elaborazione vedono alcune elaborazioni che cambiano una sola rappresentazione con un'altra come implicando un'inferenza induttiva nel senso che qualcosa di simile deve essere usato per le assunzioni nascoste. Molte differenti assunzioni nascoste sono di solito nel percepire la stessa scena visiva. Se questo fosse vero, si potrebbe concludere che le linee convergenti non sono parallele in profondità, ma convergono nel piano della figura(come sono attualmente). Come può il sistema visivo determinare che un'inferenza è corretta? Un'assunzione deve essere scelta per esclusione di altre assunzioni. Comunque ci sono strutture alternative che sono sembrate compatibili con la natura probabilistica dell'inferenza visiva. Una possibilità è formare assunzioni nascoste con i "soft constraints": limitazioni informazionali che dovrebbero essere prese in considerazione ma potrebbero essere sostituite da altre. I "soft constraints" possono variare da debole a forte e molti, potenzialmente contrastanti, possono essere integrati arrivando a un'inferenza visiva. Un'altra alternativa è usare la "fuzzy logic" che permette alle affermazioni di avere differenti livelli di verità invece dei due valori standard di vero e falso. Un altro approccio è affrontare il problema in termini d'inferenza probabilistica usando il teorema di Bayes. I vantaggi di lavoro dentro questa struttura sono che è intrinsecamente probabilistica e che molte parti evidenti possono essere integrate dentro una singola struttura matematica.

Processi euristici.
Procedure che risolvono un problema dato facendo uso d'informazioni dubbie, probabilistiche sono chiamati processi euristici. Come abbiamo menzionato prima, le euristiche sono procedure che di solito, ma non sempre, portano alla soluzione corretta. Per capire la natura euristica dei processi visivi, consideriamo ancora le linee convergenti/parallele nella Fig.2.3.9. Il problema iniziale era interpretare l'orientamento tridimensionale di un set di linee che convergono in un'immagine. L'assunzione delle linee convergenti di essere parallele nella prospettiva lineare, era così evocata come assunzione euristica che di solito, ma non sempre, è vera. Era ipotizzato che un processo d'inferenza di qualche genere potrebbe combinare questa assunzione con l'informazione dell'immagine retinica e accettare la conclusione /o "interpretazione") che le linee convergenti sono attualmente parallele su un piano che si allontana in profondità.

Assunzioni nascoste contro validità ecologica
Gibson contestò l'idea che la percezione implica sia inferenze o qualsiasi cosa di simile, difendendo invece l'idea che la percezione sia diretta. Egli affermò che le illusioni sono presenti solo in condizioni ecologicamente non valide. Egli discusse, abbastanza persuasivamente, che quando gli psicologi richiedono dei soggetti per vedere una scena da un singolo punto di vista statico, la loro forza di indossare insoliti occhiali per vedere strani video creati dal computer, o mostrare loro figure bidimensionali che simulano la struttura ottica di una scena tridimensionale, essi violano le condizioni con cui il genere umano sviluppò l'abilità di percepire nel primo piano. Generalmente parlando, quello che Gibson chiama condizioni ecologiche sono le assunzioni euristiche d'inferenza basate su teorie vere: per esempio, che gli osservatori non guardano da uno speciale punto di vantaggio che entrambi gli occhi esaminano la stessa scena ambientale, che l'ambiente è un mondo tridimensionale popolato da oggetti piuttosto che una proiezione bidimensionale composta da zone di luce e di buio e così via. Se le condizioni limite della percezione ecologica sono esattamente le condizioni in cui le assunzioni euristiche della teoria inferenziale sono vere, la percezione ecologica sarà sempre veridica. Gibson fu abile nel difendere questa teoria della percezione diretta contro l'evidenza della non veridicità, dall'affermazione che tali situazioni non erano ecologiche. Questo è perché Gibson fu così efficace a sviare i criticismi basati sull'esistenza delle illusioni; egli non ha negato che le illusioni siano esistite, ma solo che sono esistite in naturali condizioni ecologiche.

Processi top-down contro bottom-up.
Un'altra importante distinzione nell'elaborazione dell'informazione percettiva è il suo "senso" metaforico: se è bottom-up o top-down. L'elaborazione "bottom-up"- chiamato più precisamente elaborazione data driven - si riferisce a elaborazioni che prendono una rappresentazione di livello più basso come input e creano o modificano una rappresentazione di livello più alto come input. L'elaborazione top-down - chiamata anche hyphothesis driven o expectation driven - si riferisce a elaborazioni che operano nel senso opposto, prendendo una rappresentazione di livello più alto come input e producendo o modificando una rappresentazione di livello più basso come input. La semplice intuizione di molta gente è che la visione è essenzialmente un processo bottom-up. Essa inizia con l'informazione sensoriale nell'immagine retinica e va "oltre" le interpretazioni percettive e poi concettuali. La maggior parte dei teorici è d'accordo che i primi stadi del processo visivo sono invece strettamente bottom-up. Ma ci sono buone ragioni per pensare che non può essere vero per l'intera elaborazione della percezione visiva. Ho discusso nella sezione 1.1 che la percezione della presente situazione degli eventi produce aspettative sul futuro. Queste aspettativa implicano una componente top-down al processo visivo, perché suggeriscono che le precedenti interpretazioni di livello più alto influiscono sull'attuale processo ai livelli più bassi. Quando noi esaminiamo le teorie della categorizzazione percettiva nel cap.9, incontreremo ulteriori esempi dell'idea che l'elaborazione top-down è coinvolta con modelli immagazzinati che si adattano ad oggetti familiari e con scene per far entrare i dati sensoriali. Il punto in cui le elaborazioni top-down cominciano ad aggiungere qualcosa alle elaborazioni bottom-up è attualmente una questione controversa. Alcuni teorici credono che ciò succeda prima nel processo visivo; altri credono che ciò succeda dopo.

 

2.4 QUATTRO STADI DELLA PERCEZIONE VISIVA

La percezione visiva al livello degli algoritmi può essere suddivisa in 4 stadi, oltre all'immagine retinica stessa, come e` illustrato nella fig. 2.4.1. E` molto importante considerare fin dall'inizio questa struttura teoretica in quanto verra` utilizzata per il resto del libro.
Ogni stadio viene definito da un tipo diverso di rappresentazione in uscita e dai processi che sono richiesti per calcolarla partendo dalla rappresentazione in entrata. I teorici hanno utilizzato diversi nomi per indicare questi stadi, ma Palmer non userà nessuno di questi, bensì uno schema classificatorio generico in cui ogni stadio e` chiamato in base al tipo di informazione che rappresenta esplicitamente:
- stadio basato sull'immagine
- stadio basato sulle superfici
- stadio basato sugli oggetti
- stadio basato sulle categorie
Questo tipo di struttura e` stata influenzata da David Marr (1982) e dai suoi colleghi al M.I.T. Altri schemi sono stati e continuano ad essere considerati, ma questi stadi forniscono una struttura generale e robusta per la comprensione della visione come un processo computazionale.

2.4.1. L'IMMAGINE RETINICA

Lo stimolo prossimale e` la coppia di immagini bidimensionali proiettate dall'ambiente al punto di vista degli occhi dell'osservatore. La fig. 2.4.2. mostra una scena esternamente semplice che consiste in una tazza di ceramica posta su una superficie piatta, bianca, davanti a uno sfondo nero; in realtà quello che e` presente nel sistema visivo e` un insieme di luci che variano continuamente di intensità nello spazio. Infatti l'immagine ottica che colpisce la retina e` completamente continua, ma la sua registrazione, attraverso il mosaico dei recettori retinici, e` discreta. Questa e` la prima rappresentazione dell'informazione ottica dentro il sistema visivo. I recettori sono molto più densamente ammassati nella fovea rispetto alla periferia (si veda fig. 1.3.9) e i quattro tipi di recettori (tre tipi di coni e un tipo di bastoncelli) hanno una diversa distribuzione spaziale sulla retina (si veda la sezione 1.3).
Nelle teorie formali e computazionali della visione la rappresentazione retinica e` quasi sempre regolarizzata e semplificata mediante approssimazione, come un insieme di recettori omogenei e bidimensionali. La locazione spaziale dei recettori viene identificata in modo unico dalle coordinate, denominate x e y, poste in un piano. Il centro si trova nel mezzo della fovea e gli assi x e y sono allineati retinicamente e definiti rispettivamente Asse orizzontale e Asse verticale (Ascissa e Ordinata). Questi elementi quadrati dell'immagine vengono chiamati PIXEL. Un Pixel e` una piccola parte dell'immagine; e` la più primitiva e indivisibile parte che rappresenta esplicitamente un'unita` visiva dell'informazione in un'immagine, corrispondente ad un recettore nelle immagini retiniche. In un'immagine come quella di fig.2.4.2 in cui ci sono diverse gradazioni di grigio, il valore di un dato pixel e` denominato I (x, y) per l'intensità delle immagini (o luminanza) di uno specifico punto. Questi aspetti sono illustrati nella fig. 2.4.3 in cui si vede l'ingrandimento di una piccola parte della fig. 2.4.2 (fig. 2.4.3A) e il suo corrispondente valore di intensità numerica (fig. 2.4.3B). Il sistema di coordinate dell'immagine retinica si presume essere esplicitamente legato alla struttura intrinseca della retina.
La fig. 2.4.3B indica l'intensità della luce che cade su ogni recettore con un numero di due cifre (con un potenziale da 0 a 25). In questa figura e` presente tutta l'informazione spaziale dell'immagine in fig. 2.4.3A, ma in forma numerica e il nostro sistema visivo non e` in grado di interpretarla in termini di bordi, regioni, superfici, oggetti, ecc. Appare incomprensibile e non interpretabile. Questo non avviene quando guardiamo la fig. 2.4.2 che mostra l'intera immagine con i vari gradi di ombre, dalla quale derivano i numeri, e da cui immediatamente si percepiscono bordi, regioni, superfici, oggetti e tutti gli aspetti importanti della scena, che mancavano quando si esaminava l'insieme numerico. La ragione per cui la visione numerica e` cosi` difficile da comprendere e` che il nostro sistema visivo e` messo a punto per elaborare l'informazione contenuta in un'immagine di intensità e non in un insieme numerico. Viste le difficoltà a interpretare un'immagine numerica l'ultima sfida che i teorici della percezione devono affrontare e` questa: la percezione di oggetti in un ambiente tridimensionale sulla base di un insieme di numeri bidimensionali.

2.4.2 LO STADIO BASATO SULL'IMMAGINE

La maggior parte dei teorici accettano il fatto che la prima registrazione delle immagini negli occhi non sia solo una rappresentazione basata su un'organizzazione retinica bidimensionale. Queste rappresentazioni e questi processi supplementari vengono chiamati STADIO BASATO SULL'IMMAGINE. Questo livello e` un insieme di rappresentazioni e processi che estraggono caratteristiche da un'immagine bidimensionale, come la scoperta di bordi e linee, l'accoppiamento di immagini corrispondenti negli occhi sinistro e destro, la definizione di regioni bidimensionali nell'immagine e la scoperta di altre caratteristiche bidimensionali, come le linee terminali. Queste caratteristiche bidimensionali dell'immagine caratterizzano la sua struttura e la sua organizzazione, prima di essere interpretate come proprietà di scene tridimensionali. Per esempio la fig. 2.4.4A mostra alcuni bordi che potrebbero costituire una parte della rappresentazione basata sull'immagine per la tazza vista nella fig. 2.4.2. I bordi della parte A, che possono essere scoperti con algoritmi computerizzati, non sono gli stessi che sono disegnati nella parte B. E` interessante notare che la luminanza dei bordi scoperti nella fig. 2.4.4A non sono gli stessi che la maggior parte delle persone identifica per la stessa immagine, come illustrato nella fig. 2.4.4B. Infatti molti dei bordi rappresentati nella parte A non vengono notati, sia perché troppo deboli, sia perché sono causa di differenze nell'illuminazione (ombre e sfumature) piuttosto che differenze nei bordi della superficie.
Marr (1982) chiama le rappresentazioni che risultano dai processi di questo stadio PRIMAL SKETCHES (schizzi primari) e le suddivide in :
* RAW PRIMAL SKETCH (schizzo primario grezzo)
che include la scoperta di bordi, barre, macchie e linee terminali
* FULL PRIMAL SKETCH (schizzo primario completo)
che include l'organizzazione e il raggruppamento globale tra le caratteristiche dell'immagine presenti nel RAW PRIMAL SKETCH.
La struttura generale sottostante di una rappresentazione basata sull'immagine e` definita da tre proprietà:
1 - PRIMITIVE A LIVELLO DELL'IMMAGINE - Gli elementi primitivi rappresentano l'informazione della struttura bidimensionale di un'immagine luminosa ( come bordi e linee definiti attraverso differenze di intensità di luce) e non informazioni di oggetti fisici del mondo esterno che producono questa immagine. Sebbene i due tipi di informazioni siano correlati, la correlazione può essere usata solo dopo che le caratteristiche dell'immagine siano state esplicitate in una rappresentazione basata sull'immagine.
2 - GEOMETRIA BIDIMENSIONALE - La geometria di informazioni spaziali in rappresentazioni basate sulle immagini e` intrinsecamente bidimensionale, e può essere rappresentata in un formato analogo di insiemi bidimensionali.
3 - STRUTTURA RETINICA DI RIFERIMENTO - Il sistema di coordinate, dentro cui le caratteristiche bidimensionali sono localizzate, e` specificato in base alla retina, nel senso che gli assi principali sono allineati con gli occhi (piuttosto che con il corpo, la gravita` o l'ambiente).

 

2.4.3 LO STADIO BASATO SULLE SUPERFICI

Il secondo stadio del processo visivo viene chiamato STADIO BASATO SULLE SUPERFICI. Questo stadio riguarda il recupero delle proprietà intrinseche delle superfici visive del mondo esterno, che potrebbero aver prodotto le caratteristiche che sono state scoperte nello stadio precedente. La differenza fondamentale tra lo stadio precedente e questo e` che lo stadio basato sulle superfici rappresenta l'informazione presa dal mondo esterno in termini di disposizione spaziale delle superfici visive in tre dimensioni, mentre lo stadio basato sull'immagine si riferisce alle caratteristiche dell'immagine in un pattern bidimensionale di luce caduta sulla retina.
La DISTRIBUZIONE DELLE SUPERFICI e` il nome che Gibson uso` per riferirsi alla distribuzione spaziale delle superfici visibili dentro l'ambiente tridimensionale. Secondo Gibson la percezione di superfici visive era un compito molto più che importante, anche perché non essendo un teorico dell'approccio dell'information processing non credeva nelle rappresentazioni e nei processi.
Il concetto di una rappresentazione esplicita basata sulle superfici come uno stadio intermedio nella visione divento` popolare quando fu formulato quantitativamente dai teorici computazionali (computer vision) e implementato in simulazioni al computer. Marr (1978) Barrow e Tennenbaum (1978) proposero rappresentazioni basate sulle superfici che potrebbero essere capaci di costruirsi da immagini con gradazioni di grigi. Marr chiamo` questa rappresentazione basata sull'immagine SCHIZZO DUE DIMENSIONI E MEZZO (2.5-D SKETCH) mentre Barrow e Tennenbaum la chiamarono IMMAGINE INTRINSECA.
La costruzione di una rappresentazione basata sulle superfici e` il primo passo nel recupero dello spazio tridimensionale a partire da immagini bidimensionali. Queste non contengono tutte le informazioni sulle superfici che sono presenti nell'ambiente, ma solo quelle visibili dal punto di vista che si ha in quel momento. Come vedremo, le superfici visive forniscono una gran quantità di informazioni sensoriali sulla loro distanza e inclinazione dall'osservatore, ma non le si possono calcolare dall'immagine retinica se non con calcoli addizionali.
Poiché la rappresentazione basata sulle superfici include solo porzioni visibili di superficie, può essere immaginata come un singolo foglio di gomma esternamente flessibile che e` stato stropicciato le cui superfici riflettono la luce negli occhi del soggetto che percepisce. Molti teorici della visione trattano le superfici in questa rappresentazione come la composizione di molti piccoli pezzi piani. Questo e` possibile perché possiamo appianare una superficie fortemente curva e renderla quasi piatta se consideriamo una regione sufficientemente piccola, come la terra sferica sembra piana sulla scala di cui le persone hanno esperienza. Questa semplificazione permette alla rappresentazione basata sulle superfici di essere specificata completamente da informazioni sul colore, l'inclinazione e la distanza dall'osservatore da ogni parte di superficie localmente piatta.
La fig. 2.4.5 illustra come sarebbe una rappresentazione della superficie per la scena della tazza. Le superfici visibili nella fig. 2.4.2 sono rappresentate come un insieme di stime locali sull'orientamento della superficie (inclinazione e pendenza) e sulla profondità rispetto all'osservatore. L'orientamento della superficie e` rappresentato da un insieme di immaginari cerchi sulla superficie e da aghi perpendicolari che escono da questi .
Le proprietà più importanti di questo tipo di rappresentazione sono:
1 - PRIMITIVE A LIVELLO DELLA SUPERFICE - Gli elementi primitivi di una rappresentazione basata sulla superficie sono parti locali di superficie bidimensionale, come alcune particolari inclinazioni localizzate o come alcune distanze dall'osservatore dentro lo spazio tridimensionale. Ogni parte della superficie può essere specificata dal colore e dalla struttura.
2 - GEOMETRIA TRIDIMENSIONALE - Nonostante le superfici siano bidimensionali, la loro distribuzione spaziale e` rappresentata dentro uno spazio tridimensionale.
3 - STRUTTURA DI RIFERIMENTO CENTRATA SULL'OSSERVATORE - Il sistema di coordinate dentro cui la distribuzione di superfici tridimensionali e` rappresentata, e` specificato in termini della direzione e della distanza dal punto in cui si trova l'osservatore nella superficie, piuttosto che in termini di retina.
Il diagramma nella fig. 2.4.6 indica che la rappresentazione delle superfici e` costruita da alcune sorgenti diverse: stereopsi (la piccola differenza tra la posizione laterale degli oggetti nelle immagini degli occhi destro e sinistro), parallasse di movimento (differenze nella velocità dei punti a varie distanze dovute al movimento di un osservatore o di un oggetto); sfumatura e ombra, e altre proprietà pittoriche come la struttura, la misura, la forma e l'occlusione. Queste sorgenti di informazione sono discusse in dettaglio nel capitolo 5.

2.4.4 LO STADIO BASATO SUGLI OGGETTI

Chiaramente la percezione visiva non finisce con una rappresentazione delle superfici che sono visibili. Se questo accadesse non ci dovremmo sorprendere se un cambiamento nel punto di visione rivelasse che la parte più bassa della tazza, nella fig. 2.4.2, semplicemente non esiste o che ha forme diverse rispetto a un cilindro liscio che ognuno di noi percepisce senza sforzo. Il fatto che abbiamo aspettative su superfici in parte o completamente nascoste suggerisce che ci sono alcune forme di rappresentazioni tridimensionali che includono almeno alcune superfici occluse del mondo visivo. E` nello STADIO BASATO SUGLI OGGETTI che la rappresentazione visiva include informazioni tridimensionali. In questo stadio troviamo l'insieme delle rappresentazioni e dei processi che costruiscono una rappresentazione visiva di informazioni tridimensionali, includendo superfici non visibili e forma volumetrica. La fig. 2.4.7 mostra le linee tratteggiate dei bordi nascosti che ognuno di noi percepisce guardando la fig. 2.4.2. Il bordo della tavola e` nascosto dalla tazza e le parti posteriori e inferiori di essa sono occluse dalle parti che effettivamente possiamo vedere. Il recupero della struttura tridimensionale degli oggetti di questo ambiente e` lo scopo del processo basato sugli oggetti.
Ci sono almeno altri due modi in cui una rappresentazione basata sugli oggetti può essere costruita:
1 - Approccio del confine in cui si estende la rappresentazione basata sulle superfici per includere facce non visibili dentro uno spazio tridimensionale.
2 - Approccio volumetrico in cui si immagina gli oggetti come entità intrinsecamente tridimensionali, rappresentati come compromessi tra insiemi di forme primitive tridimensionali. Rappresenta oggetti espliciti come volumi di una forma particolare in uno spazio tridimensionale.
La fig. 2.4.8 mostra come un corpo umano potrebbe essere approssimato attraverso una gerarchia di parti, ognuna delle quali e` rappresentata in termini di forme primitive basate su volumi cilindrici. Nella figura la forma del corpo umano, come un volume tridimensionale, e` grezzamente rappresentato da un insieme di cilindri di appropriata misura, forma, orientamento e connessione. Ogni quadrato mostra una parte della configurazione umana: dal corpo intero, al braccio, all'avambraccio fino alla mano. Per molti anni l'approccio volumetrico ha dominato rispetto alle altre teorie. Certamente e` possibile che alcuni riempimenti di superfici occluse (filling-in) possono aver luogo in uno stadio intermedio prima della costruzione di una completa rappresentazione volumetrica.
Ancora una volta e` importante separare la versione di Marr della rappresentazione basata sugli oggetti da concetti teorici più astratti di una descrizione volumetrica.
Le proprietà di questo stadio sono:
1 - PRIMITIVE A LIVELLO DEL VOLUME - Gli elementi primitivi di una rappresentazione basata sull'oggetto possono essere descritti da volumi tridimensionali che per mezzo di ciò includono informazioni sulle superfici degli oggetti non visibili.
2 - GEOMETRIA TRIDIMENSIONALE - Anche lo spazio dentro cui le volumetrie primitive sono localizzate e` pienamente tridimensionale.
3 - STRUTTURE DI RIFERIMENTO BASATE SULL'OGGETTO - Il sistema di coordinate dentro cui le relazioni spaziali fra volumetrie primarie sono rappresentate, può essere definito in termini di strutture intrinseche dei volumi stessi.

2.4.5 LO STADIO BASATO SULLE CATEGORIE

Visto che lo scopo finale della percezione e` quello di fornire al soggetto tutte le informazioni possibili per sopravvivere e riprodursi, lo stadio finale della percezione deve essere concepito come il recupero delle proprietà funzionali degli oggetti. Questo processo viene chiamato STADIO BASATO SULLE CATEGORIE che non e` altro che l'insieme delle rappresentazioni e dei processi coinvolti nell'inferire le proprietà funzionali degli oggetti dalle loro proprietà fisiche intrinseche, attraverso un processo di categorizzazione.
L'approccio alla categorizzazione per la percezione di funzioni evolutivamente importanti propone due operazioni.
1 - Il sistema visivo classifica un oggetto come membro di un più largo numero di categorie note secondo le sue proprietà visive, come il colore, la misura, la forma e la locazione.
2 - Questa identificazione permette di accedere a un corpo più grande di informazioni immagazzinate su questo tipo di oggetto, inclusa la sua funzione e le varie forme di aspettative sul suo comportamento futuro.
L'oggetto nella fig. 2.4.2 e` conosciuto per essere utile per contenere liquidi o per bere. Questo schema ha il vantaggio che ogni proprietà funzionale può essere associata con ogni oggetto, perché la relazione tra la forma dell'oggetto e la sua funzione, la sua storia e il suo uso, può essere puramente arbitraria a causa della mediazione con il processo di categorizzazione.
I teorici della Gestalt suggeriscono un modo diverso nel quale il sistema visivo può essere capace di percepire una funzione dell'oggetto più o meno direttamente dalle loro caratteristiche visive senza prima categorizzarle. Questo approccio viene chiamato dei CARATTERI FISIOGNOMICI, dove si ha la percezione di proprietà funzionali degli oggetti dalle loro caratteristiche visive senza una loro prima categorizzazione. Cioè se vedo un frutto capisco subito che si mangia e se vedo una sedia so che serve per sedersi e sicuramente non si mangia. Più tardi, nel 1979, Gibson sosterrà un approccio simile espandendo le sue idee dalla percezione diretta all'inclusione della funzione. Lui chiamo` le funzioni visive di un oggetto come AFFORDANCES per chi le percepisce. Le affordance sono funzioni di un oggetto che un osservatore può percepire direttamente dalla sua struttura visiva piuttosto che indirettamente dalla categorizzazione. In accordo con questo non serve prima classificare qualcosa come un membro della categoria "sedia" per sapere che ci si può sedere sopra, perché la sua affordance e` direttamente percepita senza categorizzazione.
E possibile che le persone usino entrambi i tipi di processi (diretto e indiretto) nella funzione percettiva. Ci sono alcuni oggetti, come le sedie e le tazze, che hanno proprietà funzionali fortemente legate alla loro struttura visiva e che non occorre categorizzare per sapere come si usano; mentre esistono altri oggetti, come il computer o il telefono, che occorre prima categorizzare per sapere come si usano. Le strategie usate dalla persone per percepire informazioni rilevanti sugli oggetti sono sconosciute.
Questi quattro stadi del processo visivo rappresentano la migliore ipotesi sull'intera struttura della percezione visiva. Sono stati presentati in un particolare ordine nel quale devono logicamente essere seguiti, ma questo non significa necessariamente che il primo stadio debba essere completato prima dell'inizio del seguente. Le frecce che tornano indietro, nella fig. 2.4.1, indicano che i processi seguenti possono influenzare quelli precedenti.

Collaborators

I am the leader of the Neuromorphics Lab, a highly collaborative lab with connections across both academia and industry.