Palmer Cap 9

Le traduzioni che potrete trovare su questo sito sono unicamente destinate ad uso interno per il corso di Psicologia della Percezione dell'Università degli studi di Trieste. Nascono con l'intento di fornire un ausilio a quegli studenti che non hanno molta dimestichezza con la lingua inglese. Le traduzioni sono opera degli stessi studenti del corso di Psicologia della Percezione 1999 - 2000. Nell'utilizzo di questo materiale va tenuto conto che la correttezza dello stesso va verificata confrontando le traduzioni con il testo originale. Per ulteriori domande, clicca qui.

La funzione e la categoria percettiva.

Fermiamoci un momento per riesaminare quello che abbiamo appreso sulla visione spaziale. Come prima cosa, abbiamo considerato che l'informazione spaziale è inizialmente astratta dalle immagini bidimensionali che vengono proiettate dall'ambiente verso la retina (Cap. 4). Poi esaminammo come queste immagini possono essere interpretate come emergenti da superfici, disposte nello spazio tridimensionale; (cap. 5); quindi, considerammo come le regioni dell'immagine possano essere organizzate entro gerarchie di parti, oggetti e gruppi; (cap. 6). Infine, abbiamo investigato come certi oggetti possono essere analizzati entro le loro parti e proprietà intrinseche (cap. 7). Facendo questo, abbiamo analizzato e appreso molto sulla percezione spaziale ma non abbiamo ancora esaminato come la percezione raggiunga l'importante traguardo che le abbiamo attribuito nel cap. 1, ovvero il fornire all'osservatore l'informazione sull'utilità personale degli oggetti nel suo ambiente. Ciò che ancora manca alla nostra analisi è qualsiasi seria considerazione su come la visione influisca sulla funzione degli oggetti che vengono percepiti.
Il fine di questo cap. è di capire come ciò possa essere raggiunto.

9.1 La percezione della funzione

La percezione visiva della funzione permette di sapere, semplicemente guardando, che gli oggetti nell'ambiente sono utili per raggiungere fini usuali. Se potessi percepire ogni cosa di cui abbiamo discusso fino a questo punto, senza essere capace di determinare la funzione degli oggetti attorno te, ti troveresti nella stessa posizione di uno che venga trasportato su un pianeta alieno popolato da oggetti sconosciuti. Saresti perfettamente capace di percepire le loro forme, posizioni, orientamenti, colori e altre proprietà fisiche e saresti capace di muoverti, in questo ambiente tridimensionale, senza sbattere contro le cose e senza precipitare. Se richiesto forse potresti fornire dei modelli, con requisiti materiali e abilità strutturali. Ma senza qualche altre informazione, non potresti farci niente. Quali oggetti sono "commestibili" e quali no ? C'è qualcosa che è o che possa essere usato come abito ? Senza percepire tale informazione funzionale conosceresti troppe poche informazioni;

Tutte le cose che abbiamo discusso finora hanno l'importante ruolo di servire, alla fine, alla percezione della funzione. Nel caso degli essere umani, naturalmente, l'utilità di oggetti è un argomento enorme e complesso che circonda la struttura interpersonale e culturale della società moderna; non faremo nessuno sforzo ad analizzare le basi socioculturali della quantità di informazioni funzionali che le persone apprendono sugli oggetti familiari, ma assumeremo solamente la loro esistenza.
Ci focalizzeremo di più sul come le persone si adoperino per ricavare il significato della funzione degli oggetti, guardando;

 

Si menziona volutamente che molti trattati classici di percezione escludono l'apprendimento della funzione dalle proprietà degli oggetti, discutendone invece come un qualche processo più tardivo che appaia includendo la memoria associativa. La risposta è che mentre per la percezione delle proprietà fisiche degli oggetti si considera che ciò sia possibile senza esperienza precedente con oggetti specifici, questo invece non vale per la funzione.
Ignorare la componente funzionale della visione costituisce una seria mancanza nella spiegazione dell'esperienza percettiva, come si vide nella situazione del pianeta alieno.
Quindi, la percezione della funzione è qui inclusa come un oggetto proprio (e quindi cruciale), per la scienza della visione;
Ci sono due principali approcci per la percezione visiva della funzione, che possiamo vedere nella figura 9. 11
figura 9. 11 - Percezione della funzione diretta versus percezione della funzione mediata. La teoria sulla possibilità di Gibson asserisce che certe funzioni possano essere percepite direttamente dalle proprietà visibili degli oggetti. Nell'approccio alternativo, quello della categorizzazione, la funzione viene riportata dalla memoria, dopo che l'oggetto è stato categorizzato.

1) Affordance: Uno è l'approccio non-mediato o diretto di James J.Gibson; lui propose che almeno qualche opportunità, per azione degli oggetti dell'ambiente, fornite a un osservatore esterno, possano essere percepite direttamente dalla loro struttura visibile, nel loro assetto ottico dinamico. Lui denominò queste proprietà funzionali affordance.

2) Categorizzazione: Questo è l'approccio indiretto o mediato, difeso da quasi tutti gli altri teorici della percezione. Qui si assume che la percezione della funzione avvenga accoppiando la struttura percettiva dell'oggetto con le rappresentazioni interne di categorie note di oggetti. La funzione è poi determinata da associazioni tra le categorie di un oggetto e tra i suoi conosciuti.
Prima considereremo l'approccio di Gibson alla percezione della funzione attraverso le affordance, perché è l'approccio più basilare e semplice; c'è poco di conosciuto su questo argomento, perché non è stato molto studiato.
Ci sono molte ragioni per giustificare questa situazione; una è che Gibson morì subito dopo aver iniziato la sua teoria; un'altra è che la sua analisi era troppo poco chiara per certi argomenti e venivano discussi brevemente.
Una terza è che questo campo è stato dominato a lungo dall'approccio della categorizzazione e quindi a quest'altro approccio non è stata data l'attenzione che meritava.
Il resto del cap. sarà devoluto ad un'esaminazione estesa sulla categorizzazione degli oggetti, che è la spina dorsale di tutte le ricerche moderne correlate alla percezione della funzione ottica.

9. 11 La percezione diretta delle affordance

Storicamente, l'approccio tradizionale alla percezione della funzione è quello della categorizzazione, nel modo del associazionismo e dell'inferenza inconscia. Quindi il significato di un oggetto veniva pensato come accessibile attraverso la sua apparenza visiva come attivante una rappresentazione categoriale, l'uso dell'oggetto veniva dato da associazioni create con l'ausilio della memoria. Questo processo può essere visto come un tipo di inferenza. Ad esempio, se vedo una sedia, penso che serve a sedervisi sopra, come pensarono vari filosofi empiristi inglesi come Helmholtz, Wundt e altri loro contemporanei. Per i gestaltisti, il significato viene rivelato dall'osservatore in maniera immediata; ciò viene detto carattere fisiognomico della percezione; Gibson la riprese (1979) nella sua teoria delle affordance, che può essere vista come l'opportunità, per l'azione e l'interazione degli oggetti, di fornire ad un organismo la loro percezione diretta. In questo caso "diretta" è la percezione senza la mediazione di inferenza incoscia o di associazioni in memoria.
Gibson spiegò che uno può identificare la funzione di un oggetto, senza prima categorizzarlo come un oggetto specifico. Malgrado l'importanza delle nozioni sulla funzionalità delle cose, non abbiamo sempre categorie standard o espressioni linguistiche per determinati oggetti.


Ci sono due importanti condizioni che sottostanno alla percezione diretta delle affordances

1- la forma funzionale: l'affordance non deve essere legata arbitrariamente alla struttura dell'oggetto; la relazione tra forma e funzione deve fare in modo che le qualità e proprietà rilevanti siano visibili e significative !
2- la relatività dell'osservatore: le affordances sono proprietà funzionali di oggetti in interazione con l'osservatore; ad esempio uno sgabello suggerisce ad un adulto di sedervisi sopra e ad un bambino piccolo di arrampicavisi.
Neisser 1989 chiamo "proprietà funzionali" quelle che si conformano all'affordances fisiche in questione; attraverso queste proprietà la funzionalità verebbe percepita direttamente dall'assetto ottico. Non tutte le affordances che discusse Gibson si conformano a questo punto di vista; ad esempio nel 1979, scrisse su come l'informazione visibile non suggerisca la funzionalità nel caso di una buca per le lettere direttamente, perché anche un contenitore dell'immondizia potrebbe suggerire degli usi simili, avendo anche esso un'ampia apertura, una certa capienza e una certa localizzazione; ma conoscendo il loro diverso uso attraverso le associazioni in memoria, non si possono più considerare affordances fisiche come si definì sopra. Avere una percezione diretta, senza una categorizzazione, non significa comunque non sbagliare; ad esempio, una panca o un ceppo potrebbero suggerire di sedervisi sopra, ma se gli oggetti in questione fossero marci, non suggerirebbero di sedervisi ad una persona normale.
Neisser andò oltre a questa concezione, suggerendo che le affordances e la categorizzazione sono così differenti da far supporre che siano compiute da sistemi neurali diversi.
Nel cap. 1 abbiamo fatto una distinzione tra sistemi "cosa" e sistemi "dove", che si trovano nella corteccia visiva.
Ungleider e Miskin (1982) suggerirono che il sistema "cosa" parte dalla corteccia visiva per poi andare al sistema ventrale e alla corteccia infratemporale e che il sistema "dove" si trovi nel sistema dorsale e che passi dalla corteccia visiva verso la corteccia parietale posteriore. Neisser ha congetturato, (1989) che il sistema dorsale sottostia alla percezione ecologica gibsoniana il sistema "cosa" quindi, sottostà alla categorizzazione e al riconoscimento ed entrambi richiedono l'accessibilità alla rappresentazioni categoriale interne in memoria.
Il sistema "dove" è invece un sistema per la percezione diretta e immediata, proveniente dalla memoria per categorie conosciute di oggetti.
Goadale e Milner (1995) proposero idee simili a Neisser; identificarono anche il sistema ventrale come substrato neurale della percezione visiva conscia, teso alla pianificazione ad alto livello di azioni volontarie. Il sistema dorsale è invece un sistema visivo parallelo per eseguire azioni volontarie immediate, come muovere o afferrare oggetti; questo sistema può essere anche inconscio e può funzionare anche se il sistema percettivo ventrale è danneggiato.
Goadale e Milner riportarono il caso di un paziente con questo tipo di lesione, ma con il sistema dorsale intatto; questa persona era capace di eseguire semplice compiti motori, guidati dalla visione, con facilità e precisione. I pazienti con lesione sistema dorsale hanno lo schema opposto di abilità; fanno giudizi accurati dove con l'altro tipo di lesione è difficile, ma hanno problemi nel controllare azioni che richiedono feedback visivo.
Ciò concorda sul fatto che le affordances sono coinvolte con il sistema dorsale. Questo però non può valere per tutta l'informazione funzionale, che necessita di maggiori conoscenze nel caso di oggetti come videoregistratori, frighi, compact-disk, ecc. che non sono comprensibili solo attraverso

In questi casi, è necessario considerare l'approccio della categorizzazione.


9. 1. 2 Percezione indiretta della funzione attraverso la categorizzazione

La categorizzazione richiede di percepire le proprietà intrinseche di un oggetto attraverso il suo riconoscimento come membro di una determinata classe e prendendo l'informazione su quella classe dalla memoria. A volte la connessione tra la funzione e le categorie sono arbitrariamente scelte facendo riferimento alle esperienze precedenti. È molto improbabile pensare che categorizziamo ogni cosa, attraverso la visione.
L'uso di questo sistema o di quello delle affordances, dipende dalla relazione tra la forma e la funzione di oggetti, che può: variare da molto forte a molto debole; entrambe sono comunque importanti nella percezione quotidiana del nostro ambiente.

I quattro componenti della categorizzazione :

1 Rappresentazione dell'oggetto: le caratteristiche degli oggetti devono essere percepite e rappresentate all'interno del sistema visivo.
2 Rappresentazione della categoria: a qualunque categoria appartenga un oggetto, esso deve essere rappresentato in memoria, in modo che sia accessibile al sistema visivo.
3 Processi di comparazione: tra rappresentazioni categoriali.
4 Processi decisionali: ci deve esser un modo per decidere, sulla base di risultati dei processi di comparazione, a quale categoria un dato oggetto appartiene.

L'informazione sulla forma è uno degli elementi più importante per la categorizzazione di un oggetto, assieme ai processi di comparazione e di decisione, che andiamo ora a illustrare;
Processi di comparazione: questi processi accoppiano dalla presentazione oggetto con la rappresentazione categoriale, a patto che siano dello stesso tipo anche se con contenuti differenti. Ad esempio, se abbiamo una lista di figure o un'informazione strutturale, possiamo compararle solo con una lista con un informazione strutturale, a meno che non convertiamo la prima con la seconda, per paragonarla ad una terza sempre uguale.
Una rilevante questione è stata posta sul fatto che questi processi vengano svolti in serie o in parallelo;
un primo problema sorge comprando le rappresentazioni attraverso le categorie; questa rappresentazione dell'oggetto è accoppiata a solo una rappresentazione categoriale alla volta o a tutte le categorie simili simultaneamente ?
Secondo Biederman (1987) è un teorico che stimò lo stesso pensiero in circa oltre trentamila persone, le categorie vengano accoppiata in parallelo, altrimenti questo processo sarebbe troppo lento per essere utile, (un leone ti avrebbe già mangiato prima che tu te lo sia figurato);
2 elementi comparanti all'interno di una rappresentazione.
Assumendo che ogni rappresentazione dell'oggetto consiste di vari elementi (forma, orientamento, colore ecc.), la seconda domanda che si pone è se queste caratteristiche siano accoppiate ad una data rappresentazione categoriale serialmente (1 la volta) o in parallelo (tutte in una sola volta).
Ad esempio, se un oggetto ha 20 caratteristiche percepibili, verrebbe categorizzato con un tempo doppio rispetto ad un oggetto di 10 caratteristiche ? O ci metterà lo stesso tempo come predetto dal sistema di comparazione in parallelo ? O forse, c'è qualche altro modo ?
La risposta è ancora lontana dall'essere ovvia.

 


Processi di decisione: per categorizzare un oggetto in una data categoria, è necessario ottenere, dai processi di comparazione un dato valore che esprima il grado di somiglianza maggiore e di adattività migliore per essa.

Una volta che abbiamo questo valore, il processo di decisione serve a vedere come possa essere utilizzato per scegliere la categoria appropriata.
Per quest'ultima questione, bisogna considerare due importanti fattori:
1-novità: avviene quando vediamo oggetti che non sono membri di alcuna categoria conosciuta. Il processo di decisione dovrebbe riconoscere l'oggetto come nuovo, per permettere la creazione di una nuova categoria, piuttosto che categorizzarla non correttamente in un'altra conosciuta.
2-unicità: questo problema si pone per oggetti che non hanno membri in comune con altre categorie; il processo di decisione, idealmente, dovrebbe permettere che succeda.
Bisogna notare che un oggetto può essere identificato correttamente come membro di diverse categorie, ma non determina l'unicità di un oggetto. Due approcci classici che trattano il processo di decisione sono i tre che vedremo ora.

1. La regola della soglia.
L'approccio della soglia è di sistemare un valore critico come risultato dei processi di comparazione e di assegnare gli oggetti a qualunque categoria che ecceda questo valore.
Le regole della soglia permettono di riconoscere degli oggetti nuovi, se non c'è nessuna categoria che ecceda soglia. Più di una categoria può eccedere la soglia allo stesso tempo; quindi le regole che governano la soglia possono risultare in classificazioni multiple fra categorie mutualmente esclusive. Per esempio non c'è nessun modo per assicurare che qualcosa non venga percepito sia come un cane che come un lupo contemporaneamente.

2. La regola del massimo (o del valore più adatto)
Questo approccio consente di scegliere qualunque categoria che abbia il più alto valore fra tutte le possibili categorie.
È impossibile che più di una categoria abbia lo stesso valore massimo, perché c'è sempre un oggetto che è più adatto e simile per una determinata categoria. Per assegnare l'oggetto immanente viene usata la regola di decisione del punto 3.

3. La regola della soglia oltre il massimo
Sotto una determinata soglia, un oggetto verebbe riconosciuto come nuovo ma sopra di essa, viene scelta la categoria con il valore più alto. Questa regola permette di identificare gli oggetti senza ambiguità. E ampiamente menzionato che il processo di decisione non avviene come se un " homunculus" esaminasse l'output dei processi di comparazione e decidesse se un dato valore fosse o meno sopra una soglia; è invece probabile, che le decisione sia un processo interamente meccanicistico ; praticamente, l'unità con il valore più alto inibirà tutte le altre unità con valori più bassi.

 

 

 


9. 2 Il fenomeno della categorizzazione percettiva

Per arrivare ad una teoria fruibile sulla categorizzazione visiva, bisognerà tenere conto di alcune mancanze teoriche e pratiche e risolverle.


9. 2. 1 Gerarchie categoriche

Gli oggetti non appartengono mai ad una sola categoria, come a volte pensiamo, ma appartengono a una struttura gerarchica, che può venire rappresentata con un diagramma ad albero (dove il nodo più alto dello schema sovrasta e incorpora i nodi più bassi, figura 9. 2. 1A), o con il diagramma di ve.., che illustra categorie come aree circoscritte che racchiudono membri di una data categoria. Il concetto sotteso si può spiegare con un esempio che veda un cerchio per i mammiferi, che ne contiene uno più piccolo per i cani e poi uno più piccolo per una data specifica e così via.

Prototipi:

Questa è una delle questioni fondamentali, che va al cuore della natura della categorizzazione umana, riguarda il come le categorie possono essere definite in termini di rappresentazione percettiva e di status di diversi loro esemplari.
Una prima risposta fu quella di Aristotele, che postulò l'esistenza di caratteristiche necessarie e sufficienti di un oggetto per poter essere incluso in una categoria. Questa è una relazione binaria, che può fornire solamente e risposte positive o negative all'inclusione categoriale. Ciò può essere spiegato anche con il diagramma di Ve , dove, ad esempio, la categoria dei triangoli sta in un insieme creatosi dall'intersezione tra un insieme di poligoni chiusi e da un altro composto da figure di tre linee.
Per molti anni si assunse che la formulazione aristotelica fosse adeguata per le questioni logico matematiche sia per quel che riguarda l'essere umano, ma il celebre filosofo Ludving Wittglinstein (1953) argomentò persuasivamente che non esistono caratteristiche necessarie e sufficienti comuni a tutto il gioco, per quanto riguarda il mondo reale; ad esempio, spiegò, ciò non vale per le somiglianze tra i membri di una stessa famiglia, che non possono essere spiegate attraverso semplici leggi logiche. Seguendo Wittglinstein, la psicologa Eleonor Rosch, dell'università di Berkeley, California, pubblicò una serie di studi negli anni 70. Ciò che trovò cambiò radicalmente il modo di pensare di molti scienziati cognitivi sulla natura della categorizzazione umana. L'idea di base che sottostà ai vari autori e che esistano dei prototipi, come migliori esempi di determinate categorie. Ad esempio, un cane prototipo sarà un membro con caratteristiche medie a tutti gli altri esemplari, quindi per quanto riguarda forma, colore, taglia, ecc., questo ragionamento è lo stesso di quello per gli studi sui colori focali, dove il rosso, per esempio, per essere prototipo era quello più puro e saturo. Il punto di vista di Rosch differisce in due aspetti cruciali, rispetto quello aristotelico:

1) Approccio basato su regole versus approccio con rappresentazioni basate su esempi: il prototipo è definito in base ad un esempio specifico, piuttosto che su regole logiche basate su liste di condizioni sufficienti e necessarie.

2) Concezione binaria versus concezione per gradi di appartenenza ad una categoria. La teoria del prototipo permette una gradazione continua di appartenenza di un gruppo, piuttosto che una distinzione binaria tra membri o non membri, come nella concezione aristotelica.

Rosch testò parecchie implicazioni della sua teoria sulla struttura prototipa tra le categorie naturali; ad esempio, sostenne che gli oggetti variano nella "bontà" di appartenenza alla loro categorie di riferimento.
Quando a dei soggetti fu chiesto di sistemare degli oggetti in delle categorie, in base alla loro "bontà" o tipicità riguardo ad esse, nel caso dei cani identificarono i beaglas come "abbastanza alti" e il San Bernardi come "abbastanza bassi", in termini di punteggio. In altri esperimenti i soggetti rispondevano a un test vero - falso più velocemente "vero" alla frase:" un petirosso è un uccello", rispetto alla frase "un pinguino è un uccello"; quindi il tempo per classificare un oggetto è dipendente da quanto buono è un esempio per le categoria in questione.

Le categorie del livello base

Rosch si chiese come la tipicità venga riconosciuta e scoprì che la maggior parte delle persone, identifichi gli oggetti ad un livello intermedio della gerarchia categoriale. Lassie, per esempio, verebbe categorizzato da molti come un cane, prima che un animale o un collie. Rosch chiamò le categorie a questo livello di astrazione categorie del livello base, quelle che invece si trovano al di sotto di quest'ultima sono categorie subordinate e quelle che si trovano di sopra sono dette categorie superordinate.

Rosch le definì con i seguenti tre criteri:
1 - Forma simile: le categorie del livello base sono quelle per cui i loro membri hanno forma simile, in maniera maggiore rispetto alle altre.
Ad esempio, i membri della categoria superordinata come quella degli animali, presentano più tipi di forme rispetto a quella subordinata della razza canine

2 - Interazioni motorie simili: nelle categorie del livello base, le persone interagiscono con gli oggetti che gli appartengono con sequenze motorie simili. Considerando i movimenti che faresti suonando il piano, piuttosto che altri strumenti, abbiamo un buon esempio.
All'interno della categoria superordinata di strumenti musicali, ci sono pochi movimenti in comune, ma al livello base ci sono molte più somiglianze. Se traciassimo uno schema per il grado di somiglianza nelle interazioni motorie, noteremo una rapida caduta tra livello base e quello superordinato.

3 - Attributi comuni: tra i membri del livello base c'è il maggior numero di attributi comuni.
I punti uno e due possono essere considerati speciali casi del criterio più generale di attributi comuni. Tra tutte queste definizioni del livello base, quella di somiglianza della forma è la più rilevante per il problema della classificazione percettiva. Rosch e i suoi colleghi inizialmente trovarono che la maggior parte degli oggetti era inizialmente riconosciuta come un esempio della categoria al livello base. Ricerche più tarde, comunque, hanno mostrato che la materia è comunque più complessa.

 

 

 

 

Poiché le categorie in cui gli oggetti vengono inizialmente classificati è a volte differente dal livello - base, Jolicoeur e altri (1984) le chiamarono categorie "ENTRY - LEVEL".
I dati mostrano che alcuni membri di una categoria vengono prima classificati ad un livello base mentre altri sono classificati ad un livello subordinato.
La classificazione percettiva in categorie entry - level è chiamata spesso RICONOSCIMENTO DELL'OGGETTO o IDENTIFICAZIONE DELL'OGGETTO così come CATEGORIZZAZIONE DELL'OGGETTO o CLASSIFICAZIONE DELL'OGGETO. L'identificazione dell'oggetto Può essere correlata alla categorizzazione facendo caso al fatto che oggetti singoli sono categorie più piccole ma i due processi non sono realizzati nello stesso procedimento percettivo. Come le categorie di livello - base, anche la categoria entry - level di un oggetto può variare a seconda dei differenti osservatori e dei differenti contesti.
9.2.2. CONDIZIONI DELLA PERCEZIONE VISIVA.
Gli oggetti a 3 - D possono essere identificati da quasi ogni punto di vista e perché questo è possibile viene spiegato dalla teoria sulla classificazione degli oggetti.
Siccome possiamo categorizzare gli oggetti da vari punti di vista è normale che la categorizzazione non varia con la prospettiva. Un effetto di "prim'ordine" dell'influenza del punto di vista nella categorizzazione percettiva è l'abilità di riconoscere gli oggetti 3 - D anche con grandi variazioni nella prospettiva.
Un effetto di "secondo ordine " è che la particolare prospettiva influenza la velocità e l'accuratezza con cui gli oggetti possono essere classificati e riconosciuti. Osservando la figura 9.2.4. è ovvio che alcuni punti di vista sono più rappresentativi di altri di come un cavallo appare ai nostri occhi.
PROSPETTIVA CANONICA.
Palmer, Rosch e Chase (1981) hanno documentato gli effetti della prospettiva nella categorizzazione degli oggetti.
Propongono ai soggetti di guardare una serie di immagini come quelle della figura 9.2.4. e di attribuire un valore su di una scala da 1 (moltissimo) a 7 (molto poco) nel valutare quanto ogni immagine assomigliava all'oggetto rappresentato.I soggetti lo hanno ritenuto un compito ragionevole e, in gruppo, hanno fatto le valutazioni medie indicate sotto la figura 9.2.4..
I particolari punti di vista che hanno ricevuto la miglior valutazione sono mostrati nella figura 9.2.5..
Palmer e altri (1981) hanno coinvolto altri soggetti per dare un nome il più velocemente possibile alle categorie "entry - level" di oggetti messi in diverse prospettive.
Come indicato nella figura 9.2.6., i risultati mostrano che le immagini valutate migliori venivano nominate molto velocemente e che la cadenza del nominarle aumentava, mentre quelle considerate peggiori venivano nominate più lentamente e la cadenza declinava.
Palmer e altri hanno chiamato i migliori punti di vista dell'oggetto come sua PROSPETTIVA CANONICA.I fatto che questa esista fa capire che noi sbagliamo nel ritenere di poter riconoscere bene gli oggetti da ogni punto di vista. Gli effetti della prospettiva possono essere spiegati in modi differenti. I due più ovvi sono l'ipotesi della frequenza e l'ipotesi della massima informazione.
1) IPOTESI DELLA FREQUENZA.
Una Spiegazione è che la velocità nel nominate sia dovuta al numero di volte in cui abbiamo visto l'oggetto sotto quel punto di vista.
Da sola questa spiegazione è improbabile. Le tazze, ad esempio, vengono viste spesso dall'alto eppure questo punto di vista non è stato identificato velocemente.

2) IPOTESI DELLA MASSIMA INFORMAZIONE
Un'altra spiegazione è che gli effetti della prospettiva riflettono la somma delle informazioni che i differenti punti di vista forniscono sulla forma e l'uso dell'oggetto.
Questo può essere spiegato con il fatto che i punti di vista migliori tendono a mostrare molti lati dell'oggetto.
Anche questo viene contraddetto dal fatto che ci sono alcuni oggetti dove il punto di vista migliore rimane la vista frontale .
E' probabile che entrambe le ipotesi contengano la verità.
I punti di vista canonici possono dare al percettore l'informazione più "diagnostica" di un oggetto : quella che lo distingue dagli altri.
Ci sono casi in cui certe superfici di un oggetto contengono informazioni "negative", che l'oggetto, cioè, assomigli di più a qualche altro oggetto.
La diagnostica delle differenti parti di una informazione visiva sarà comunque influenzata dalla sua familiarità.

FIGURA 9.2.4.
Prospettiva canonica. Le vedute prospettiche di un cavallo differiscono significativamente in quanto assomigliano all'oggetto che descrivono. I numeri rappresentano le valutazioni medie dei soggetti in scala da 1 a 7. Le "etichette" indicano il punto di vista da cui sono state prese le immagini.

FIGURA 9.2.5.
Prospettiva canonica per 12 oggetti.
I soggetti nominarono queste vedute più velocemente delle altre come indicato nella figura 9.2.6.

FIGURA 9.2.6.
Effetti prospettici sulle cadenze del nominare. Il tempo medio che i soggetti hanno preso per nominare gli oggetti mostrati nella figura 9.2.5. è graficizzato per 4 livelli di canonicità e misurato da valutazioni soggettive.
Studi recenti hanno esaminato gli effetti della prospettiva usando oggetti strani.
Edelman e Bultroff ( 1992) trovarono effetti del punto di vista canonico nel tempo di riconoscimento di graffette piegate in modo strano (figura 9.2.7.) che inizialmente erano state presentate in una sequenza di vedute statiche che producevano una rotazione apparente dell'oggetto. Ogni singolo punto di vista è stato presentato una volta in modo che gli effetti della familiarità non fossero presenti.

FIGURA 9.2.7.
Esempi di stimolazione usti in un esperimento sul riconoscimento da vari punti di vista. I soggetti dovevano riconoscere quali dei diversi oggetti era descritto da particolari vedute di graffette.
Anche così il riconoscimento variò sui punti di vista replicando gli effetti della prospettiva canonica riportati da Palmer e altri (1981). Questi effetti non sono solo funzione della familiarità.
I soggetti possono mantenere specifiche vedute a 2 dimensioni e uniformare vedute strane attraverso processi che si deteriorano all'aumentare della disparità tra le vedute nuove e quelle immagazzinate.
Se le vedute che i soggetti hanno osservato inizialmente erano messe in rotazione il riconoscimento migliorava per quelle in rotazione sul loro stesso asse più che su di un asse ortogonale.


EFFETTI "PRIMING".
Altro metodo che ha prodotto interesse ma risultati diversi sugli effetti delle visioni prospettiche è il Paradigma del "PRIMING" usato da Irving Biederman e i suoi colleghi.
L'idea alla base sviluppata inizialmente da BARTRAM (1974), è che la categorizzazione di una particolare immagine i un oggetto sarà più veloce ed accurata se la stessa immagine è presentata una seconda volta. La differenza tra i due tempi di reazione misura l'importanza dell'effetto "priming".
Quello che rende gli esperimenti informativi sulla categorizzazione è che le ripetizioni nella seconda serie di prove non devono essere esatte riproduzioni della prima serie.
L'interesse è sul fatto che l'effetto "priming" nella seconda prova deve essere più piccolo di quello per le ripetizioni esatte. I risultati dimostrano che l'importanza dell'effetto "priming" non diminuisce quando l'oggetto nella seconda presentazione è lo stesso della prima ma in posizione differente o dimensione differente. E' stato comunque dimostrato che mostrare lo stesso oggetto in vedute differenti, riduce l'effetto "priming".

FIGURA 9.2.8.

Stimoli per l'esperimento di "priming".
Le latenze nel nominare sono misurate con immagini di oggetti nella prima parte di prove. Nella seconda parte sono stati presentati di nuovo gli stessi oggetti o dalla stessa o da differente prospettiva.
Conclusione di Biederman è che gli effetti "priming" mostrano che la categorizzazione non è sensibile ai cambi di misura, posizione, perché l'informazione discrepante non è mai stata registrata prima.
EFFETTI DELL'ORIENTAMENTO
Cambi di prospettiva possono essere prodotti anche ruotando un oggetto mentre l'osservatore è immobile. I cambiamenti nell'orientamento sistematico dell'oggetto producono effetti sistematici nella sua categorizzazione ? Per molti anni gli scienziati hanno supposto di no.
Studi dello psicologo canadese Pierre Jolicoeur (1985) hanno dimostrato che i soggetti sono più veloci nel categorizzare gli oggetti nel loro normale orientamento. La latenza di risposta aumenta con una deviazione angolare del loro orientamento diritto. Con presentazioni ripetute gli effetti diminuiscono.

FIGURA 9.2.9.
Effetti dell'orientamento nella categorizzazione dell'oggetto.
Esperimenti di Tan e Pinker (1989 - 90 - 91) hanno esaminato perché gli effetti dell'orientamento diminuiscono con la pratica.
Essi hanno usato oggetti non familiari in modo tale che gli orientamenti potessero essere controllati con precisione. La risposta era più veloce con gli oggetti in orientamento conosciuto e aumentava con la distanza angolare da questo. Con la pratica le latenze del nominare sono aumentate in velocità in tutti gli orientamenti. I risultati dimostrano che le persone possono immagazzinare rappresentazioni multiple dello stesso oggetto in differenti orientamenti.


9.2.3. PART STRUCTURE
Gli oggetti naturali più familiari hanno parti più importanti.
Queste parti giocano un ruolo significativo nel modo in cui questi oggetti vengono classificati in categorie entry - level.
Gli studi più significativi sono stati realizzati da Biederman e Cooper (1991 b) usando una versione del "PRIMING". Hanno usato disegni di un oggetto nei quali parti dei suoi contorni venivano cancellate. Nel primo esperimento hanno costruito due versioni di disegni di oggetti comuni dove metà dei contorni di ciascuno venivano cancellati. Sovrapponendo le due immagini era possibile ricostruire il disegno. Motivo di interesse era quanto la precedente presentazione dello stesso oggetto o di un altro, faciliterebbe la classificazione dell'oggetto nella seconda serie.

Sono state studiate 3 condizioni :
1) IDENTITY PRIMING.
Sono stati presentati gli stessi contorni nella prima e nella seconda presentazione (come in figura 9.2.10.A). Questo è la base per definire il massimo quantitativo di priming possibile.
2) LINE - COMPLEMENT PRIMING.
Qui la seconda presentazione era dello stesso oggetto ma conteneva solo i contorni cancellati nella prima presentazione.
3) DIFFERENT - EXEMPLAR PRIMING.
La seconda presentazione era o un disegno di un oggetto della stessa categoria entry - level ma differente, o con punto di vista prospettico differente.
I risultati di questo esperimento erano molto chiari come mostrano i tempi di reazione sotto la figura 9.2.10..
Il ripetere le parti nella condizione line - complement priming, ha prodotto quasi esattamente lo stesso quantitativo di priming del ripetere i segmenti identici nella condizione identity - priming (170 min./sec.). Il ripetere la stessa categoria ha prodotto molto meno priming ( solo 93 min./sec.). Biederman e Cooper hanno concluso che la categorizzazione degli oggetti era basata sulla percezione delle parti più che sui segmenti individuali e sui vertici che le compongono.
La questione cruciale è su che cosa accadrebbe se la stessa veduta fosse presentata nella seconda parte di esercizi attraverso parti differenti. Se è la ripetizione della particolare veduta prospettica dell'oggetto che da priming i risultati del priming part- complement che è forte come l'identity - priming, dovrebbero essere gli stessi. Se è la ripetizione delle parti componenti che produce priming, la condizione part- complement dovrebbe produrre molto meno priming che la condizione di identità perché non ripete le parti.
I risultati sono stati chiari : il LINE - COMPLEMENT PRIMING di immagini parzialmente cancellate ha dato come risultato un effetto priming molto più piccolo dell'identity - priming. I risultati forniscono l'evidenza che la percezione delle parti gioca un ruolo cruciale nella categorizzazione dell'oggetto in questi studi.

FIGURA 9.2.11.
Un esperimento di part - complement priming.


9.2.4. EFFETTI CONTESTUALI
Ci sono anche effetti contestuali nella categorizzazione : cambiamenti dovuti all'ordine spaziale degli oggetti che circondano l'oggetto obbiettivo. Questo fenomeno è spiegato nella figura 9.2.12. dove l'identità percepita delle lettere è influenzata dalle lettere che la circondano. Anche la figura 9.2.13. mostra un'altra dimostrazione dell'importanza del contesto nella categorizzazione dell'oggetto. È' come se il sistema visivo necessitasse di percepire due livelli di struttura di parte per categorizzare un oggetto.

FIGURA 9.2.12.
Determinazione contestuale di uno stimolo ambiguo. L'H e la A sono fisicamente identiche ma percepite in modo diverso a causa delle restrizioni contestuali.

FIGURA 9.2.13.
Una illustrazione di contesto parte/intero. Lineamenti facciali che sono facilmente riconoscibili nella faccia di profilo, non sono riconoscibili fuori dal contesto.
Una dimostrazione più impressionante della stessa influenza contestuale è la "faccia di frutta" della figura 9.2.14.. Qui le forme specifiche dei " lineamenti facciali " possono essere identificati come semplici frutti anche perché la loro disposizione spaziale corrisponde a occhi, naso e bocca. spaziale
Ci sono risultati oggettivi per supportare la conclusione che il contesto influenza la categorizzazione dell'oggetto ? Esperimenti mostrano che un contesto appropriato facilita la categorizzazione mentre uno inaropriato
la ostacola.
Palmer ha presentato ai soggetti gli schizzi di oggetti comuni che seguivano la presentazione di una scena di contesto come nella figura 9.2.15.
La relazione contestuale tra la scena e l'oggetto variava, infatti l'oggetto presentato poteva essere appropriato alla scena, inappropriato o ingannevole nel senso che l'oggetto poteva essere simile all'oggetto appropriato.
Per la situazione di controllo gli oggetti venivano presentati in campo neutro invece che in una scena di contesto.
Risultati graficizzati nella figura 9.2.16.mostrano che i contesti adeguati facilitano la categorizzazione mentre il risultato è peggiore quando il contesto è ingannevole. Questo dimostra che l'accuratezza del riconoscimento può essere influenzata dalla natura degli oggetti circostanti.

FIGURA 9.2.14.
Una faccia di frutta.

FIGURA 9.2.15.
Stimoli da un esperimento sugli effetti contestuali sulla categorizzazione dell'oggetto. Oggetto appropriato al contesto (A), simile all'oggetto appropriato (B) o inappropriato (C).

FIGURA 9.2.16.
Risultati dell'esperimento sugli effetti contestuali sulla categorizzazione.
Biederman (1972) ha usato un metodo differente : aveva dei soggetti che cercavano la presenza di un dato oggetto obbiettivo in una scena e ha misurato i loro tempi di reazione. Nello studio iniziale ha manipolato il contesto presentando o la normale fotografia o una versione riarrangiata casualmente.
I soggetti hanno perso più tempo nel trovare l'oggetto nel contesto riarrangiato.
In altri studi ha indagato sulle relazioni che potrebbero essere infrante tra l'oggetto obbiettivo e il suo contesto circostante.
I fattori studiati sono :
1) Quanta probabilità gli oggetti avevano di apparire nella scena data
2) Se occupavano una posizione probabile o improbabile (come illustrato nella figura 9.2.17.)
3) Se l'oggetto era più grande o più piccolo del normale in confronto ad altro oggetti nella scena.
4) Se l'oggetto era visibilmente sostenuto oppure no.
5) Se era conforme a proprie relazioni di occlusioni o appariva parzialmente trasparente.
Le relazioni tra gli oggetti in una scena sono entrambe complesse e importanti. E' ovvio che le persone possono riuscire a categorizzare gli oggetti anche in contesti strani.
In ogni caso la situazione "normale" viene trattata velocemente mentre situazioni "anormali" prendono più tempo.

FIGURA 9.2.17.
Un esempio di stimolo da un esperimento sugli effetti di contesto.
9.2.5. VISUAL AGNOSIA
Un fenomeno che forza le teorie della categorizzazione è l'agnosia visuale, il deficit percettivo dovuto a un danno del cervello nel quale i pazienti non sono capaci di categorizzare oggetti comuni con cui hanno familiarizzato precedentemente.
Ci sono forme diverse di agnosia visuale. Alcune sembrano dovute al danneggiamento degli ultimi stadi del processo sensoriale (chiamata APERCEPTIVE AGNOSIA da Lissauer 1980/1988). Non riconoscono gli oggetti perché non li vedono normalmente. Lissauer chiamò Agnosia associativa quella di pazienti che hanno abilità percettive intatte ma non possono identificare gli oggetti che vedono. I pazienti con agnosia visuale accusano una varietà di sintomi differenti. Alcuni hanno deficit specifici come nella "PROSOPAGNOSIA" che è l'incapacità di descrivere i volti visualmente. Questi pazienti reagivano davanti a un parente come se fossero davanti ad un completo estraneo e riuscivano a riconoscerlo solo dalla voce.
Un problema di molti agnosici visuali è l'incapacità di categorizzare oggetti presentati da punti di vista prospettici "inusuali".

FIGURA 9.2.18.
Esempi di disegni di un paziente agnosico. Nonostante la loro incapacità a dare un nome agli oggetti, possono copiare bene le immagini e questo esclude deficit sensoriali.
Il fenomeno è simile agli effetti di prospettiva trovati in persone normali ma le difficoltà maggiori per gli agnosici sono quelle dove l'asse ottica verticale dell'oggetto è rappresentata di scorcio. Ci sono molti altri disordini visuali dovuti a
danni del cervello che sono in relazione con l'agnosia visuale.
9.3. TEORIE DELLA CATEGORIZZAZIONE DELL'OGGETTO.
Torniamo a spiegare come gli oggetti possono essere identificati nel sistema visuale. C'è un senso nel quale la teoria dei 4 stadi della visione (basati sull'immagine, la superficie, l'oggetto e le categorie) è stata concepita come una sequenza di stadi che condurrebbero alle descrizioni volumetriche strutturali di oggetti a 3 dimensioni per categorizzazione. Delle molte teorie avanzate considereremo in dettaglio solo una : la teoria della categorizzazione degli oggetti del riconoscimento dei componenti di IRVING BIEDERMAN (1985/87).
FIGURA 9.2.19
Stimoli di prospettiva inusuali.

Riconoscimento attraverso la teoria dei componenti: RBC theory

Alcune volte è stata anche chiamata " geon theori ": è un tentativo di integrare molti dei processi visivi che abbiamo considerato all'interno di una singola sedia psicologicamente ricca di significato che riguarda come le persone classificano gli oggetti come membri di categorie. Questo È basato sull'idea che gli oggetti possono essere categorizzati come arrangiamenti spaziali di componenti volumetriche primitive; le quali Biederman (1985 - 1987) chiamò " geons".
La categorizzazione dell'oggetto avviene attraverso l'incontro tra la descrizione geon dell'oggetto bersaglio con le corrispondenti descrizioni geon delle categorie di oggetti.
geons: la prima importante assunzione dell'RBC theory che sia le rappresentazioni di categoria che le rappresentazioni degli oggetti sono descrizioni volumetriche - strutturali.
Questo significa che le rappresentazioni RBC sono essenzialmente notizie gerarchiche i quali nodi corrispondono alle parti di tre dimensioni e le cui misure corrispondono alle relazioni tra queste parti.
I geons sono generalmente cilindri che sono stati divisi in alcune sedie che sono abbastanza facile da distinguere. Questo provoca un piccolo insieme di volumi primitivi distinti del quale un enorme numero di rappresentazioni di oggetti possono essere costruite mettendone due o più insieme.
Esempio: figura 9. 3. Un piccolo insieme di geons, attraverso i quali alcuni comuni oggetti possono essere costruite mettendo più geons insieme a formare configurazioni spaziali che possono essere velocemente riconosciute.

Tratti caratteristici non casuali (?) Sebbene i geons siano essi stessi entità volumetriche, la teoria RBC propone l'idea che i geons siano identificati direttamente dalle (immagine - base casuali ?) Come vertici e bordi.
Le differenze figurali tra l'immagine di un geon " cilindro" sono illustrate nella figura 9. 3. 3. Le qualità attraverso le quali i geons solo identificati sono chiamate (tratti concettuali non casuali ?) Seguendo la distinzione di Lowe, poiché essi sono aspetti dell'immagine strutturale che non dipendono dalle rare casualità del punto di vista.

Relazioni tra i geons: poiché gli oggetti complessi sono concepiti nella teoria RBC come configurazioni di due o più geons in particolari ordinamenti spaziali, essi sono codificati come descrizioni strutturali che specificano ambedue i geons presenti e le loro relazioni spaziali. Se i geons sono l'alfabeto di oggetti solo tridimensionali complessi, allora le relazioni spaziali tra i geons sono analoghe all'ordine delle lettere nelle parole. Finché è possibile costruire diverse parole usando le stesse lettere in modo diverso (es. bat / tab), nello stesso modo è possibile costruire diverse oggetti mettendo insieme di stessi geons in modo diverso. La tazza e il secchio mostrato nella figura 9. 3. Quattro sono un esempio.
Casi di categorizzazione oggettuale nella teoria RBC. In molti casi di applicazione della teoria RBC sono discussi nei capitoli precedenti.

Un'implementazione di rete neurale: l'attuale meccanismo di questi processi non è pienamente specificato nella formulazione originale della teoria RBC.
Hummel e Biederman hanno escogitato un'implementazione di rete neurale dell'RBC (chiamata JIM), che ne è mostrato nella figura 9. 3. 6.

Cause del fenomeno empirico


È utile esaminare come le osservazioni empiriche menzionate precedentemente in questo capitolo possono essere spiegate con la teoria RBC.

Effetti typicality: questi effetti nella teoria RBC corrispondono a differenze nel grado di attivazione di una rappresentazione di categoria data (uccello) rispetto diversi esempi all'interno di questa categoria (pettirosso, passero, pinguino e struzzo). Ricordiamo che attivazione di rappresentazioni categoriale vista come una funzione di similitudine tra la descrizione geon della categoria e la descrizione geon dell'oggetto bersaglio. Una rappresentazione categoriale in termini di struttura geon definisce un "rozzo" prototipo, rozzo perché le relazioni tra " geons" è " geon" sono solo qualitativamente specificate. Ne consegue che un esemplare prototipico (come il pettirosso) attiverà la rappresentazione categoriale (uccello) più facilmente che un esemplare atipico (come uno struzzo).

Il livello di entrata delle categorie: i membri tipici del livello base delle categorie sono inseriti inizialmente a livello base, mentre i membri atipici sono inseriti molto probabilmente a livello subordinato.
Come spiegare questo fenomeno con la teoria RBC? Il livello di entrata di un oggetto dato della categoria gerarchica nella RBC potrebbe essere determinato semplicemente da quale rappresentazione categoriale viene più fortemente attivata. Non c'è ragione di supporre per esempio, che tutti i membri livello base (es. tutti gli uccelli) debbano necessariamente attivare la rappresentazione dell'uccello con la stessa forza. In realtà c'è una buona ragione per supporre che la descrizione geon di un pettirosso attiverà con più forte della categoria degli uccelli, rispetto al geon di un pinguino o di uno struzzo.

condizioni di vista: gli effetti di prospettiva possono presentarsi in due diversi aspetti della teoria era di RBC: categorizzazioni di geon e / o scontro di categorie. Guardando una macchina da un lato, per esempio, vedo soltanto una superficie dei geons che costituiscono la sua struttura. E più facile capire le relazioni spaziali tra i geons da certe prospettive che da altre.

struttura delle parti: gli oggetti sono riconosciuti dall'incontro delle loro componenti i ( geons).

Effetti del contesto: gli effetti del contesto non possono essere spiegati direttamente con la teoria RBC perché si tratta di una teoria per riconoscere oggetti singoli. Comunque può essere estesa a quei casi nei quali produce certi tipi particolari di effetti contestuali. Per esempio nella figura 9. 3. 7 troviamo quello che potrebbe essere uno schema parziale della "scena" di una cucina che contiene descrizioni di " geons" di fornelli, frigoriferi; ma anche il pane e formaggio e dei coltelli.

Agnosia visiva: probabilmente non esiste una singola spiegazione dell'agnosia visiva, perché al suo interno ci sono molti sintomi che rientrano nella categoria generale. Gli strani fenomeni dell'agnosia visiva potrebbero essere spiegati con gli stessi processi che determinano gli effetti di prospettiva nei soggetti normali.

 

 

Debolezze e limiti: nonostante le virtù della teoria RBC, essa presenta alcuni problemi. Il più importante è stato menzionato nel capitolo 8 e all'inizio di questo capitolo: la scarsità del potere rappresentazioniale. Molto di ciò dipende dai limiti dei cilindri come rappresentazioni primitive per informazioni di forma. Ma questi problemi sono aggravati della classificazione dei cilindri in 108 geons è dalla riduzione di tutte le possibili relazioni tra i geons in solo 108 casi di binari; poiché queste restrizioni riducono ulteriormente l'ammontare dei dettagli visivi che le descrizioni dei geons possono definire.
I trilioni di combinazioni logiche non sono sufficienti per catturare la sottile differenza nella forma che le persone normalmente usano nell'identificare gli oggetti. Differenze tra cani e gatti, oppure tra asini e cavalli, per esempio richiedono delle discriminazioni relativamente sottili, ambedue nelle forme delle loro parti componenti e nelle relazioni spaziali fra esse .

Il caso del punto di vista multipli. In molti modi, il punto di partenza per questi approcci alternativi è l'esistenza degli effetti prospettici che sono descritti all'inizio di questo capitolo.

Aspect graphs. Abbiamo detto nel capitolo 8 che le sagome non erano disponibili come rappresentazioni di forme tridimensionali perché un infinito numero di sagome potrebbero essere possibili riconoscendo differenti punti di vista dello stesso concetto. Considerando questa asserzione è tecnicamente corretta, ma molti punti dello stesso oggetto sono molto simili, differenziandosi solo in dettagli metrici. Es. figura 9. 3. 8
punti di vista qualitativamente simili e diversi dello stesso oggetto; la parte mostrata in A e B rivela le stesse superfici dell'oggetto all'interno delle stesse relazioni qualitative, mentre in C rivela differenti superfici.
Figura 9. 3. 9. Un ( Aspect graph) di un tetraedro. La struttura di tutte le tre vedute di questo tetraedo può essere rappresentata con un singolo ( Aspect graph) che mostra le connessioni dei vari bordi degli anelli mostrati sotto.
Figura 9. 3. 10.14 aspetti di un tetraedo. Tutti possibili aspetti di un semplice tetraedo sono rappresentati con questa rete.
L'una o l'altro di due o tre facce sono visibili simultaneamente; e le linee tra differenti aspetti mostrano cambiamenti fisicamente possibili.
Differenti facce sono indicate con diverse ombreggiature.

Figura 9. 3. 11 allineamento con i modelli tridimensionali ?

Allineamento con le combinazioni di viste bidimensionali

Una volta che il problema della corrispondenza tra le viste bidimensionali e i modelli tridimensionali è stato risolto, la risoluzione del problema del riconoscimento degli oggetti bidimensionali a tridimensionali si riduce soltanto alla sostituzione della funzione del modello tridimensionale con un certo numero di viste bidimensionali. Progressi su questo fronte sono stati fatti recentemente da un certo numero di teoretici computazionali; l'obiettivo è di trovare un metodo che può derivare un nuovo numero di viste bidimensionali non ancora trovate di un oggetto, con un numero minore di viste bidimensionali già conosciute, baipassando la necessità di utilizzare un modello tridimensionale nella memoria.
Ullman e Basri (1991 ) quando hanno dimostrato che questo obiettivo può essere raggiunto almeno sotto certe condizioni semplicemente provando che tutte le visioni possibili di un oggetto possono essere ricostruite come una combinazione lineare di soltanto tre proiezioni scelte , tre proiezioni ortografiche dello stesso oggetto tridimensionale.
La figura 9.3.13 mostra alcuni semplici esempi di risultati ottenuti con questo metodo. Due visioni bidimensionali reali di una faccia umana, i modelli M1 M2 sono stati combinati per produrre altre visioni bidimensionali dallo stesso viso. Una è una visione intermedia che è stata interpolata tra i due modelli bidimensionali, cioè la combinazione lineare LC2 e le altre due visioni sono state estrapolate al di fuori di loro, da notare la somiglianza molto vicina tra la visione interpolata LC2 e la vera visione dal punto di vista corrispondente la nuova vista n questo piuttosto sorprendente risulta si basa su soltanto un certo numero di condizioni molto ristrette infatti alcune di queste sono praticamente non realistiche. Tre requisiti , punti di partenza chiave di Ullman e Basri sono i seguenti:
1) Tutti i punti che appartengono all'oggetto devono essere visibili in ognuna delle visioni.
2) La corrispondenza corretta di tutti i punti tra ogni paio di visioni deve essere nota.
3) Le visioni devono differire soltanto mediante trasformazioni rigide oppure dilatazioni o restrizioni di dimensione uniformi.
Il primo requisito richiede che nessuno dei punti dell'oggetto sia nascosto in nessuna delle tre visioni questa condizione viene mantenuta per gli oggetti di tipo che sono completamente visibili da ciascuno dei punti vista, ma non è rispettata da quasi tutti gli altri oggetti tridimensionali. Per la maggior parte degli insiemi dei tre punti di vista, la ragione è semplicemente che la maggior parte degli oggetti è composta da superfici opache che oscurano, nascondono tutti i punti lungo le linee di vista tra loro.
Le combinazioni lineari della faccia in figura 9 313 sono in realtà in qualche modo meno significative di come in realtà possono sembrare a prima vista, questo perché il metodo funziona soltanto per punti che sono visibili in entrambi le visioni c quello che è stato generato è essenzialmente soltanto una maschera della superficie facciale stessa piuttosto che tutta la testa; la differenza può essere vista osservando attentamente i bordi della faccia dove finisce la testa in modo piuttosto innaturale molto netto nella combinazione lineare LC1 e LC3. Il metodo della combinazione lineare non è in grado di derivare una vista di profilo della stessa testa, per il motivo per cui la parte posteriore della testa non è presente in nessuno dei modelli di vista M1 e M2 dal giorno usati per interpolare le altre viste. Affinché una combinazione lineare di viste possa permettere il riconoscimento di un oggetto da qualunque possibile visione sui oggetti che sono autonascondenti dovrebbero avere tre modelli bidimensionali differenti per ogni insieme di visioni in cui in questi punti differenti siano visibili. Confrontato con la teoria dell'aspect graph questo significa, che una completa presentazione di un oggetto tridimensionale con combinazioni lineari di visioni, richiederebbe tre volte tanto di visioni bidimensionali a quanti sono agli aspetti dell'oggetto.

2) Il secondo requisito richiede che la corrispondenza tra i punti nelle visioni bidimensionali salvate sia noto prima che le visioni possono essere combinate. Sebbene la risoluzione dei problemi di corrispondenza sia un problema computazionale di non facile soluzione per oggetti complessi questa risoluzione di problemi di corrispondenza può essere risolto a posteriori piuttosto che durante processo di riconoscimento dell'oggetto.
3) Il terzo requisito significa che il processo di combinazioni delle visioni non riuscirà a produrre una combinazione realistica se le diverse visioni bidimensionali includono deformazioni plastiche dell'oggetto. Se una visione è una persona che sta in piedi e l'altra è di una che sta seduta ,per esempio, la loro combinazione, non costituirà necessariamente una visione possibile della persona.
Questa descrizione può così causare problemi per i corpi, i visi di creature inanimate, come anche di oggetti inanimati fatti con materiali flessibili, per esempio l'abbigliamento oppure delle strutture unite come per esempio le forbici.


I teoretici computazionali stanno in questo momento cercando altre maniere di risolvere questi problemi, ma ci sono degli importanti limitazioni dell'approccio della combinazione di lineare. I risultati ottenuti da Ullman e Basri provano che le visioni bidimensionali possono essere combinate per produrre nuove visioni sotto le sopra citate condizioni, ma loro non specificano come queste visioni possono essere usate per riconoscere un oggetto quando viene data una data immagine in ingresso. Ulteriori tecniche richieste per trovare la migliore combinazione tra la vista in ingresso e la combinazione lineare dei modelli di visione delle visione di modello come parte del processo di riconoscimento dell'oggetto. Un approccio è quello di usare un piccolo numero di caratteristiche per trovare la miglior combinazione di visione dell'oggetto tante quanti un piccolo numero di caratteristiche possono essere usate per allineare una visione con oggetto tridimensionale, altri metodi sono inoltre possibili ma sono troppo tecnici per essere descritti in questo libro.
Poggio e Edelman del, 1990 impiegarono un metodo piuttosto differente, chiamato funzioni generalizzate a base radiale per generare delle nuove visioni bidimensionali da un insiemi di visioni salvate. Il loro metodo non lineare cerca di approssimare delle viste non note usando le viste dell'oggetto conosciuto, le viste conosciute dell'oggetto come restrizioni. ,l'idea di base analoga ad altri metodi di approssimazione come far corrispondere una curva precisa a un insieme di punti indicati. Se e noto un insiemi di punti di una funzione non nota esistono dei metodi non computazionali per trovare la curva più corretta che attraversa questi punti o almeno le passa vicino. Nel metodo di Poggio e Edelman le viste salvate sono analoghe ai punti dati e l'insieme della nuova vista non nota è analogo ai punti che la curva deve attraversare. Le nuove viste derivate dalle viste note potrebbero non essere esattamente corrette, ma attendono ad essere delle approssimazioni ragionevoli e più vicine queste approssimazioni sono alle viste note più accurate probabilmente lo saranno. Il metodo GRBF può essere interpretato come una generalizzazione del metodo di Ullman e Basri delle combinazioni lineari ma tipicamente richiede un numero maggiore delle sole tre viste del metodo e dall'altra parte però è in grado di riconoscere la posizione dell'oggetto relativo all'osservatore cosa che la combinazione lineare non può fare.


Debolezze: Malgrado l'eleganza di alcuni dei risultati, che sono stati ottenuti da questi teoretici, che lavorarono l'interno dello spazio specifico della vista, quelle teorie hanno presentato parecchi problemi, seri problemi, come una spiegazione generale della cognizione visuale dell'oggetto e la relativa categorizzazione, 5 di questi problemi più importanti sono i seguenti:
1: Struttura tridimensionale. Gli aspect graph e dell'allineamento con le combinazioni viste bidimensionali hanno un problema nel senso che loro non riescono a considerare correttamente la percezione tridimensionale della struttura tridimensionale che ha la persona. Soltanto osservando un oggetto noi generalmente sentiamo di poter avere una buona rappresentazione di quella che è la sua struttura tridimensionale, incluso il modo in cui che forma dobbiamo dare alle nostre mani per cogliere l'oggetto e come dovremo sentirla se noi dovessimo esplorarlo manualmente. Come potrebbero succedere cose di questo tipo se noi avessimo soltanto l'accesso a un insieme strutturato di viste bidimensionali? Ci si potrebbe appellare alle mappe di profondità basate sulle informazioni stereoscopiche oppure di paralasse di movimento, ma le persone sembrano abbiano anche una buona percezione della struttura tridimensionale anche per oggetti che vengono visti soltanto con un occhio stazionario. In un certo senso non ha importanza quante differenti interpopolazioni bidimensionali o approssimazioni possono essere generare dalla vista bidimensionali nota o se esse siano sufficienti per il riconoscimento, il problema è che sono tuttora soltanto rappresentazioni bidimensionali e quindi sono assolutamente inadeguate a rappresentare una struttura tridimensionale.

2 : Oggetti nuovi. La corrispondenza della viste bidimensionali e modelli tridimensionali nella memoria non soffre il problema della tridimensionalità proprio nella stessa maniera, siccome i modelli espliciti tridimensionali degli oggetti noti sono salvati in memoria. Una volta che l'oggetto è stato riconosciuto l'intera struttura tridimensionale è quindi accessibile, ma se l'agente è nuovo come per esempio un pezzo di una scultura astratta, oppure un oggetto che non ha senso come, la figura 9.1.3, sicuramente la persona percepisce questi oggetti come aventi un ovvia e chiara forma tridimensionale anche nell'assenza di modello tridimensionale interno preesistente che si adatta al loro. Questi modelli devono essere costruiti dall'input visuale, ma non è chiaro come questo possa essere raggiunto.

3: Oggetti non rigidi. Tutte e tre queste teorie specificamente basate sulle vista che abbiamo menzionato, l'associazione di viste bidimensionali e i modelli tridimensionali e l'associazione tra viste bidimensionali e combinazioni di viste bidimensionali, lavorano nel tentativo di riconoscere un oggetto rigido, ma cosa succederebbe se tentassimo di riconoscere un corpo umano usando uno schema di questo tipo, anche se il corpo è proprio stessa persona? Se uno dovesse far corrispondere le viste bidimensionali interne ai modelli tridimensionali ci dovrebbero essere centinaia di modelli tridimensionali diversi, per esempio per un ballerino che dovrebbe essere presentate in tante pose differenti e numero di viste che dovrebbero essere salvate dovrebbe salire fino a migliaia. Uno può approssimare molte di queste deformazioni con trasformazioni locali rigide di sotto insiemi dell'oggetto come il caso del corpo, ma questo introduce gli equivalenti funzionali delle parti, una complicazione che i teorici della vista specifica cercano di evitare.

4: Parte strutturale: alla fine del capitolo 7 abbiamo osservato che gli oggetti più complessi hanno una struttura percepita abbastanza chiara in termini di parti e sotto parti.
Le rappresentazioni basate sulle viste che abbiamo considerato fino adesso generalmente non contengono nessuna rappresentazione esplicita di questa struttura, perché esse consistono di insiemi di punti non articolati caratteristiche di basso livello come estremi e vertici. Non è chiaro quindi come queste teorie possano spiegare gli esperimenti di Biederman e Cooper sulla differenza tra le linee e le condizioni di cancellazione delle parti negli esperimenti . Ullman ha suggerito che le parti, esattamente come interi oggetti, possono essere rappresentate separatamente nella memoria. Questa idea dovrebbe suggerirci che gli schemi di riconoscimento basati sulle parti, esattamente come gli RBC e gli schemi basate sulle viste, non sono mutualmente esclusivi, ma possono essere combinati in vari approcci di tipo ibrido.

5: Variazioni esemplari : Le situazioni alle quali le teorie basate sulle viste, che sono state fino adesso applicate con successo, sono limitate a oggetti identici pieni nei quali varia soltanto il punto di vista,per esempio il recipiente pieno di rasoi di Lowe oppure il riconoscimento di viste differenti della stessa faccia. Ma cosa si può dire a proposito della classificazione di esempi di categorie di basso livello, variabili di oggetti come sedie, cani o case? La grande quantità di variazioni dimensionali attraverso differenti esemplari in una grande quantità di categorie, rende le teorie basate sulle viste inadatte a lavorare, per il problema più generale della categorizzazione visuale. Per applicare applicare questo tipo di tecniche alle categorie di basso livello , esse dovrebbero essere rappresentate in termini di prototipi concreti, vedi Ullman nel 96, ma anche in questo caso è abbastanza improbabile che questo potrebbe funzionare . Quanto bene potrebbero case differenti combinare la rappresentazione di una singola istanza non ha importanza quanto tipica o rappresentativa essa possa essere, si provi per esempio considerare il tentativo di far corrispondere un'immagine specifica percepita per esempio di un capannone di legno oppure di un fallingwater (che è una casa molto particolare costruite negli Stati Uniti ), con le immagini di questo tipo di casa qualunque possa trattarsi.
Semplicemente non sembra possibile che il processo di categorizzazione di entrambe le immagini percepite, sia della casa di legno o di questa casa particolare, come case possa essere raggiunto semplicemente di livello in livello per fare corrispondere le immagini. C'è una controversia in questo momento fra i paladini della teoria basta sulla descrizione strutturale delle parti e fra i paladini della teoria dell'allineamento dell'immagine basate sulle viste come evidenziato da Tarr e Bulthoff e Bierderman e Gerhardstein a proposito dell'interpretazione di Bierderman e Gerhardstein.
Il contrasto tra questi approcci è sempre presentato come una proposizione del tipo outout cioè o uno o l'altro, ma questo non deve essere il caso. Una possibile di soluzione potrebbe essere che entrambi i processi basati sulle parti e sulle viste potrebbero essere utilizzati per diversi tipi di compiti. Le rappresentazioni basate sulle viste sembrano soddisfare abbastanza bene il processo di riconoscimento dello stesso oggetto da differenti prospettive, perché in questa situazione non ci sono variazioni nella struttura dell'oggetto, tutte le differenze tra le immagini possono essere spiegate con la variazione del punto di vista . Il riconoscimento di oggetti specifici per le teorie della descrizione strutturale, siccome le loro rappresentazioni sono raramente specifiche abbastanza per riuscire discriminare tra differenti esemplari, in contrasto le teorie di descrizione strutturale come la RBC sembrano adattarsi di più , (meglio ) alla categorizzazione di basso livello, perché esse hanno delle rappresentazioni più astratte, che sono in grado di interpolare le variazioni di forma tra differenti esemplari della stessa categoria; questo è proprio il punto in cui le teorie basate sulle viste si trovano in difficoltà. Un'altra possibilità è, che sia gli schemi basati sulle viste, che quelli basati sulle parti, possono essere combinati per raggiungere il migliore dei due mondi. Esse non sono mutualmente esclusive e possono essere implementate parallelamente, questo approccio suggerisce che quando la vista corrente corrispondere a una rappresentazione basata sulla vista nella memoria, il riconoscimento sarà più veloce e accurato, nel caso contrario la categorizzazione si deve appoggiare sul più lento ma anche più complesso processo di associazione contro la descrizione strutturale. Non è ancora chiaro quali o se ci sono alcune di queste possibili soluzioni del conflitto in corso riusciranno ad essere più produttive, la speranza in questa controversia è che possa generare delle intuizioni interessanti che potrebbero essere testate sperimentalmente allo scopo di fare dei progressi scientifici.

Capitolo 9. 4

Identificazione di lettere e parole

Fino adesso abbiamo considerato come gli oggetti tridimensionali di ogni giorno possono venire categorizzati, adesso noi ci occuperemo del più ristretto problema di come il testo linguistico, consistente principalmente in lettere e parole, venga identificato . Questo è un caso molto speciale di classificazione visuale a causa della immensa importanza che la lettura riveste nella cultura moderna , se riusciamo a capire i processi visuali che stanno sotto al modo in cui il soggetto legge il testo, noi saremo in grado di sviluppare delle tecniche migliori per insegnare agli studenti a leggere, per aiutare anche le persone che hanno problemi nella lettura e per programmare i computer che devono leggere immagini o testi. La tecnologia più nuova sotto nome di OCRI è già disponibile ma è molto lontana dalle capacità che può avere un uomo nella lettura e si basa su tecniche che molto probabilmente non sono coinvolte nella lettura umana .
Noi dobbiamo cominciare con una importante distinzione:
Identificazione di lettere e parole nel testo linguistico non è lo stesso come la lettura nel senso comune. La lettura intesa nel senso comune richiede che non solo vengano identificati le parole, ma anche che venga capito il loro significato nel contesto specifico nel quale esse appaiono. Questo processo di comprensione del linguaggio è una capacità mentale estremamente complessa che richiede sia la conoscenza del significato individuale delle singole parole,,sia la capacità di interpretare esse coerentemente con il contesto di tutto il resto del testo. Questi non sono problemi percettivi, ma concettuali e sono estremamente difficili a questo punto, quindi noi consideriamo soltanto la prima parte della lettura , il processo che è coinvolto nell'identificazione delle lettere e delle parole che compongono il testo, come vedremo questo non è un compito molto difficile.
Progressi significativi nella categorizzazione di lettere e parole furono fatti prima della categorizzazione di oggetti , in parte per la natura molto ristretta del problema, soluzioni importanti sono ottenute attraverso queste due proprietà del testo:
1) Bidimensionalità: il normale testo linguistico consiste esclusivamente di segni su superfici bidimensionali questo significa che la struttura dello stimolo prossimale per il testo corrisponde molto accuratamente alla struttura dello stimolo distale, prodotto dal fatto che la superficie sia dentro oppure vicino al piano frontale. La maggior parte dei difficili problemi prodotti dalla percezione della profondità e del raggiungimento delle costanza di percezione e del completamento delle parti nascoste sono in questo caso evitati.
2) Struttura combinatoriale. Tutti i testi di tipo indoeuropeo consistono in sequenze dello stesso piccolo insieme di caratteri, in inglese ci sono 52 lettere 26 maiuscole 26 minuscole dieci numeri, più un assortimento di segni di punteggiatura e altri simboli. Linguaggi come il giapponese e specialmente il cinese hanno un più grande insieme di caratteri che arriva addirittura alle migliaia questo significa che questi caratteri costituiscono un insieme naturali di primitive atomiche dalle quali poi tutte le parole le frasi, vengono scritte come testo e quindi costruite.
Anche se questi fattori sono estremamente importanti nella semplificazione del problema della percezione di parole e lettere essi non presentano niente che possa avvicinare una soluzione completa. Alcuni problemi e indegni ci ha rimangono, per esempio nell'identificazione delle lettere nelle diverse posizioni, dimensioni e orientamenti. Lo stato a priori dei caratteri come primitive naturali sembra risolvere il problema che si è cercato di risolvere nella teoria RBC. Biederman ha motivato la scelta dei geons come una specie di alfabeto per gli oggetti visuali; anche così, il fatto che le lettere sono esse stesse delle entità complesse, che invitano ad analizzare l'analisi in un maggior numero di proprietà di base oppure componenti, significa che la rappresentazione del problema non è risolta semplicemente dall'esistenza di un alfabeto.

9.4.1 identificazione delle lettere.

Il punto di partenza ovvio è partire con l'analisi di come le lettere vengano identificate, semplificare problema a questo punto noi considereremo soltanto le 26 lettere maiuscole come un insieme di caratteri stampati, che possono essere percepiti. Le difficoltà di base nella presentazione delle forme dei modelli bidimensionali è già stato discusso nel capitolo 8; qui noi semplicemente ricapitoliamo le conclusioni che sono state raggiunte a quel punto.
Sagome: le sagome standard sono altamente implausibili a causa dell'enorme numero di esse che sarebbero necessarie per riconoscere le lettere in tutte le possibili posizioni, forme, dimensioni e orientamenti d per non parlare delle variazioni nel tipo di carattere.
Il fatto che le lettere possono essere riconosciute più velocemente e facilmente quando esse appaiono all'interno di parole che hanno significato, piuttosto che in lettere, parole senza significato è facile da spiegare. Semplicemente osservate la linea superiore della figura 9. 4. 4 per circa 5 secondi e ricordate il maggior numero di lettere che potete, poi fate la stessa cosa per la linea di sotto; sarete in grado di riportare un maggior numero di lettere, nella linea di sotto, piuttosto che in quella di sopra, a causa del fatto che le lettere della linea di sotto formano per le parole che hanno significato una frase che ha significato. Le lettere che sono presenti negli spazi fra loro sono infatti le stesse di entrambi i casi, la linea di sopra infatti è soltanto una versione anagrammata della linea di sotto . La differenza tra il livello di prestazioni nel riportare le lettere, nelle parole, piuttosto che nelle non parole è noto come effetto di superiorità della parola; questo fatto e stato riportato la prima volta più di un secolo fa da Cattel nel 1886 che comparò il numero di lettere che un soggetto riesce riportare in una presentazione di dieci millisecondi, di parole composte casualmente da lettere piuttosto che in confronto con parole inglesi. Sfortunatamente ci sono delle difficoltà nell'interpretazione di questi esperimenti, come per esempio dimostrare che le persone identificano le lettere meglio quando queste sono collocate all'interno di parole note; invece la differenza potrebbe essere presente nella capacità del soggetto di ricordare le lettere, cioè essi sono in realtà in grado di identificare tutte le lettere in entrambi i casi, ma sono in grado di raggruppare le lettere in unità che sono facili da ricordare nel caso delle parole e invece sono incapaci di ricordarle quando sono messe in parole costruite a caso.
Un'altra difficoltà è che l'effetto di superiorità della parola potrebbe essere causato da una strategia di indovinamento basata sulla percezione incompleta piuttosto che sulla categorizzazione efficiente; infatti le persone hanno una tendenza ben documentata di indovinare le parole in contrapposizione alle parole composte da lettere caso, che sono state presentate sotto certe condizioni per un certo periodo di tempo. Una incontestabile evidenza è che il soggetto tenderà a indovinare le parole molto più spesso che le parole composte da lettere a caso, anche quando viene visualizzato una macchia per un breve periodo di tempo. Se i soggetti hanno la tendenza a indovinare le parole quando essi sono insicuri di qual è la vera sequenza di lettere, un effetto di superiorità della parola può risultare da questo.
Questi problemi dell'interpretazione sono stati superati da altre procedure sperimentali più sofisticate. Lo studio definitivo fu eseguito dallo psicologo Reicher nel 69, ed è stato quindi ripreso e esteso da molti altri ricercatori. Nell'esperimento di Reicher al soggetto venivano presentate sia, una parola, come per esempio word, oppure una parola composta da lettere al caso comparabile con quella di prima, come per esempio orwd, come indicato nella figura 9. 4. 5. Questo stimolo venne presentato per un tempo molto breve, circa 50 millisecondi, e subito seguito da una sagoma di mascheramento sopra l'area che conteneva le lettere importanti. Proprio un po' sopra la maschera, c'erano un paio di lettere, D oppure K, mostrate una sopra l'altra, che potevano essere presentate nelle posizioni indicate.
Il compito del soggetto, in ogni tentativo, era quello di indicare quale delle due lettere, del test, erano state effettivamente presentate nella posizione corrispondente. In metà dei tentativi i soggetti sono stati preistruiti con le due possibili alternative di disposta prima della presentazione dello stimolo visivo. Nell'altra metà delle prove, le due alternative sono state presentate soltanto durante il test di visualizzazione, dopo che l'obiettivo se n'era andato, notate che i requisiti di memoria nel compito del soggetto sono praticamente non esistenti nella condizione in cui soggetti erano stati preistruiti. I soggetti non dovevano ricordare niente altro, soltanto le lettere corrette delle due alternative a cui erano già stati preistruiti. Anche nel caso di postistruzione, il carico di memoria era minimo , da notare anche il progettato controllo per le strategie di indovinamento, basate sulle parole contro non parole, dovute al fatto che in entrambe le alternative c'erano delle parole familiari con le altre tre lettere presentate word e work. Anche in questo caso eppure Reicher trovò un sostanziale vantaggio per i contesti di parola invece che per i contesti di non parole, in entrambe, sia in condizioni di preistruzione sia in condizioni di postistruzione, come mostrate in figura 9. 4. 5. La conclusione incontestabile è che la categorizzazione delle lettere è davvero influenzata dal contesto; le lettere nelle parole vengano identificate in modo molto più curato che le lettere nelle parole a caso: quest'effetto è spesso chiamato "word no word", "parola non parola". Reicher inoltre incluse un'altra condizione in cui soltanto una singola lettera veniva presentata come bersaglio, come visione; il risultato più plausibile che ci si attendeva era che una lettera singola venisse percepita molto più accuratamente che qualunque insieme di quattro lettere, siano esse parole o non parole, semplicemente siccome c'era solo un carattere che doveva essere riconosciuto invece di quattro. Invece il risultato sorprendente fu che la lettera singola veniva percepita in maniera meno precisa che quando appariva all'interno di una parola ; questa scoperta è spesso nota come "effetto parola lettera". Questo fu piuttosto sconcertante, considerato che una gran quantità di risultati mostravano che se c'era un maggior numero di lettere presenti in un insieme casuale di lettere, peggiore era la performance nel riconoscerle.
Brevemente descriveremo una teoria connessionista del riconoscimento di lettere e parole, che tiene conto di questo effetto parola lettera e anche parola non parola.
Basandosi sui risultati di Reicher ci si poteva chiedere se il vantaggio nel percepire le lettere nelle parole era condiviso a qualunque grafico, dalle non parole che erano ciononostante simili alle parole. Alcune non parole possono essere pronunciate facilmente, come per esempio GRAP, mentre altre no, come per esempio RPGA. Si è scoperto che le lettere nelle non parole pronunciabili , venivano anche identificate in modo più accurato di quelle nelle non parole non pronunciabili.
Questo fatto può anche essere spiegato dal modello connessionista della percezione di lettere e parole di cui parleremo adesso.

Il modello di attivazione interattivo.

Una delle teorie più ambiziose e influenti della percezione di lettere e parole è la teoria di I A, nota come modello di attivazione interattiva. Il modello I A si basa sull'ipotesi di un'esistenza di una rete di connessioni multistrato, consistenti di nodi di tipo neuronico e connessioni di tipo sinaptico fra i nodi. Lo stimolo visuale attiva il primo strato di nodi , i cosiddetti nodi di caratteristica , e questa attivazione si propaga attraverso la rete, usando le connessioni tra i nodi . I nodi vengono attivati a un grado che dipende sia dal livello di attivazione in tutti i nodi, a cui questi sono connessi; e sulla forza oppure peso di queste connessioni che possono essere sia eccitatorie che inibitorie. Le connessioni eccitatorie aumentano l'attivazione nel nodo alle quali esse sono connesse; mentre le connessioni inibitorie diminuiscono l'attivazione. Siccome le reti di tipo I A contengono reti di controreazione, la forma dell'attivazione cambia dinamicamente durante il tempo. Eventualmente sistemandosi in una forma stabile, in cui alcuni nodi sono molto attivi e altri non lo sono.
L'obiettivo del modello I A è di simulare i processi di percezione che stanno sotto la categorizzazione di lettere e parole, come per esempio la forma di attivazione nello stato stabile corrisponde a quello che il soggetto percepisce sotto condizioni comparabili.
Per simulare la categorizzazione di lettere e di parole di quattro lettere la rete di tipo I A è strutturata in tre distinti strati di nodi. Un livello di caratteristica, un livello di lettera e un livello di parola, come indicato in figura 9. 4. 6
Noi adesso considereremo l'architettura della rete; come questa unità sono connesse una con l'altra, sia all'interno di un dato strato sia attraverso differenti strati.
Il primo strato consiste di nodi di caratteristica parziale, ognuno di questi rappresenta un particolare segmento di linea in una particolare posizione, l'insieme dei possibili segmenti per lo specifico tipo di carattere, simulato dal modello I A è mostrato in figura 9. 4. 7. Tutte le lettere sono composte di un determinato sotto il insieme di 12 possibili segmenti , in questo modo ci sono dodici nodi nel livello di caratteristica per ognuna delle quattro posizioni in cui una lettera si può trovare. I 48 risultanti nodi di caratteristica sono attivati dello stimolo visuale quando il loro corrispondente segmento è presentato dallo stimolo voluto. Questi passano la loro attivazione ai nodi nel secondo strato, attraverso, sia le connessioni eccitatorie, sia le connessioni inibitorie , notare che non c'è alcuna controreazione alle livello di caratteristica dai livelli superiori. Le caratteristiche vengono processate in una direzione strettamente dal basso verso l'alto.
Queste due sorgenti di informazioni indipendenti vengono quindi combinate in uno stadio successivo di integrazione per produrre un'indicazione di quanto probabile è che una data lettera sia presente, sulla base sia delle informazioni contestuali sia delle informazioni e sensoriali. La differenza cruciale è che nel flmp le informazioni sensoriali non cambiano sotto l'influenza del contesto, come invece succede nel modello I A . Questo problema è di non facile soluzione, siccome non possiamo guardare dentro la testa dell'osservatore e verificare il livello nella rappresentazione della lettera qualunque essa sia , per vedere se questo livello di rappresentazione è influenzato dal contesto oppure no . Piuttosto noi dobbiamo fare ipotesi su cosa succede nella testa dell'osservatore, a partire dalle misure comportamentali indirette e queste deduzioni sono sempre basate su assunzioni di validità non sicura.
La situazione attuale è che nonostante entrambe le parti siano d'accordo che c'è un'importante differenza teorica tra questi due tipi di teorie , essi non sono d'accordo su come interpretare le evidenze sperimentali; forse nuovi esperimenti produrranno test definitivi tra le due teorie. Indipendentemente da quanto precisamente questa discussione su base teorica possa essere rissolta, l'esistenza di effetti contestuali nel processo di categorizzazione delle lettere all'interno di parole e oggetti, all'interno di scene, è un fatto importante e innegabile della percezione. Questi effetti abilitano la percezione di fare uso di restrizioni imposte dalla struttura più globale dello stimolo visivo. Non tutte le combinazioni di oggetti sono ugualmente probabili, che possono essere presenti in una data scena e non tutte le combinazioni di lettere sono ugualmente probabili che possono esserci in una data parola, il sistema visuale è chiaramente sensibile a questo tipo di informazioni e le usa per categorizzare lo stimolo visivo. Il risultato è un processo più veloce, più efficiente, dei tipi di scene e parole, che possono essere riscontrati frequentemente nell'esperienza del soggetto, ma alla spesa di un più basso e meno efficiente processo di raccolta casuale di oggetti e lettere. Questa è una conclusione vantaggiosa, siccome le normali scene e parole sussistono, per definizione più frequentemente che possono sussistere invece quelle collezioni casuali o non normali.

Collaborators

I am the leader of the Neuromorphics Lab, a highly collaborative lab with connections across both academia and industry.