Palmer Cap 8

Le traduzioni che potrete trovare su questo sito sono unicamente destinate ad uso interno per il corso di Psicologia della Percezione dell'Università degli studi di Trieste. Nascono con l'intento di fornire un ausilio a quegli studenti che non hanno molta dimestichezza con la lingua inglese. Le traduzioni sono opera degli stessi studenti del corso di Psicologia della Percezione 1999 - 2000. Nell'utilizzo di questo materiale va tenuto conto che la correttezza dello stesso va verificata confrontando le traduzioni con il testo originale. Per ulteriori domande, clicca qui.

La rappresentazione della forma e della struttura

Di tutte le proprietà che percepiamo circa l'oggetto la forma è probabilmente la più importante. Questa importanza le deriva dal fatto che permette ad un osservatore di predire più caratteristiche di un oggetto che ogni altra proprietà ma è anche la più complessa. Sebbene si tenti di pensare alla forma come una proprietà unitaria, essa è sicuramente composta da molte componenti differenti . Nel capitolo 3, per esempio, abbiamo scoperto che la superficie colorata può essere analizzata nelle componenti 3-d di tinta, saturazione e bianchezza. Questa analisi dettagliata porta dei vantaggi in confronto a quella unitaria. Per esempio , la somiglianza di due colori può essere modellata dalla loro prossimità con lo spazio di colore tridimensionale. Colori simili, come due differenti sfumature di rosso, sono vicini tra loro nello spazio dei colori, mentre colori diversi, per esempio il verde e il rosso, sono distanti.
E' possibile compiere una simile analisi della forma in semplici componenti? Se si, quali sono i componenti nei quali può essere analizzata? Se no, può la forma essere in qualche modo rappresentata in modo olistico? In entrambi i casi, come può essere determinata la somiglianza tra due forme? Queste sono le principali domande che ci porremo in questo capitolo. Molte di esse sono legate strettamente agli argomenti che discuteremo nel prossimo capitolo sulla categorizzazione percettiva. La ragione è che la proprietà più importante per determinare la categoria alla quale l'oggetto appartiene è la sua forma. Molte teorie importanti sulla categorizzazione degli oggetti, quindi, dipendono dalla posizione che noi prendiamo rispetto alla loro rappresentazione di forma.
Un'altra tentazione semplicistica circa la percezione della forma è credere che la rappresentazione della forma degli oggetti può basarsi sulla superficie base di 2.5 D. Infatti, il termine inizialmente usato nella letteratura basata sulla visione computazionale si riferiva al processo per il quale la rappresentazione in 2.5 D implica sia così. I moduli principali dalla rappresentazione 2 d alla 2.5 sono spesso chiamati "forma dall'ombra", "forma dal movimento" e così via come se la rappresentazione in 2.5 D contenesse una rappresentazione della forma dell'oggetto. Sfortunatamente non è così.
Sebbene sia vero che le rappresentazioni in 2.5 D contengono informazioni sulla forma questo vale solo implicitamente e localmente. Come detto nel capitolo 5 quello che è attualmente rappresentato in 2.5 D è la distanza e l'orientamento della parte della locale superficie piana e ricordiamo anche che la rappresentazione in 2.5 D non viene differenziata a livello organizzativo: non viene rappresentata esplicitamente la divisione delle superfici visibili in oggetti separati e molte delle loro parti componenti e di inter relazioni, non contiene informazioni di tutte le superfici nascoste dell'oggetto che sono coperte dalle loro superfici frontali. Per tutte queste ragioni è giusto dire che lo schizzo 2.5 D non contiene un'esplicita rappresentazione della forma dell'oggetto 3 D. qualcosa di più globale e complesso viene richiesto nella rappresentazione delle forme in 3 D come affermato alla fine del capitolo 7 la rappresentazione degli oggetti spesso si sviluppa attraverso la loro divisione in parti come succede con gli occhi, il naso e la bocca per la faccia umana come rappresentazione delle varie caratteristiche globali. Le parti nelle quali vengono divisi gli oggetti, le inter relazioni spaziali tra queste parti, e le caratteristiche globali che li definiscono rappresentano tutti aspetti importanti della loro forma. Ribadiamo, nessuna di queste informazioni complesse è disponibile nello schizzo 2.5 D. nella percezione della forma di un oggetto informazioni locali e pezzi della stessa devono in qualche modo venir organizzati all'interno della rappresentazione dell'oggetto, delle sue parti caratteristiche e delle loro complesse inter relazioni all'interno di una struttura globale e coerente. Capire come questo potrebbe compiersi è il obiettivo primario della teoria della percezione delle forme. In questo capitolo esploreremo i problemi e le prospettive relative a questa teoria.

 

8.1 L'EQUIVALENZA DELLA FORMA

Possiamo cominciare la nostra discussione sulla percezione della forma degli oggetti affrontando un semplice problema: la percezione della forma equivalente. Questo problema implica la comprensione delle condizioni per le quali due persone percepiscono due oggetti differenti come aventi la stessa forma.
Il fenomeno delle percezione di forme equivalenti è strettamente collegato alla costanza della forma. Ricordiamo dalla sezione 7.2 che la costanza della forma è definita come il percepire lo stesso oggetto con la stessa forma malgrado questo presenti delle differenze nelle condizioni di rappresentazione. Di equivalenza della forma si parla invece quando due oggetti differenti sono visti come aventi la stessa forma, malgrado presentino altre differenze spaziali tra di loro. Un'automobile di dimensioni normali appare avente la stessa forma di una miniatura di quel modello nonostante la loro ovvia differenza di misura, per esempio. Come una sedia in posizione verticale avrà la stessa forma di una sedia rovesciata, malgrado la loro differenza di orientamento.


8.1.1 DEFINIRE LA FORMA OBIETTIVA

Ci avvicineremo al problema delle forme equivalenti considerando quali trasformazioni possono essere applicate ad un oggetto senza cambiarne la forma. Dato che la forma è una proprietà della nostra percezione degli oggetti, può sembrare strano parlare di forma come una proprietà obiettiva. La nozione di forma può essere definita in modo significativo come punto d'appoggio nel nostro affrontare il problema della percezione della forma. Di fatto, l'idea che ogni oggetto ha una forma obiettiva non è differente per principio dalla radicata credenza che ogni oggetto ha una misura, una posizione, un orientamento obiettivamente definibili.
Consideriamo la semplice figura geometrica che vediamo nell'immagine 8.1.1 per esempio. Ognuno sarà d'accordo che le figure nella colonna di destra hanno la stessa forma di quelle a sinistra malgrado le differenze nella loro posizione, orientamento, misura o si tratti della stessa immagine riflessa (come in uno specchio). Questo fatto ci permette di definire la forma obiettiva come la struttura spaziale di un oggetto che non cambia quando gli vengono applicate le seguenti trasformazioni spaziali:

1.traslazione, in cui a variare è solo la posizione di un oggetto,
2.rotazione, in cui cambia solo il suo orientamento
3.dilatazione (espansione o contrazione), che cambia solo la sua misura,
4.riflesso in cui varia il suo senso di presentazione
5.tutte le combinazioni di queste trasformazioni.

In matematica questo particolare gruppo di trasformazioni viene chiamato gruppo di similarità ("Similarity group" è il nome matematico di questo set di trasformazioni, esso non può indicare nessuna delle somiglianze tra gli oggetti a cui si riferisce.) Probabilmente avrai incontrato le trasformazioni similari in geometria quando per esempio hai dovuto dimostrare che due triangoli sono "simili", perché presentato tutti e tre gli angoli corrispondenti come uguali.

Sebbene abbiamo dato un esempio del mantenimento della forma usando una figura bidimensionale, la forma obiettiva degli oggetti 3D è comunque mantenuta nella versione tridimensionale dalla stessa gamma di trasformazioni: traslazione, rotazione, dilatazione e riflessione o le loro combinazioni. Noi preserviamo la forma obiettiva in un senso ben definito: cioè quando ogni coppia di oggetti può essere portata in esatta corrispondenza applicando alcune sequenze di queste trasformazioni. Così, le trasformazioni similari forniscono un test obiettivo per capire se ogni data coppia di oggetti abbia o no la stessa forma. Se ogni altra trasformazione spaziale è richiesta per portare l'oggetto in esatta corrispondenza con un altro - come schiacciarlo, allungarlo o deformarlo in qualche modo- noi abbiamo una forma obiettiva differente secondo questa definizione, anche se le loro forme possono apparire come estremamente simili.
Il fatto che le persone percepiscano tutti i vari oggetti nella figura 8.1.1 come aventi la stessa forma ci porta alla ovvia ipotesi che la percezione che noi abbiamo della forma obiettiva è generalmente veridica- cioè due oggetti sono percepiti come aventi la stessa forma ogni qual volta possiedono una forma obiettiva. Qualcuno potrebbe pensare che sia sempre così, ma come vedremo presto ci sono delle importanti eccezioni. Così noi possiamo prendere questa definizione di forma equivalente come uno standard obiettivo ed esaminare come la percezione umana della forma si conformi ad esso.
La situazione non è dissimile dal definire l'orientamento oggettivo di una linea rispetto alla gravità, ed esaminando quanto facilmente la percezione della gente di questa si conformi a questo standard. La percezione può provocare varie illusioni o distorsioni, ma queste possono essere capite in relazione ad orientamenti definiti in via oggettiva. Così può essere per la forma.
La definizione di forma equivalente percepita come invarianza (mancanza di cambiamento) oltre le trasformazioni similari è un livello della teoria computazionale della forma equivalente. Non fornisce nessuna pretesa di specificare quali processi sono coinvolti nel determinare l'equivalenza della forma nel senso definito nel Capitolo 2. A un livello algoritmico, tuttavia, la questione nasce su quali informazioni e operazioni sono implicate nel determinare se due oggetti hanno la stessa forma. Ci sono alla fine tre possibilità:

1.Ipotesi delle caratteristiche invarianti. Questa ipotesi suppone che l'equivalenza della forma si determini confrontando alcuni set di "caratteristiche della forma" dei due oggetti. Se questi due set (o liste) sono uguali, l'oggetto ha la stessa forma percepita. Per questo schema di lavoro, le caratteristiche devono rimanere invariate non solo per la gamma di trasformazioni similari.

2.Ipotesi delle trasformazioni di allineamento. Questa ipotesi assume che la forma equivalente sia analizzata per determinare se due oggetti possano essere portati in esatta corrispondenza attraverso una della possibili trasformazioni del set di similarità . Se ciò è possibile, la forma è equivalente, altrimenti no.

3.Ipotesi della struttura di riferimento centrata sull'oggetto. Questa ipotesi ritiene che la forma equivalente sia accertata confrontando gli oggetti dentro una struttura di riferimento definita dall'intrinseca proprietà dell'oggetto. Se gli oggetti sono uguali rispetto alla loro struttura di riferimento essi sono percepiti come uguali nella forma.

Ci sarebbero approcci ibridi e intermedi ma, per semplicità, noi ora considereremo in dettaglio solo le versioni "pure" di queste ipotesi.

 

 

 

 

8.1.2 CARATTERISTICHE INVARIABILI

Questa ipotesi assume che la percezione della forma dipenda dal codificare quelle proprietà dell'oggetto che non cambiano (sono invarianti) quando questo è trasformato in qualche modo particolare. Adesso noi esamineremo cosa questo significa e in che modo possa valere per la percezione della forma equivalente.
Ogni serie di trasformazioni divide il set di tutti le possibili proprietà degli oggetti in due sotto-serie mutualmente esclusive: quelle che non cambiano come risultato della trasformazione (chiamate proprietà invarianti) e quelle che lo fanno (caratteristiche varianti). Consideriamo, ad esempio, una traslazione bidimensionale del set di proprietà che troviamo nella figura 8.1.2. Cambiando la posizione di un oggetto si altera la posizione assoluta dei suoi componenti come linee, angoli e così via che sono quindi caratteristiche che variano con la traslazione, come indicato dal segno "-" che troviamo nella prima colonna, prima riga. Questo non influenza la posizione relativa di coppie di questi componenti e comunque non altera nessuna delle altre proprietà elencate, come il numero di linee ed angoli che la figura contiene o l'orientamento e la misura di queste linee e angoli. Queste caratteristiche sono quindi invariabili come indicato dal segno "+" nelle altre colonne della prima riga.
Ora consideriamo cosa succede quando è l'orientamento dell'oggetto a cambiare . La rotazione altera non solo la posizione assoluta e relativa dei suoi componenti ma anche il suo orientamento assoluto, queste sono quindi le caratteristiche variabili della rotazione. Quello che invece non cambia è l'orientamento relativo dei componenti ( cioè la differenza angolare tra loro), e il numero e la misura di angoli e linee che sono quindi invarianti.
Collegate con la precedente definizione di forma equivalente obiettiva nei termini dell'azione del gruppo similare di trasformazione, l'ipotesi delle caratteristiche invarianti suggerisce che la forma può essere rappresentata dalla serie di proprietà che non variano e che non fanno parte del gruppo similare. La riga superiore della figura 8.1.2 indica che le caratteristiche che supportano questa ipotesi sono cose come il numero di angoli, di linee e varie altre componenti come l'orientamento relativo, la misura, la vicinanza e la loro connettività. La ragione è che nessuna di queste caratteristiche cambiano per nessuna delle trasformazioni similari.
Notiamo che questa lista include poche proprietà metriche assolute ma molte relative. Questo è in accordo con le prime osservazioni della psicologia Gestaltista, che sottolineò l'idea della determinazione relazionale; cioè l'idea che la percezione sia dominata dalle relazioni configurate tra parti e proprietà più che da proprietà assolute.
La definizione reale di un set di caratteristiche immutabili come quelle proprietà che non cambiano nonostante l'azione delle trasformazioni, garantisce che ogni due figure che possono essere sovrapposte mediante una trasformazione di similarità avranno una identica rappresentazione di forma in confronto a tali proprietà. Perciò, fin quando l'equivalenza della forma percepita è la stessa dell'equivalenza della forma obiettiva - cioè, come definita dall'azione delle trasformazioni di similarità - rappresentare la forma in termini di caratteristiche di similarità-immutabili garantisce di risolvere il problema della percezione dell'equivalenza di forma.
In una forma o l'altra l'ipotesi delle caratteristiche invarianti ha dominato le teorie della percezione della forma dalle prime storiche esposizioni di Pitts e McCullough (1947) fino a tempi relativamente recenti. Esplicitamente o implicitamente queste assunzioni sottolineano la teoria gestaltista della percezione della forma, la teoria di Gibson sulla costanza della forma e le classiche "feature list" di riconoscimento del modello come la teoria di Pandemonio (Selfridge, 1957; Selfridge & Neisser, 1960).
La teoria basata sulle caratteristiche invarianti è affascinante in parte anche per la sua semplicità: la forma può essere rappresentata come una semplice serie o lista di attributi. Le proprietà all'interno di tale set possono essere valutate in via differenziale in relazione alla loro importanza percettiva, ma l'idea base è che la lista di caratteristiche invarianti è sufficiente per spiegare perché alcune coppie di oggetti distinti sono viste come aventi la stessa forma e altre no.
Sfortunatamente è evidente che questo approccio è imperfetto come la teoria della percezione della forma equivalente. Il problema sorge dalle notevoli differenze tra la forma equivalente percepita e quella obiettiva. Il fenomeno più danneggiato è la ben documentata relazione tra l'orientamento percepito e forma percepita a cui abbiamo accennato brevemente nel capitolo 7. Una delle prime, più semplici e più eleganti dimostrazioni di questa relazione è l'osservazione di Match (1914/1959) che dimostra come quando un quadrato è ruotato di 45° le persone lo percepiscono generalmente come un segno di quadri (come quello delle carte da gioco) o come un diamante piuttosto che come un quadrato inclinato. (vedere la fig. 8.1.3). Si può vedere questa figura come un quadrato inclinato, ovviamente, se solo si considera il lato ruotato di 45° come superiore. Ma se si considera il vertice superiore come punto più alto allora la figura è vista come un diamante.
Il quadrato/diamante di Match pone una serie di problemi per l'ipotesi delle caratteristiche invarianti. Se la forma percepita è definita unicamente tramite gli attributi che non cambiano dopo la rotazione, allora due figure che vengono ruotate in altre- come il quadrato/diamante di Match- possono essere percepite come aventi la stessa forma. Ma ciò non accade. Questo semplice fatto mina seriamente l'ipotesi delle caratteristiche invarianti come una teoria a livello algoritmico della percezione della forma equivalente.
Qualcuno potrebbe pensare che molti problemi potrebbero essere risolti semplicemente eliminando la rotazione dal set di trasformazioni che preserva la forma percepita. Questa soluzione però butta via il bambino con l'acqua sporca, perché ci sono molti casi in cui due figure correlate da una rotazione vengono effettivamente percepite come aventi la stessa forma. Come esempio possiamo guardare la figura 8.1.1B. Esempi come questi effettivamente bloccano ogni tentativo di accomodare questa ipotesi semplicemente tralasciando la rotazione.


8.1.3 ALLINEAMENTO TRAMITE TRASFORMAZIONE (SIMILARE)

Un secondo modo per stabilire se due oggetti hanno la stessa forma si basa sul trovare una trasformazione che porti uno in esatto allineamento con l'altro. Se esiste questa trasformazione e se proviene dalla serie di cambiamenti possibili (traslazione, rotazione, ecc.) allora gli oggetti avranno la stessa forma. Altrimenti no.
Questo approccio alla forma equivalente è plausibile, non solo perché esso è così simile all'oggettiva definizione di forma equivalente data sopra, ma anche per la sua stretta connessione con molti altri fenomeni visivi. Quando discuteremo la percezione del moto, nel cap. 10, troveremo che il sistema visivo ha una forte tendenza a percepire una forma in movimento come deformata e nel cap.12 scopriremo l'importanza dell'uso delle trasformazioni mentali per comparare due oggetti simili. La trasformazione di oggetti e il processo di allineamento appare essere importante anche in certe teorie di riconoscimento di oggetti di cui parleremo nel nono capitolo.
Per illustrare come funziona questo processo immaginate due oggetti bidimensionali con la stessa forma, posizione, orientamento e misura, come nella figura 8.1.4 A e B. entrambi gli oggetti hanno due punti salienti nella stessa posizione, il puntino bianco e quello nero. I due oggetti A e B possono esser messi a confronto con le seguenti procedure:

1. Trovando la corrispondenza tra puntini: nero con nero e bianco con bianco.

2. Determinando la traslazione, rotazione, riflesso e dilatazione necessari per allineare perfettamente i puntini di B con quelli di A.

3. Applicare le stesse trasformazioni a tutta la figura B, includendo tutti i punti piuttosto che solo quelli bianchi e neri.

4. Determinare se le figura B trasformata (figura C) è identica alla figura A. Se è così, la figura A e quella B avranno la stessa forma, in caso contrario no. Questa conclusione è garantita dal fatto che che comunque le trasformazioni usate fanno parte del gruppo similare.

Usare la procedura di allineamento sulle figure reali è più complicato di quanto questo esempio può lasciar credere per una serie di motivi. Uno dei più importanti è che gli oggetti non vengono comodamente marcati con i puntini neri e bianchi. Nonostante questo, un piccolo numero di punti salienti, a volte chiamati punti ancora, possono essere identificati dalla struttura della figura stessa. Punti di massima concavità lungo il contorno- dove solo collocati i puntini bianchi e neri nelle figure 8.1.4- sono dei buoni punti ancora, così come i punti di massima convessità al centro della figura (Hutterlocher & Ullman, 1987).Sebbene due punti ancora siano sufficienti per allineare una figura 2-D in piano frontale, c'è ne vogliono tre non collineari per le figure 3-D. poiché naturalmente i punti ancora non sono colorati non è subito chiaro quali punti di un oggetto corrispondano all'altro. Etichettarli per tipo (concavi, convessi, centrali, ecc.) può aiutare, dal momento che la convessità in uno non può che corrispondere alla convessità di un altro. Così, l'esempio della figura 8.1.4 è ambiguo perché entrambi i punti ancora si trovano in una zona concava. La procedure consiste nel trovare tutte le possibili corrispondenze e determinare così se la figura risulta identica.
Nonostante le sue virtù, l'ipotesi di allineamento mostra alcune difficoltà. Se per esempio una figura è complessa e contiene vari potenziali punti ancora, o se dei metodi di principio devono essere trovati per eliminare tutte tranne alcune possibilità, o se sono molte le differenti corrispondenze che devono essere provate. Senza etichette per aiuto, i punti ancora n di ogni oggetto sono n! (=n x (n-1) x (n-2) x …x1) possibili corrispondenze, e possono essere molte. Un oggetto con 5 punti ancora, per esempio, ha 120 possibili corrispondenze, e uno con 10 ne ha 3.628.800. La serie di possibili corrispondenze deve essere testata fino a quando non si è raggiunto un allineamento accettabile o tutte le combinazioni sono esaurite.
Un secondo problema è che lo stesso set di punti ancora può essere visibile in due figure. Questo non è un problema per le figure bidimensionali che abbiamo considerato nell'illustrazione 8.1.4 o per certe classi di oggetti 3-D (come quelle fatte in fil di ferro dove non compaiono occlusioni), ma diventa un problema importante con molti altri oggetti 3-D per i quali i punti ancora possono essere visibili in un oggetto e non nell'altro.
Un terzo problema consiste nel fatto che esistono degli oggetti che sono tipicamente percepiti come aventi forme diverse anche se possono effettivamente essere portati in perfetto allineamento da una trasformazione similare. Il quadrato/diamante ne è un esempio perché le due figure sono identiche, una è solo ruotata di 45° rispetto all'altra. L'ipotesi di allineamento tramite trasformazione implica che tali figure possano sempre essere viste come equivalenti, ma ciò non accade sempre.
Per render conto di questa discrepanza, questa ipotesi propone una spiegazione per il mancato riconoscimento del quadrato/diamante. Il tipo di punti ancora menzionati sopra - il centro della massa, le convessità e concavità- rimangono invarianti dopo la rotazione quindi non forniscono un valore plausibile a questo fenomeno. Altri tipi di punti ancora e/o schemi di orientamento non obiettivi per stabilire delle corrispondenze tra punti ancora potrebbero essere inventati ma si traterebbe di trucchi. Se l'allineamento fosse definito da un asse di simmetria, allora il quadrato/diamante potrebbe essere allineato come mostrato nella figura 8.1.3 e sarebbe per forza percepito come diverso.


8.1.4 STRUTTURA DI RIFERIMENTO CENTRATA SULL'OGGETTO

Una terza alternativa per risolvere il problema della forma equivalente è quello di definire la forma tramite una struttura di riferimento centrata sull'oggetto. In molte cose questa ipotesi riprende il processo di allineamento che abbiamo già discusso ma è sufficientemente differente da richiedere una descrizione separata.
Il concetto che la percezione della forma deve coinvolgere una struttura di riferimento è suggerita dall'osservazione che una persona può vedere il diamante di Match come un quadrato inclinato se percepisce un lato diagonale come superiore. Cosa significa? Che le figure di Match possono essere percepite una come avente una forma (diamante)relativa alla verticale gravitazionale e un'altra (quadrato) relativa a un orientamento diagonale che ridefinisce la percezione della figura, del sopra, del sotto e dei lati. E' da notare che queste due alternative sono mutualmente esclusive così che la figura non può essere percepita come due figure contemporaneamente. Irvin Rock (1973) fu tra i primi a suggerire che questa relazione tra forma e orientamento nasce perché percepire le forme è una descrizione relativa ad una struttura di riferimento percettiva sebbene l'idea di una struttura di riferimento era stata precedentemente usata dai teorici della Gestalt per spiegare altri fenomeni di percezione dell'orientamento. Rock propose questa idea specificatamente per il caso dell'orientamento ma altre teorici (per esempio Marr & Nishihara, 1978; Palmer, 1975b, 1989) più tardi la generalizzavano per altre proprietà, come posizione e misura attraverso l'analogia con le strutture di riferimento geometriche (vedere sotto).
Nella sua forma generale, questa ipotesi fornisce un'alternativa alle due precedenti sul tema dell'equivalenza della forma. E' basata sull'idea che gli effetti delle trasformazioni similari sulla forma percepita possano essere cancellati dall'imporre una struttura di riferimento intrinseca che effettivamente separa la forma rappresentata dall'azione delle trasformazioni. Per capire come questo sia possibile esamineremo la situazione analoga in geometria analitica nella quale il sistema di coordinate gioca un ruolo di struttura di riferimento degli oggetti geometrici.

SISTEMA DI COORDINATE GEOMETRICHE

Nella geometria analitica, gli oggetti geometrici come linee, curve, cerchi ed elissi sono rappresentati in descrizioni simboliche sotto forma di equazioni. Quello che rende ciò possibile è un sistema di coordinate: una struttura formale, creata dal grande filosofo e matematico francese Renè Descartes, che permette ad ogni punto in un spazio dimensionale n di essere rappresentato come un set ordinato di n numeri chiamato coordinate. La serie di punti che fa si che l'oggetto geometrico sia descritto può allora essere specificato da un'equazione che esprima la relazione tra le coordinate numeriche dei punti che fanno parte dell'oggetto.
Consideriamo per esempio un sistema di coordinate cartesiane standard in uno spazio bidimensionale. Esso serve a stabilire una serie strutturata di riferimenti standard per rappresentare la posizione in coordinate solitamente definite (x,y). Un sistema cartesiano include:

1.un riferimento alla posizione che definisce la sua origine,
2.un riferimento all'orientamento che definisce gli assi,
3.un riferimento alla distanza che definisce l'unità di misura, e
4.un riferimento alla direzione (senso) che definisce la direzione positiva lungo gli assi.

Questi riferimenti standard sono sufficienti, in uno spazio bidimensionale, per assegnare una coppia unica di numeri, (x,y) a ogni punto in un piano 2-d, come illustrato nella figura 8.1.5.
Come esempio concreto di come un sistema di coordinate può produrre una descrizione simbolica consideriamo il cerchio contrassegnato dalla lettera a nella parte sinistra della figura 8.1.6. in quel caso esso può essere descritto dall'equazione

x²+ y² = 1.


In questa particolare equazione per descrivere il cerchio il centro del sistema di coordinate deve essere al suo centro, e la sua unità di misura deve essere uguale al raggio del cerchio. (L'orientamento e la direzione lungo gli assi non è un problema per i cerchi perché la circonferenza non varia -cioè è simmetrica- per tutte le rotazioni e riflessioni). Questa particolare struttura di riferimento permette a questa circonferenza particolare di essere descritta simbolicamente da questa particolare equazione.
Può questa equazione essere usata per rappresentare la forma di tutte le circonferenze? Per scoprirlo consideriamo come l'altra circonferenza, contrassegnata dalla lettera b nella parte sinistra della figura 8.1.6, può essere descritta all'interno dello stesso sistema di coordinate.
Sebbene simili sotto certi aspetti importanti l'equazione di b è in qualche modo diversa:

(x-2)² + (y-2)²= 4.

La differenza nasce dal fatto che la posizione e la misura della circonferenza b è diversa dalla circonferenza a e usando lo stesso sistema di coordinate per descrivere entrambi ne consegue che l'equazione si presenta differente.
La chiave di osservazione per capire l'ipotesi della struttura di riferimento centrata sull'oggetto si basa sul fatto di non usare lo stesso sistema di coordinate per descrivere le due circonferenza ma di usufruire di due sistemi differenti. Se il centro del sistema di coordinate per la circonferenza b si fosse trovato al centro della circonferenza stessa e se l'unità di misura del sistema fosse stato uguale al suo raggio allora l'equazione di b per questo secondo sistema di coordinate sarebbe stato esattamente la stessa di a nell'altro sistema. Questa possibilità è illustrata nella parte destra della figura 8.1.6 che mostra le stesse due circonferenze descritte nei due diversi sistemi di coordinate. L'intuizione importante che deriva da quest'esempio è che, relativamente al loro sistema di coordinate definito intrinsecamente, le due circonferenze hanno la stessa identica equazione. Così, scegliendo il "giusto" sistema di coordinate la variazione della misura e dell'orientamento della circonferenza può essere eliminata dall'equazione. Queste variazioni sono in qualche modo "assorbite" dal sistema di coordinate differenti così che l'equazione non cambia per qualsiasi circonferenza.

STRUTTURA DI RIFERIMENTO PERCETTIVA. Si ipotizza che una struttura di riferimento in percezione sia analoga ai sistemi di coordinate in geometria analitica nel senso che essa può essere usata per mappare un oggetto spaziale in un descrizione simbolica percettiva. Un modo in cui questo può avvenire è tramite la struttura di riferimento centrata sullo spettatore: un singolo sistema di coordinate in cui la struttura standard è scelta in relazione allo spettatore, con il centro che corrisponde al punto di fissazione, il suo orientamento e la direzione positiva allineata con l'orientamento verticale e con il right-ward della retina e la sua scala (unità di misura) definita da alcuni angoli di visione della retina scelti in modo arbitrario. Nella struttura di riferimento centrata sullo spettatore, è come se la retina avesse una grata cartesiana disegnata su di essa grazie alla quale tutti gli oggetti possono essere descritti. Questo è forse il modo più ovvio per descrivere una struttura di riferimento percettiva ma non è l'unica.
Un'alternativa è quella di assegnare a ogni oggetto la sua struttura di riferimento centrata sull'oggetto scelta sulla base delle proprietà intrinseche grazie alle quali un oggetto può essere descritto. Questa ipotesi suggerisce che il sistema di coordinate usato per descrivere ogni oggetto è, in qualche modo, fatta su misura per quel oggetto particolare. Invece, come vedremo, sistemi di coordinate diverse possono essere usate per descrivere parti dello stesso oggetto.
Grossolanamente parlando la struttura di riferimento centrata sull'oggetto tende a produrre descrizioni identiche per oggetti con forme equivalenti perché molte (ma non tutte) le forme sono sufficientemente ben strutturate da indurre il sistema visivo a descriverle dentro la stessa struttura. Facciamo un esempio, se solo l'orientamento di due oggetti altrimenti identici è differente, come una sedia in piedi e una rovesciata, allora l'orientamento della loro struttura basata sull'oggetto sarà definita in modo che entrambe abbiano la stessa descrizione. Ciò vale anche per le differenze di misura come per esempio un'automobile di dimensioni normali e un modellino della stessa, le dimensioni delle loro struttura di riferimento centrata sull'oggetto differiranno in maniera corrispondente. Purché le differenze nella struttura di riferimento siano compensate da una trasformazione similare , la forma equivalente può essere veridicamente percepita. Invece, se si scelgono strutture diverse per qualche ragione - come quando gli assi di simmetria sono allineati con la gravità nel quadrato/diamante di Match - anche le stesse forme possono essere percepite in modo diverso. Questa è l'osservazione chiave che rende questa teoria affascinante per quel che riguarda la percezione della forma.
La struttura centrata sull'oggetto è così chiamata perché sceglie di adattare la sua struttura alle caratteristiche dell'oggetto, come abbiamo visto nella figura 8.1.6 (parte destra). L'idea generale si basa sulla convinzione che due forme siano percepite equivalenti tutte le volte in cui due oggetti hanno la stessa descrizione simbolica - qualsiasi essa sia - all'interno della propria struttura di riferimento centrata sull'oggetto. Così le strutture percettive possono compensare la differenza nell'orientamento di due oggetti nello stesso modo di una differenza di misura o di posizione. Se l'orientamento di due oggetti altrimenti identici differisce, allora gli oggetti saranno percepiti come aventi la stessa forma purché l'orientamento della loro struttura di riferimento corrisponda nello stesso modo al soggetto. Il risultato finale è che se la stessa struttura intrinseca viene usata per la stessa forma in tutte le situazioni allora la forma equivalente sarà perfettamente percepita per tutte le trasformazioni del similarity group.

Motivi di fallimento della percezione di forme equivalenti.

Tutta la forza e la debolezza della struttura di riferimento intrinseca di cui abbiamo parlato sopra stà nella frase condizionale "se la stessa struttura intrinseca viene usata per la stessa forma in tutte le situazioni". Questa è una debolezza perché non è computazionalmente possibile trovare questa situazione. Come può la struttura scelta essere così strettamente legata alle proprietà di un oggetto da essere usata sempre? Questo problema nasce dalla difficoltà di scelta che talvolta ci porta a "sbagliare" struttura intrinseca come si può capire dai fallimenti nella percezione di forme equivalenti. Come teoria della percezione umana, invece, questa difficoltà può essere un punto di forza che porta le persone a sbagliare sempre nelle stesse situazioni.
Possono questi fallimenti essere spiegati dall'ipotesi della struttura di riferimento basata sull'oggetto? Palmer (1985) propone tre importanti assunzioni per il caso di diverso orientamento:

1.descrizione relativa. La forma è percepita in relazione alla struttura di riferimento nella quale un orientamento specifico è standard di descrizione?

Questa assunzione implica che la forma equivalente è determinata dal confrontare le descrizioni simboliche degli oggetti piuttosto che gli oggetti direttamente grazie le trasformazioni di allineamento.

2. tendenze intrinseche. Il sistema percettivo usa delle euristiche (regole empiriche) che sono basate sulla struttura intrinseca dell'oggetto stesso per assegnare una struttura di riferimento a un oggetto.

Noi ci siamo chiesti brevemente cosa queste euristiche possono essere, alcune possibilità riguardano il fatto che la struttura di riferimento possa essere stabilita lungo un asse di simmetria o di proiezione. Così queste euristiche forniscono percezione veridiche di forme equivalenti in molti casi perché le stesse regole applicate agli stessi oggetti generalmente producono gli stessi risultati. Ma essendo le euristiche sono imperfette ci possono essere alcune circostanze - come gli oggetti con molteplici assi di simmetria - in cui i differenti orientamenti possono essere scelti, portando a degli errori principalmente nella forma equivalente.

3.tendenze estrinseche. In aggiunta alla tendenza centrata sull'oggetto nella selezione dell'orientamento ci sono anche tendenze a trovare l'orientamento saliente rispetto alle altre strutture di riferimento o direzione, così come la verticalità gravitazionale, l'orientamento del corpo dell'osservatore o l'asse alto-basso della retina.

Per un osservatore posto verticalmente, queste sono tutte coerenti una con l'altra, ma possono essere messe in conflitto quando la testa dell'osservatore e/o il suo corpo sono inclinati rispetto alla gravità. Le tendenze estrinseche sono a volte abbastanza forti da causare errori nella percezione della forma equivalente.
Queste tre assunzioni insieme implicano che l'orientamento della struttura percettiva per un dato oggetto sarà una funzione unita della sua struttura intrinseca, all'orientamento relativo all'osservatore e all'orientamento relativo all'ambiente. Se per esempio una figura ha due o più assi intrinseci per l'orientamento della struttura basata sull'oggetto e uno di questi viene a trovarsi allineato con la verticale gravitazionale allora si tende a scegliere l'asse verticale come risulta da alcune descrizioni particolari della forma. Se una figura altrimenti identica è vista con un diverso orientamento cioè con un asse diverso da quello allineato con la verticale, questo asse può essere scelto per la struttura di riferimento. Lo stesso oggetto in un orientamento ambientale differente può quindi produrre differenti descrizioni della forma.
Questo è il modo in cui la ipotesi della struttura di riferimento centrata sull'oggetto spiega il fallimento della percezione della forma equivalente nel caso del quadrato/diamante di Match. Esso può portare alla percezione di due forme differenti se l'asse di simmetria è allineato orizzontalmente o verticalmente - cioè con la bisettrice del suo lato o del suo angolo. Quando è la bisettrice del lato a essere allineata orizzontalmente e verticalmente le persone percepiscono la figura come diamante. Così la violazione dell'equivalenza oggettiva della forma può risultare dallo stesso meccanismo della struttura di riferimento che generalmente produce la reale percezione della forma equivalente.
Perché strutture di riferimento diverse possono risultare nelle diverse descrizioni dello stesso oggetto? Palmer (1983) suggerisce che la differente struttura di riferimento crea differenti proprietà relazionali disponibili per la percezione come illustrato nella figura 8.1.7. nel caso del diamante/quadrato, per esempio, la percezione del quadrato rende chiaro il fatto che i suoi lati sono paralleli con gli assi della struttura e l'uno per l'altro come proprietà certe che nascono dalla simmetria del riflesso circa gli assi della struttura -per esempio , i lati opposti sono uguali in lunghezza e gli angoli adiacenti sono di ugual misura (figura 8.1.7 A). questo implica anche che un quadrato può essere visto come più simile a
un rettangolo (che ha la stessa struttura) che un rombo (nel quale gli angoli sono obliqui relativamente all'asse e gli angoli adiacenti non sono uguali). Questo confronto è illustrato nella figura 8.1.8 A, basata su una dimostrazione di Goldmeier. (1936/1972).
La percezione del diamante, invece, rende chiaro che i lati sono obliqui rispetto agli assi, che gli angoli opposti hanno la stessa misura e che i lati adiacenti sono uguali in lunghezza (figura 8.1.8 B). questo implica che il diamante sembrerà più simile al rombo che al rettangolo, ribaltando le relazioni di somiglianza dell'esempio del quadrato. Questo vale anche se le tre figure sono ruotate di 45° rispetto a quelle della figura 8.1.8A.
Hinton (1979,1981) ha compiuto alcune osservazioni circa il fallimento della percezione della forma equivalente dovuti all'uso di strutture di riferimento differenti. Egli studiò un compito di immagine mentale usando un cubo tridimensionale. Prima chiese ai suoi soggetti di immaginare un cubo appoggiato su di un tavolo di fronte a loro (figura 8.1.9A). Dopo gli chiese di ruotare l'immagine di questo cubo così che due vertici opposti venissero a trovarsi allineati verticalmente, come se il cubo fosse in bilico su uno due dei suoi angoli (figura 8.1.9B). Quando i soggetti avevano completato la trasformazione mentale egli chiese loro di puntare la posizione del vertice supplementare (immaginario). Quasi tutti puntarono ai quattro punti che, in una configurazione di un quadrato, giacciono nel piano orizzontale che biseca la linea tra i vertici allineati verticalmente. Infatti questa non definisce un cubo ma una doppia piramide, come illustrato nella figura 8.1.9C. La risposta corretta è molto più complicata: ci sono effettivamente sei vertici che giacciono alternativamente su due piani paralleli connessi dal bordo che scorre tra essi, come mostrato in figura 8.1.9B.
Quello che questa analisi e questa dimostrazione suggeriscono è che l'effetto estremo di selezionare una struttura di riferimento percettiva è quello di fornire all'osservatore differenti serie di relazioni geometriche contenute nella struttura della figura. Poiché è impossibile estrarre tutte le possibili relazioni dalle figure - sono molte - e molto di esse sono estremamente ridondanti, il sistema visivo sceglie la serie più stabile e pratica che riesce a trovare. Questa serie è quella delle relazioni potenzialmente percepibili che, come Palmer (1983) suggerisce, costituiscono la struttura di una struttura di riferimento percettiva. Rimane da determinare precisamente come possono queste relazioni (o se questa è la via migliore) per caratterizzare la struttura di riferimento percettiva.

ORIENTAMENTO E FORMA.

Può sembrare irragionevole fare così tanta confusione a proposito della dimostrazione sul quadrato/diamante di Mach, che potrebbe semplicemente essere un'interessante anomalia. In effetti, comunque, Rock (1973) ha dimostrato che questo fenomeno è di gran lunga più pervasivo di quanto si possa supporre in base all'esperienza quotidiana. L'importanza delle sue scoperte sta nelle loro implicazioni riguardo al fatto che gli schemi di riferimento centrati sull'oggetto siano solitamente chiamati in causa nelle percezioni di equivalenza di forma. Com'è spesso dimostrato, gli insuccessi di un sistema a volte si dimostrano essere più illuminanti per quanto riguarda i meccanismi sottostanti al sistema stesso di quanto lo siano i successi. Ancora, non dobbiamo perdere di vista il fatto che una corretta percezione dell'equivalenza fra forme costituisce la regola, mentre i fiaschi costituiscono l'eccezione. In termini di quadro di riferimento delle ipotesi, ciò significa che il punto di vista è solitamente stabilito in accordo con gli oggetti, solo raramente si dimostra essere allineato in maniera diversa.
Rock (1973) ha dimostrato che in determinate condizioni la percezione di equivalenza di forma riferita a rotazioni di piano è piuttosto difficile da ottenere. Egli mostrò ai soggetti una sequenza di alcune forme amorfe e insolite in un determinato orientamento durante una fase di presentazione iniziale e successivamente li testò riguardo alla memoria di riconoscimento di figure poste nello stesso modo contro figure diversamente orientate (vedi figura 8.1.10A). I risultati dimostrarono che le persone riconoscono con minore probabilità le forme se testate in un orientamento diverso rispetto all'orientamento iniziale. Le loro povere prestazioni di riconoscimento, che si avvicinano al caso per rotazioni di 90 gradi, indicano che i soggetti spesso falliscono nel percepire equivalenza di forma fra le figure presentate inizialmente e presentate durante la prova.
In una serie di ulteriori studi Rock dimostrò che il primo fattore determinante l'orientamento per queste figure poco strutturate non è retinico, ma ambientale e/o gravitazionale. Ad esempio, quando gli osservatori inclinavano le loro teste di 90° fra la presentazione e la fase di test senza che l'orientamento delle figure rispetto all'ambiente fosse cambiato, la prestazione di riconoscimento era assai migliore rispetto a quando cambiava di 90° l'orientamento delle figure senza che le teste degli osservatori venissero inclinate. Rock prese questo e altri risultati collegati come evidenza del fatto che la forma è percepita in relazione ad uno schema di riferimento ambientale in cui la gravità definisce l'orientamento di riferimento, al limite anche in assenza di assi intrinseci all'oggetto stesso. Se l'orientamento delle figure in relazione all'ambiente cambia dal momento della presentazione iniziale a quello della fase di test, la descrizione della figura presentata in fase di test non corrisponderà con quella depositata in memoria, e l'osservatore perciò spesso commetterà errori nel riconoscere l'equivalenza fra le due figure.
La spiegazione classica riferita a Rock per gli insuccessi nella percezione dell'equivalenza fra forme si rifà alla caratteristica di amorfità propria delle forme da lui utilizzate. Ma cosa succede quando vengono utilizzate forme con "buoni" assi intrinseci, in grado di guidare la scelta di appropriati quadri di riferimento centrati sull'oggetto? Wiser (1981) analizzò in modo preciso questo quesito e trovò che le figure con buoni assi intrinseci vengono riconosciute allo steso modo sia quando vengono presentate e testate in orientamenti diversi che quando vengono presentate e testate nello stesso orientamento (figura 8.1.10B). Utilizzando figure amorfe come quelle di Rock, comunque, Wiser replicò i risultati di questo (figura 8.1.10A). Questi risultati sono completamente in accordo con le analisi teoriche di Rock (1973), sebbene quest'ultimo fosse più interessato alla spiegazione dei fallimenti nella percezione di equivalenza fra forme che nella spiegazione dei successi.
In ulteriori esperimenti Wiser (1981) dimostrò che quando una figura ben strutturata viene presentata inizialmente in modo che il suo asse non sia allineato con il piano gravitazionale verticale, il conseguente riconoscimento risulta essere più rapido quando la figura viene presentata nella fase di test nel suo orientamento verticale. Essa interpretò questo risultato a voler significare che la forma è immagazzinata nella memoria anche se è perpendicolare in relazione al suo proprio quadro di riferimento centrato sull'oggetto. Questo risultato è importante soprattutto perché sconferma la semplicistica ipotesi secondo la quale il riconoscimento di forme è sempre migliore nel caso in cui le figure siano presentate e poi testate nello stesso orientamento. E' comunque in accordo con una stima in termini di quadri di riferimento. E' soltanto necessario assumere che il quadro di riferimento centrato sull'oggetto proprio della figura sia stabilito dalla sua struttura interna nel caso in cui questa struttura sia sufficientemente forte. I risultati di Wiser, quindi, implicano che il processo di riconoscimento operi più efficacemente quando il quadro di riferimento centrato sull'oggetto proprio della figura è allineato con il quadro gravitazionale del suo ambiente circostante.
Da notare il fatto che i risultati di Wiser riferiti a figure con buoni assi intrinseci dimostrano la corretta percezione di equivalenza fra forme. La figura è riconosciuta meglio in un orientamento diverso dal momento che è percepita come avente la stessa forma. Comunque, questo succede solo quando la figura è dotata di un buon asse intrinseco che ne guidi l'orientamento di riferimento in relazione allo stesso asse entrambe le volte. Se la figura possiede più di un buon asse (come il quadrato/diamante di Mach) o è priva di buoni assi (come gli stimoli di Rock) l'equivalenza di forma può non venire percepita quando diversi assi sono in linea con un punto di riferimento estrinseco saliente sia in fase di presentazione che in fase di test. Così, sia i risultati degli esperimenti di Rock che quelli di Wiser supportano le ipotesi di quadro di riferimento centrato sull'oggetto.

EURISTICHE NELLA SELEZIONE DI QUADRI DI RIFERIMENTO.
Se la stima di percezione di equivalenza fra forme in termini di quadri di riferimento centrati sull'oggetto è esatta, allora è importante considerare quali fattori potrebbero governare la selezione di schemi appropriati. Per alcune proprietà la risposta è piuttosto ovvia, per altre è sorprendentemente evasiva. La posizione di riferimento per il quadro -corrispondente al centro di un sistema di coordinate geometriche- potrebbe essere identificata con il centro di massa dell'oggetto. Questa è una proprietà dell'oggetto stesso facilmente calcolata che può essere utilizzata per definire il centro del suo proprio schema di riferimento centrato sull'oggetto. La grandezza della scala di riferimento -corrispondente all'unità di distanza in un sistema di coordinate geometriche- può essere identificata con l'estensione dell'oggetto lungo la sua più lunga dimensione. Anche questa è una proprietà dell'oggetto facilmente calcolata che perciò può essere utilizzata per definire la dimensione di un quadro di riferimento centrato sull'oggetto. Così, la posizione assoluta e l'ampiezza assoluta sono due proprietà che possono essere facilmente calcolate nella percezione di forma di un oggetto con esigua o nulla ambiguità (questo è vero soltanto per oggetti 2-D su un piano frontale. Se è chiamata in causa la percezione 3-D, allora la dimensione più lunga può variare sostanzialmente a seconda della prospettiva di vista).
Come si può desumere dalla precedente discussione sull'interdipendenza fra orientamento e forma, il fatto di selezionare l'orientamento di riferimento per un quadro di riferimento intrinseco a un oggetto è molto complesso. Un certo numero di fattori stimolo sembrano essere importanti per la sua determinazione:
1. ORIENTAMENTO GRAVITAZIONALE. Siccome la forza di gravità è un fattore così importante per determinare la struttura di orientamento in riferimento all'ambiente risulta essere molto importante anche per la determinazione di schemi di riferimento centrati sull'oggetto. L'orientamento gravitazionale verticale sembra funzionare come difetto di valore per l'orientamento: l'orientamento che verrà selezionato per uno schema di riferimento centrato sull'oggetto in assenza di una forte struttura di orientamento nell'oggetto stesso. L'orientamento orizzontale è un altro orientamento ambientale saliente che influisce sulla selezione dello schema.
2. ASSI DI SIMMETRIA RELATIVI ALLA RIFLESSIONE. Un tipo di struttura basata sull'oggetto particolarmente utile nel definire l'orientamento di un quadro di riferimento interno è l'asse di simmetria di riflessione (o bilaterale).Se ce n'è solo uno, allora può essere usato senza ambiguità per definire l'orientamento del quadro, come mostrato in figura 8.1.10B. Se ce n'è più di uno -come nell'ambiguo quadrato/diamante di Mach- allora l'orientamento del quadro risulterà potenzialmente ambiguo.
3. ASSI DI ALLUNGAMENTO. Un altro tipo di struttura figurale piuttosto utile nel definire l'orientamento di uno schema di riferimento interno è l'asse di allungamento. Ancora, nell'ampiezza in cui c'è un chiaro asse di allungamento, questo può essere utilizzato per specificare lo schema senza ambiguità, come nella figura 8.1.10B. Ma se più di una soluzione risulta possibile, l'ambiguità rimane.
4. ORIENTAMENTO DEL CONTORNO. Un altro fattore implicato nell'orientamento di uno schema di riferimento centrato sull'oggetto è l'orientamento dei contorni dell'oggetto, soprattutto se questi sono dritti. Un margine inferiore orizzontale è particolarmente importante dal momento che suggerisce stabilità gravitazionale, una proprietà ecologicamente importante che improbabilmente risulta essere casuale. I contorni in altri orientamenti possono anche produrre effetti sostanziali sui quadri di riferimento, soprattutto se sono estesi e/o si trovano in coppie parallele.
5. ORIENTAMENTO STRUTTURALE. L'orientamento di elementi strutturali all'interno di una figura, come ad esempio righe, può essere importante nel definire l'orientamento di un quadro di riferimento, soprattutto se gli elementi sono relativamente grossi e spessi rispetto alla figura.
6. ORIENTAMENTO CONTESTUALE. Anche l'orientamento di oggetti attigui può influenzare l'orientamento di un quadro di riferimento, soprattutto se sono essi stessi fortemente orientati e reggono una stretta relazione strutturale con la figura in questione. Una forte influenza contestuale è esercitata da un rettangolo che circonda. Ad esempio la figura 8.1.11 mostra che un rettangolo inclinato di 45° può provocare il fatto che il diamante dritto di Mach sia percepito come un quadrato inclinato. L'orientamento di righe strutturali nel territorio attorno alla figura può anche influenzare l'orientamento del quadro di riferimento percepito.
7. MOVIMENTO. Anche la direzione del movimento di un oggetto può fortemente influenzare la sua percezione di orientamento e forma. Presumibilmente questo succede perché il movimento distingue l'orientamento allineato con la propria traiettoria da tutti gli altri. La parte dell'oggetto rivolta nella direzione del movimento è generalmente concepita come la parte davanti o sopra dell'oggetto, con uno degli assi del quadro di riferimento allineati lungo la direzione del movimento.
Questi principi di quadro di selezione sono assimilabili ai principi di raggruppamento della Gestalt. Cioè essi sono distorsioni potenzialmente indipendenti che possono essere utilizzate per predire il quadro di riferimento esclusivamente in casi puri o in quei casi in cui diversi fattori convergono per influenzare lo stesso orientamento. In diverse situazioni, comunque, diversi fattori sono in conflitto gli uni contro gli altri, come mostrato in figura 8.1.12. La maggior parte delle persone percepisce questa figura come un poligono asimmetrico capovolto. Non c'è nulla di sorprendente in ciò finchè non viene realizzato che c'è un asse di simmetria lungo un orientamento obliquo. La ragione più probabile che fa all'inizio apparire questa figura come capovolta piuttosto che inclinata è l'orientamento orizzontale del contorno dello sfondo. La percezione risultante di stabilità gravitazionale rinforza così la naturale tendenza a selezionare l'orientamento verticale come l'orientamento di riferimento.
La figura 8.1.13A mostra la stessa figura significativamente allungata lungo il suo asse di simmetria. Adesso è molto più semplice vederla come una figura appuntita simmetrica e inclinata che punta in giù e a sinistra. La figura 8.1.13B mostra la stessa figura 8.1.12 ma ruotata di 180 gradi. In questo orientamento è più probabile che sia percepita come una figura simmetrica inclinata che punta all'insù verso destra dal momento che non è gravitazionalmente stabile. Cioè, sembra che si inclini in senso antiorario in modo che il lato più lungo finisca con l'essere orizzontale e il suo asse di simmetria verticale. La figura 8.1.13C mostra la stessa figura con all'interno spesse righe che influenzano la percezione in direzione di un quadro di riferimento obliquo. La figura 8.1.13D mostra ancora la stessa figura ma posta all'interno di un rettangolo che la circonda e che influenza fortemente un quadro di riferimento in linea con i suoi bordi. Infine la figura 8.1.13E descrive l'influenza del muovere la stessa figura lungo il suo asse di simmetria, che crea una fortissima influenza a percepirla come una forma simmetrica inclinata. Sfortunatamente, non c'è ancora un'unica teoria riguardo alla selezione dei quadri di riferimento in grado di specificare il modo in cui fattori multipli si combinino in una misura unica che predica l'orientamento risultante di un quadro di riferimento centrato sull'oggetto.
E' importante notare che le teorie sull'equivalenza i forma basate su un quadro di riferimento centrato sull'oggetto sono in stretta relazione con quelle basate su allineamenti trasformazionali. La ragione è che in entrambi i casi viene usata una serie di trasformazioni per assorbire, cancellare o rilevare differenze fra i due oggetti. Nelle teorie sull'allineamento uno degli oggetti viene trasformato in esatta corrispondenza con l'altro laddove nelle teorie sui quadri di riferimento il quadro di riferimento viene trasformato in corrispondenza con la struttura dell'oggetto. Questo non significa che le due teorie sono uguali. L'allineamento trasformazionale è basato sull'accoppiamento di due immagini, mentre i confronti di schemi di riferimento sono basati su descrizioni simboliche di forma all'interno dello schema di riferimento. Inoltre, le teorie sull'allineamento sono spesso basate su conteggi su punti fissi, mentre le teorie sullo schema di riferimento sono solitamente basate sulla ricerca di un orientamento intrinseco, attraverso simmetrie, assi di prolungamento, texture e così via, come appena detto. Non è ancora chiaro quale approccio si avvicini maggiormente alla percezione delle forme propria dell'essere umano.

TEORIE SULLA RAPPRESENTAZIONE DELLA FORMA.
L'equivalenza fra forme è solo uno degli aspetti della percezione di forme. Si occupa del problema di decidere quando due oggetti sono identici come forma ma non affronta il problema cruciale della similarità di forma fra oggetti che non sono identici. La somiglianza fra forme è un problema molto più complesso perché richiede una teoria che specifichi come rappresentare la forma in un modo che fornisca una misura graduata corrispondente alla similarità percepita. Da notare che non c'è molto da dire circa la rappresentazione della forma nella nostra discussione sull'equivalenza fra forme perché viene richiesta soltanto una decisione con due alternative: due oggetti hanno o non hanno la stessa forma? Questa semplificazione ci permette di definire le condizioni sotto le quali due oggetti hanno la stessa forma senza però dover proporre una teoria completa sulla percezione della forma. In questa sezione considereremo varie proposte teoriche riguardo a come la forma degli oggetti e le loro parti possano effettivamente venire rappresentate nel sistema di visione umano e come due di queste rappresentazioni possano essere comparate per somiglianza.
Il lettore è preavvisato che tutte le teorie che stiamo considerando risultano inadeguate al fine di catturare il sorprendente potere, la versatilità e la finezza della percezione umana di forme. Il modo in cui le persone percepiscono la forma è sicuramente fra i problemi di più difficile soluzione all'interno della percezione visiva, di così difficile soluzione che nessuna teoria soddisfacente è ancora stata proposta. Ancora, sono stati fatti progressi significativi, e molto può essere appreso considerando le teorie già proposte. Dal momento che non c'è accordo riguardo la soluzione, il nostro intento sarà quello di imparare il più possibile analizzando sia i punti di forza che le debolezza di tutte le maggiori teorie.

TEMPLATES.
L'idea sottostante a quella di templates è semplicemente rappresentare la forma come forma, come farebbe uno strutturalista non corretto. Nelle rappresentazioni templates la forma è specificata dalla concatenazione di cellule recettrici sulle quali l'immagine di un particolare oggetto cade. Un template di quadrato può essere formato, ad esempio, associando insieme tutti i recettori che stimolerebbe più i recettori circostanti che non verrebbero stimolati. Il modo più ovvio per implementare questa idea è costruire una "cellula rilevatrice di quadrato" la cui struttura di campo recettiva incorpori la forma in questione -in questo caso quella di un quadrato contro il suo territorio circostante. Come illustrato nella figura 8.2.1 ciò significa che la regione centrale del quadrato del campo recettivo sarebbe connessa in modo eccitatorio con il rilevatore di quadrato. La regione di fondo attorno al quadrato sarebbe connessa in modo inibitorio al rilevatore di quadrato in modo da penalizzare le partenza che non c'entrano con il quadrato, la maggior parte dei campi recettivi corticali hanno dintorni inibitori. Così, un quadrato bianco su sfondo nero ecciterà al massimo queste cellule rilevatrici di quadrato dal momento che la sua struttura spaziale corrisponde in modo ottimale a quelle del campo recettivo. Chiameremo queste rappresentazioni STANDARD TEMPLATES per differenziarle da quelle alternative più complesse che proporremo in seguito in risposta a certi problemi.
Gli elementi atomici di cui i templates sono composti vengono tipicamente rappresentati come sistemi dalle caratteristiche binarie corrispondenti al fatto che particolari recettori vengano scaricati o meno. Questo significa che ogni elemento all'interno del campo del template è sia eccitatorio (ad esempio risponde positivamente alla presenza di luce) che inibitorio (ad esempio risponde negativamente alla presenza di luce). Questo sistema a due valori non è comunque l'unica possibilità. Si può costruire in modo semplice un template "su scala di grigio" convertendo la rappresentazione di ciascun elemento spaziale da un sistema con caratteristiche binarie (bianco versus nero in un determinato recettore) in una dimensione continua sulla scala del grigio variando i pesi delle connessioni in modo continuo da +1 (legame eccitatorio) a -1 (legame inibitorio). Così, una persona potrebbe costruire un insieme di templates per reticoli locali a onde sinusoidali come base per una teoria della percezione di forma a frequenza spaziale locale. Una persona potrebbe persino costruire un template "rilevatore della nonna" che risponde massimamente all'immagine del viso della nonna sotto particolari condizioni visive: da un particolare angolo visivo e distanza con fonti di luce in particolari collocazioni ambientali. Il fatto che templates su scala di grigio siano possibili non significa necessariamente che possano risolvere i problemi di percezione della forma comunque, come si può notare.
Per poter determinare la somiglianza fra due forme abbiamo bisogno di un metodo per confrontare le rappresentazioni. Due templates possono essere paragonati semplicemente calcolando una misura della loro corrispondenza puntuale o grado di adattamento. Uno schema particolarmente semplice per templates è calcolare la correlazione fra l'immagine in input e il template. Questa misura va da +1.0 per la massima corrispondenza positiva (fra due immagini identiche) a -1.0 per la massima corrispondenza negativa (fra un'immagine e la sua versione al negativo). Il valore atteso per due immagini non correlate è zero. Questa misura comparativa può essere utilizzata sia per templates con sistema binario che per templates su scala di grigio.

PUNTI DI FORZA.
I templates sono tipicamente ridicolizzati nei libri di testo e negli articoli di ricerca, e grossolanamente inadeguati per la rappresentazione di forme. Comunque hanno molte potenti argomentazioni in loro favore: i templates devono per forza essere utilizzati ad un certo punto nel processo di visione per convertire immagini strutturate nello spazio in rappresentazioni simboliche. I templates sono sempre il punto di inizio per discutere a proposito della rappresentazione di forme per il semplice fatto che essi sono il più ovvio meccanismo per eseguire questa conversione. Le teorie sulla rilevazione di linee e margini ad opera di semplici cellule in area V1 sono rappresentazioni template benchè molto semplici. Ciascuna cellula per la rilevazione di linee, ad esempio, risponde massimamente ad una linea in una specifica posizione, orientamento e contrasto (luce e buio versus buio e luce). La percentuale di scaricamento decresce in rapporto al modo in cui ciascuno di questi parametri cambia rispetto al proprio valore ottimale, fornendo così una misura del grado di somiglianza fra la struttura locale dell'immagine che cade all'interno del suo campo e la struttura spaziale del suo campo recettivo. Questa minima percentuale di scaricamento avviene per via della distribuzione opposta della luce all'interno del suo campo recettivo.
Lo stesso ragionamento vale per l'approccio alla frequenza spaziale locale della funzione delle cellule in V1 che abbiamo discusso nella sezione 4.2.2. Ciascuna cellula è deputata al calcolo di una misura della somiglianza fra la struttura spaziale locale dell'immagine in input e la funzione Gabor codificata nel suo campo recettivo. In questo caso la conversione è stata fatta a partire da immagini a componenti a frequenza spaziale locale piuttosto che da linee e margini, ma la rappresentazione di base può ancora essere accuratamente caratterizzata come una forma di template matching. La differenza più grande è che i componenti a frequenza spaziale locale non sono presi per essere aspetti significativi della forma di un oggetto, mentre margini e linee lo sono.
Sappiamo con un certo margine di certezza, allora, che il sistema visivo fa uso di templates per rappresentare forme molto semplici, come linee e margini o frammenti locali di reticoli sinusoidali. La domanda è se ci sono ragioni di principio per le quali questo approccio non possa essere esteso ad includere forme più complesse di oggetti reali, come quadrati, Wolkswagens o il viso della nonna.

PUNTI DEBOLI.
Dopo aver riconosciuto ai templates ciò che gli spetta in quanto primo passo necessario nella creazione di una rappresentazione simbolica di forma, deve essere riconosciuto che i loro punti deboli in quanto teoria generale di rappresentazione di forma sono parecchi e profondi. Consideriamo ora in dettaglio alcune delle più importanti obiezioni, dal momento che potranno anche servire come paragone nei confronti delle altre teorie che potranno essere esaminate.
1. Il problema dei canali sensoriali multipli. Alcuni fattori visivi hanno poco, se non nessuno, impatto nella forma percepita, tuttavia influenzano fortemente la correlazione fra due rappresentazioni template. Forse il fattore più ovvio è rappresentato dalle differenze nei colori. Un quadrato verde su sfondo giallo è visto avere la stessa forma di un quadrato blu su sfondo rosso o di qualsiasi altra combinazione di colori. Questo pone un problema per le rappresentazioni standard template dal momento che queste sono definite in termini di recettori di output specifici. Un template rappresentante un quadrato verde su sfondo giallo non sarà uguale ad un altro identico template per un quadrato blu su sfondo rosso dal momento che gli elementi colorati sottostanti sono diversi. Il problema generale è che le rappresentazioni retiniche basate su template non sono invarianti rispetto ai colori, mentre la percezione di forma lo è.
Come si può vedere, il problema del colore è solo la punta di un enorme iceberg. Ci sono molte altre differenze nei canali visivi all'interno dei quali un quadrato può essere rappresentato, in grado di influenzare profondamente qualsiasi rappresentazione standard template pur avendo pochi o addirittura nulli effetti nella percezione della forma quadrata. Considera il fatto che i quadrati possano venire percepiti per mezzo di contorni illusori, segmenti a tratti e differenti textures, come illustrato in figura 8.2.2. Nemmeno questo esaurisce i possibili canali attraverso i quali un quadrato può venire rappresentato. Il destino comune può fare in modo che una regione quadrata costituita da punti venga vista in contrapposizione sia a uno sfondo statico che a uno sfondo che si muove in una direzione diversa. La disparità binoculare può fare in modo che una regione quadrata costituita da punti emerga in profondità in contrapposizione a uno sfondo di punti messi in modo casuale, come abbiamo visto nel capitolo 5 (vedi figura 5.3.8). I contorni di un quadrato possono anche venire rilevati da una piccola apertura che ne rivela i bordi (vedi sezione 10.2.4) e così via. Il problema generale è che esiste una grande varietà di canali visivi diversi attraverso i quali i contorni di un quadrato possono venire rappresentati, facendo uso di metodi radicalmente diversi di stimolazione sensoriale. La nozione che templates di forma possa essere assicurata mettendo insieme un gruppo di unità di input periferiche è perciò problematica.
Esistono due modi per far fronte a questa difficoltà. Un modo è quello di costruire un template separato per ogni canale sensoriale. Il problema è che ci sarebbero allora una molteplicità di quadrati templates invece che uno solo. Il secondo modo per far fronte al problema dei canali sensoriali è quello di definire templates per la rappresentazione della forma ad un livello più astratto nel sistema visivo, dopo che tutti i canali di estrazione dei contorni (per esempio colore, texture, disparità binoculare, movimento, contorni illusori) hanno avuto i loro effetti. Ciò che è necessario è un template che in qualche modo rappresenti le differenze fra figura (il quadrato) e sfondo (il suo sfondo) indifferentemente rispetto al canale sensoriale che porta le informazioni dei contorni. Una rappresentazione del genere risulterebbe adeguata in accordo con i canali sensoriali.
2. Il problema delle trasformazioni spaziali. Nella prima sezione di questo capitolo abbiamo discusso l'importante evidenza che la forma rimane invariata nonostante le trasformazioni di somiglianza: traslazioni, rotazioni, dilatazioni, riflessioni e le loro varie combinazioni. Uno dei problemi maggiori riguardo agli schemi standard template è che confrontando le rappresentazioni template di due oggetti aventi la stessa forma non si ottiene un buon risultato se questi differiscono esclusivamente rispetto ad una di queste trasformazioni.
La figura 8.2.3, ad esempio, mostra che se un secondo quadrato template viene paragonato con un quadrato iniziale cambiandone posizione, orientamento e forma questo ha devastanti conseguenze nella correlazione. Dal momento che tutti questi oggetti hanno la stessa forma obiettiva, come abbiamo definito nella sezione 8.1.1, il semplice calcolo della correlazione fra due templates non da una misura ragionevole della somiglianza di forma.
Questi sono due metodi per risolvere questo problema per le rappresentazioni template: REPLICAZIONE e NORMALIZZAZIONE. La replicazione è la strategia di costruire un template diverso per ogni forma in ogni possibile posizione, orientamento, dimensione e senso. Poi il template con la corrispondenza migliore rispetto al target costituirà una ragionevole approsimazione della loro "vera" somiglianza all'interno di questo schema di somiglianza di forma. Questo è l'approccio che il sistema visivo utilizza per linee e margini (e/o per componenti a frequenza spaziale locale) nell'area V1, ripetendo la stessa struttura recettiva di campo in continuazione per tutte le possibili posizioni retiniche, orientamenti, dimensioni e sensi. Come si può immaginare, questo approccio è attuabile solo se l'insieme di forme template è molto piccolo. Linee e margini (o funzioni Gabor in fase seno e coseno) sono infatti un insieme molto piccolo. Ma se tutte le forme che la gente riesce a discriminare dovessero venire ripetute in ogni posizione, orientamento, dimensione e senso, la proliferazione di templates che ne risulterebbe -chiamata ESPLOSIONE COMBINATORIA- farebbe inorridire la mente. La replicazione di templates, perciò, non è una soluzione da poter essere presa in considerazione in riferimento al problema generale della rappresentazione di forme, sebbene possa invece essere sufficiente per un insieme minimo di templates molto semplici come linee e margini.
Quello della normalizzazione è un approccio un po' diverso per risolvere il problema delle trasformazioni spaziali, in stretta connessione con due idee che abbiamo già discusso: allineamenti trasformazionali e schemi di riferimento intrinseci. L'assunzione è che una teoria ragionevole della somiglianza di forme basata su template può essere costruita senza replicare i templates se l'immagine in input può prima venire trasformata o "normalizzata" in conformità a un insieme di modelli referenziali. Ad esempio, la posizione di una figura può essere normalizzata in relazione al suo centro di massa, al suo orientamento relativo alla sua dimensione più lunga e così via, come discusso nella sezione 8.1.4 considerando gli schemi di riferimento centrati sull'oggetto. Introdurre un tale processo di normalizzazione all'interno del sistema prima di confrontare i templates per somiglianza risolverebbe il problema di trasformazione spaziale per le trasformazioni di somiglianza. E' comunque improbabile riuscire a fornire una soluzione generale per il problema della somiglianza fra forme, a causa degli ulteriori problemi che altre trasformazioni spaziali introducono.
Le trasformazioni di somiglianza sembrano essere sufficienti per definire le basi di ciò che abbiamo chiamato equivalenza di forma oggettiva, ma ulteriori trasformazioni spaziali devono essere incluse se vogliamo parlare del problema più generale di somiglianza di forma. Prendiamo in considerazione deformazioni plastiche come stiramenti, schiacciature o tagli. Come mostrato dalla figura 8.2.4 queste trasformazioni possono alterare la forma "quantitativa" di una figura pur mantenendo molti aspetti della sua forma "qualitativa". Confronti semplici fra queste figure trasformate utilizzando rappresentazioni standard template non produrranno generalmente sovrapposizioni sufficientemente ampie da adeguarsi all'alta somiglianza percepita fra tali figure. Buone copie possono essere ottenute utilizzando templates normalizzati in accordo a queste trasformazioni ulteriori, ma fare questo causa nuovi e imprevisti problemi.
Un esempio del tipo di problemi che la normalizzazione estesa comporta è che alcune trasformazioni plastiche, come lo stiramento, possono cambiare proprietà importanti della figura, come ad esempio la sua dimensione più lunga. Questo cambierà l'orientamento scelto come orientamento di riferimento, cambierà il processo di normalizzazione dell'orientamento. Ad esempio, se la dimensione più lunga dell'oggetto in figura 8.2.4 fosse usata per normalizzare l'orientamento, la prima versione (schiacciata) non andrebbe d'accordo con il campione perché la sua più lunga dimensione è orizzontale e non verticale. Si potrebbe evitare questo problema provando tutte le possibili trasformazioni di normalizzazione, ma questa soluzione eviterebbe la proliferazione di templates solo scambiandoli con un'enorme complessità nel processamento di trasformazioni. Infatti, nessuno schema completo di normalizzazione generale è stato ancora inventato per le rappresentazioni template in grado di produrre predizioni ragionevoli di somiglianza di forma percepita senza alcun tipo di esplosione combinatoria. Sono stati inventati sistemi più sofisticati basati sulla trasformazione di immagini in linea le une con le altre, come dicevamo descrivendo allineamenti trasformazionali (vedi sezione 8.1.3), ma il processo di accoppiamento è basato su qualità salienti, come contorni concavi e convessi, piuttosto che templates indifferenziati. Considereremo sistemi di questo tipo più in dettaglio nel capitolo 9 quando esploreremo approcci basati sul punto di vista.
3. Il problema della struttura delle parti. Alla fine del capitolo 7 abbiamo passato in rassegna alcune evidenze sul fatto che le persone percepiscono la maggior parte degli oggetti come aventi una struttura gerarchica delle parti. Dove è, qualcuno potrebbe ragionevolmente chiedersi, questa struttura delle parti in una rappresentazione template? La risposta è che semplicemente standard templates non ce l'hanno. Esistono solo due livelli nella rappresentazione template -quello dell'intero template e quello degli elementi atomici (recettori o pixels) che sono associati all'interno del template- e non esiste nient'altro fra questi due. E' perciò difficile vedere come una rappresentazione di forma template possa avere la possibilità di predire la prestazione nel compito di verifica delle parti di Palmer (1977) per il quale la struttura delle parti è cruciale ( vedi sezione 7.6.1).
La mancanza di struttura delle parti in standard templates diventa anche problematica nel considerare la natura di accoppiamenti parziali. Ad esempio, prendiamo in considerazione due modi diversi in cui metà degli elementi di un quadrato template possono accoppiarsi con quelli di un altro template. Il triangolo nella figura 8.2.5A accoppia più o meno metà degli elementi del quadrato template così come fa il "quadrato puntinato" della figura 8.2.5B. Ma nessuna persona che ci vede direbbe che queste due figure sono ugualmente simili come forma rispetto al quadrato rappresentato nel template originale. La forma del triangolo è molto diversa, mentre quella del quadrato puntinato è virtualmente identica. Questo problema nasce dalla mancanza di un'appropriata struttura delle parti nel quadrato template. L'unica cosa che conta è il numero degli elementi che si accoppiano e questo è sostanzialmente lo stesso per entrambi i casi illustrati nella figura 8.2.5.
Ciò che è necessario è un qualche metodo generale per costruire una struttura di parti esplicita nelle rappresentazioni template. Questo può essere fatto attraverso la costruzione di templates gerarchici: templates complessi costruiti concatenando templates più semplici piuttosto che unità elementari. Un quadrato, ad esempio, può essere rappresentato combinando gli output di quattro templates di margini separati in una collocazione spaziale appropriata, come illustrato in figura 8.2.6. Presa dalle attuali teorie sulla struttura del sistema visivo nervoso, templates gerarchici sembrano essere l'unica versione possibile della proposta template. Solo un numero molto limitato di templates spaziali sembra essere rappresentato nell'area V1 della corteccia, e ulteriori processi spaziali sembrano prendere parte all'output a partire da questa regione come descritto in dettaglio nel capitolo 4, la struttura di campo recettiva delle cellule in area V1 viene generalmente considerata sia come templates di linea e margine che templates a frequenza spaziale locale. Se è così, allora altri e più complessi analizzatori di forma a livelli corticali più alti è probabile che vengano costruiti a partire da questi primitivi. Studi sull'area V4 hanno trovato cellule altamente selettive ad altri patterns oltre che a semplici linee, margini e reticoli a frequenza spaziale, ad esempio, includendo anche reticoli concentrici, radiali, spirali e iperbolici (vedi figura 4.4.3) ma non è ancora chiaro il modo in cui questi campi recettivi siano derivati dall'output delle cellule in V1.
I templates gerarchici hanno alcune caratteristiche attrattive. Primo, sono psicologicamente plausibili dal momento che sono compatibili con il fatto che l'antico sistema visivo nervoso sia ampiamente gerarchico. Campi recettivi più complessi sembrano essere costruiti mettendo insieme campi recettivi a partire dal livello più basso più vicino. Standard templates non sono compatibili con la psicologia della visione dal momento che presumono che tutte le forme possano essere rappresentate direttamente concatenando elementi retinici atomici. Secondo, se solo poche semplici parti fossero richieste -ad esempio linee rette, margini e le loro terminazioni , come nel disegno originale di Marr (1982)- sembrerebbe che i templates gerarchici possano potenzialmente risolvere il problema delle trasformazioni di somiglianza permettendo la replicazione delle parti necessarie in tutte le possibili posizioni, orientamenti, dimensioni e sensi. Come abbiamo affermato, questo sembra essere ciò che il sistema visivo nervoso fa nell'area V1 ripetendo le stesse strutture di campo recettive attraverso il campo visivo. Terzo, i templates gerarchici possono essere estesi fino a comprendere strutture delle parti di complessità arbitraria semplicemente permettendo incastramenti gerarchici di livelli addizionali. Gli angoli possono essere composti da linee e margini, forme semplici come quadrati e triangoli da linee e angoli, forme più complesse da quadrati e triangoli e così via, all'infinito. Per queste ed altre ragioni, i fisiologi spesso assumono che qualcosa che assomiglia ad uno schema di template gerarchico è il modo in cui il sistema visivo codifica la forma di oggetti complessi.
E' importante rendersi conto, comunque, che questi benefici comportano il costo di considerevole complessità in più nella rappresentazione di forme. Non abbiamo più a che fare con la semplice codifica di "forma come forma", ma con una versione complessa di questa. Questo porta importanti conseguenze. Ad esempio, la semplice misura di somiglianza di forma di cui abbiamo discusso all'inizio in termini di correlazione non è più appropriata. Può ancora essere utilizzata al livello più basso in cui si trovano standard templates, ma gli accoppiamenti a livelli più alti richiedono alcune integrazioni più complesse degli input componenti che si ricevono dalle unità di livello più basso. Inoltre una qualche via di principio risulta necessaria per specificare la "collocazione appropriata" di templates a livello più basso. Se i template fondamentali per margine e linea sono semplicemente hard-wired per le unità dei livelli più alti, lo stesso problema di forma generalizzata oltre le trasformazioni di somiglianza si presenterà, per cui sarà ancora necessario che ci sia un template ad alto livello diverso per ogni forma in ogni posizione, orientamento, dimensione e così via. Per evitare questo problema deve essere trovata qualche via che specifichi la sistemazione dei templates fondamentali in maniera più generale. Una possibilità è di posizionare i templates a basso livello attraverso le loro coordinate in un singolo schema di riferimento centrato sull'oggetto. Un'altra soluzione è specificare la posizione delle parti in relazione l'una con l'altra. Gli schemi più utili per fare questo ci porteranno oltre il dominio delle rappresentazioni template, comunque. Descriveremo più tardi un approccio quando considereremo la classe di rappresentazioni di forma conosciute come descrizioni strutturali.
4. Il problema della tridimensionalità. Oltre ad essere problematici per la rappresentazione delle forme di semplici quadrati e triangoli, i templates sono persino meno soddisfacenti per rappresentare la forma di sedie, cani e corpi umani. Il nuovo importante problema che nasce da questi esempi è che i templates sono bidimensionali mentre la maggior parte delle forme degli oggetti è tridimensionale. I templates abbracciano l'apparentemente semplice approccio del rappresentare la forma come forma, ma questa semplice idea diventa meno attraente quando la rappresentazione d forma ha più bassa dimensionalità rispetto alla forma che si vuole rappresentare.
Ci sono solo due modi per far corrispondere la dimensionalità dei templates a quella 3-D degli oggetti, e nessuno dei due risulta particolarmente soddisfacente. Uno è quello di rendere i templates stessi tridimensionali come gli oggetti. Questo renderebbe uguali la dimensionalità degli oggetti e quella dei templates, ma sfortunatamente il processo di accoppiamento deve essere mediato dalla retina, che è soltanto bidimensionale. Ciò significa che i templates 3-D dovrebbero essere costruiti a partire da un processo più complesso che integri diverse visioni 2-D in una singola rappresentazione 3-D. L'altra soluzione è rendere la rappresentazione interna di oggetti 3-D bidimensionale rappresentando proiezioni 2-D delle loro forme. Qui l'apparente difficoltà è che molti templates diversi sarebbero necessari -al limite uno per ogni distinta prospettiva visiva-. Questo porterebbe ad una proliferazione di templates per complessi oggetti 3-D, sarebbero necessari forse decine o addirittura centinaia di templates per un singolo, ragionevolmente complesso oggetto 3-D.
Nonostante questi problemi, il valore di rappresentazioni template simili ad uno specifico punto di vista è stato esplorato recentemente da teorici computazionali che hanno dimostrato che alcuni templates possono essere immagazzinati se esistono processi che consentono che punti di vista intermedi derivino da quelli immagazzinati più vicino. Sfortunatamente, questa soluzione è possibile solo a spese di un considerevole incremento nella complessità del processamento, e non fa nulla per risolvere gli altri problemi inerenti alle rappresentazioni simili a template che abbiamo menzionato prima, come la loro mancanza di struttura delle parti (vedi Hummel, in corso di stampa) o la loro sensibilità a diversi modi di input o canali sensoriali. Ritorneremo sul problema della tridimensionalità molte volte, dal momento che è un ostacolo per tutte le teorie sulla rappresentazione di forma, non solo per i templates.

 


8.3 BONTÀ DELL'IMMAGINE E PREGNANZA

Gli psicologi della Gestalt identificarono un aspetto dell'esperienza percettiva che deriva dalla forma dell'oggetto e lo chiamarono "buona Gestalt", letteralmente "buona forma".
Nella letteratura moderna il termine più usato per rappresentare la stessa idea è bontà dell'immagine.
La bontà dell'immagine è l'aspetto dell'esperienza percettiva che forse è meglio descritto come
un composto di semplicità, ordine e regolarità di un oggetto.
Alcune forme come il cerchio in fig.8.3.1A sembrano più semplici e regolari rispetto a figure come B. I motivi per cui la bontà dell'immagine può essere importante per la percezione di forme, a prescindere dalla sua componente fenomenologica, possono essere diversi.
Una possibilità è che le figure "buone" possono essere elaborate più efficientemente delle figure "cattive" dal sistema visivo.
Lo psicologo Wendell Garner (1974) dell'Università di Yale fece degli studi su come le persone percepiscono, descrivono e ricordano semplici patterns visivi, ed eseguì molti esperimenti a dimostrazione che la performance umana in diversi lavori è strettamente connessa con la valutazione, che le persone danno, riguardo la soggettiva "bontà" delle figure.
Per esempio, egli trovò che le persone possono:
1) accoppiare 2 figure "buone" per identità fisica più velocemente rispetto a 2 figure "cattive";
2) ricordare figure "buone" più accuratamente di quelle "cattive";
3) descrivere figure "buone" con meno parole rispetto a quelle "cattive", e
4) apprendere figure "buone" più velocemente di quelle "cattive".
Sembra che il sistema visivo sia particolarmente sensibile al tipo di struttura che i patterns "buoni" possiedono, e fa uso di esso nell'elaborazione dell'informazione sulla forma.
I teorici della Gestalt, nelle loro teorie sulla percezione visiva, diedero molta importanza alla bontà dell'immagine, loro credevano che essa determinasse il modo in cui tutta la percezione è organizzata.
Questo punto di vista è stato espresso nel loro "Principio della pregnanza": la percezione sarà tanto "buona" quanto permettono le condizioni predominanti.
In effetti, essi affermarono che sono possibili molte percezioni diverse per ogni figura data e la bontà dell'immagine determina quale di queste è effettivamente percepita.
Sfortunatamente, i teorici della Gestalt non riuscirono mai a formulare una teoria esplicita sulla percezione della forma basata su tale nozione, ma più tardi lo fecero altri.

8.3.1 TEORIE SULLA BONTÀ DELL'IMMAGINE

Il principale fattore che influenza la bontà dell'immagine è il numero di parti che compongono un oggetto. La fig.8.3.2 dimostra come l'aumento di complessità di una figura ha effetto sulla bontà dell'immagine; le figure con meno lati tendono ad essere percepite migliori di quelle con più lati.
Comunque, il numero di parti non è tutto, dato che alcuni oggetti possono differire nella bontà dell'immagine persino se hanno lo stesso numero di componenti fisiche.
Per esempio si consideri il set di figure a quattro lati rappresentato in fig.8.3.3: è una dimostrazione di come l'aumento d'irregolarità pregiudica la bontà dell'immagine; sebbene tutte queste figure abbiano esattamente lo stesso numero di lati le persone generalmente concordano che c'è una progressione dalla forma più semplice sulla sinistra a quella più complessa sulla destra.
(I numeri rappresentati sotto le figure corrispondono alla loro informazione caricata in accordo con la teoria dell'informazione strutturale, esposta nel paragrafo 8.3.2).
Sicuramente le differenze dipendono dal modo in cui sono disposte le linee.
I teorici della Gestalt credevano che la bontà dell'immagine fosse fondamentalmente irriducibile a proprietà frammentarie come il numero di componenti o le loro interrelazioni, se essa doveva essere analizzata nella sua interezza, loro pensavano che doveva essere fatto in termini di proprietà globali come la simmetria bilaterale.

TEORIA DELL'INFORMAZIONE CLASSICA
La prima avanzata significativa nelle teorie oggettive della bontà dell'immagine arriva dall'impiego di concetti di base della teoria dell'informazione di Claude Shannon.
La teoria dell'informazione è una teoria matematica della comunicazione che misura ?a commodity
(in bit) che dipende dal grado di predicibilità o di certezza associati ad un dato segnale in un determinato contesto comunicativo. (Bit è un'abbreviazione di cifra binaria, definito come l'ammontare delle informazioni necessarie per ridurre a metà il numero di alternative ugualmente probabili. …)
Shannon chiamò questa commodity "informazione", sebbene la relazione con la comune nozione di informazione è forse meno ovvia di quanto potrebbe sembrare.
Le relazioni tra la teoria dell'informazione e il concetto di bontà dell'immagine della Gestalt sono state formulate da Attneave (1954) e da Hochberg e McAlister (1953).
Essi capirono che se il sistema percettivo codifica ottimamente le figure attraverso l'eliminazione di tutte le ridondanze -per esempio, simmetrie e ripetizioni- le figure "buone" possono essere codificate e immagazzinate molto più efficientemente di quelle "cattive".
Il termine "efficienza" qui si riferisce alla codifica della forma di una figura con minor numero di "bit" d'informazione.
In effetti, essi proposero che le buone figure fossero descritte con meno bit di quelle cattive.
L'analisi informazionale sulla bontà dell'immagine era basata sulla scomposizione in componenti periferiche come angoli e linee e sull'analisi delle loro regolarità strutturali, come l'uguaglianza delle grandezze degli angoli oppure le lunghezze delle linee all'interno della stessa figura.
Un quadrato e un quadrilatero irregolare, come quelli illustrati in fig.8.3.3, sono formati entrambi da quattro linee e quattro angoli, ma il quadrato è "migliore" del quadrilatero irregolare perché tutti i suoi lati hanno la stessa lunghezza, e tutti i suoi angoli misurano 90°.
Queste regolarità significano che sono richiesti meno bit d'informazione per descriverlo, sebbene i teorici dell'informazione non sono mai stati tanto chiari riguardo a cosa le descrizioni dovevano assomigliare o quanti bit d'informazione conteneva una figura data.
Queste analisi informazionali furono generalmente considerate un progresso delle idee della Gestalt, perché essi mostrarono che le figure "buone" erano oggettivamente più semplici di quelle "cattive" in un senso ben definito.

SOTTOINSIEMI DI ROTAZIONE E RIFLESSIONE
Sebbene i teorici dell'informazione abbiano cercato di spiegare il costrutto Gestaltista della bontà dell'immagine in termini oggettivi, le loro idee non si sono ben inserite nello stile Gestaltista di spiegazione, il quale generalmente opponeva le teorie ?piecewise della percezione (Wertheimer 1924/1950).
Una formulazione che è più in accordo con l'approccio olistico della teoria Gestaltista fu proposta da Garner (1974). Egli propose che le figure sono "buone" nel limite in cui esse sono uguali alla versione trasformata di loro stesse. Garner formulò questa nozione nella sua teoria dei sottoinsiemi di rotazione e di riflessione (R & R).
Quando un set di trasformazioni spaziali è applicato ad una figura, esso produce un set di varianti trasformazionali di quella figura.
L'osservazione chiave nella teoria di Garner sulla bontà dell'immagine è che le figure migliori producono minori varianti trasformazionali.
Nella formulazione originale di questa teoria Garner e Clement (1963) usarono dei semplici patterns consistenti in cinque puntini contenuti in un quadrato e applicarono a questi un set di otto possibili trasformazioni: quattro rotazioni centrali (attraverso angoli di 0°, 90°, 180° e 270°) e quattro riflessioni centrali (sull'asse verticale, orizzontale, diagonale sinistro e destro).
Applicando queste trasformazioni ad una data figura si definiscono il suo set di rotazione e quello di riflessione, all'interno dei quali vi è un sottoinsieme di diverse figure distinguibili chiamato sottoinsieme R& R (sottoinsieme di rotazione e riflessione), rappresentato in fig.8.3.4 con il numero di varianti trasformazionali.
La fig.8.3.4 rappresenta gli stimoli usati per studiare la bontà dell'immagine: la bontà dell'immagine di ognuno dei cinque patterns nella prima colonna a sinistra può essere predetta dalla grandezza del suo sottoinsieme di rotazione e di riflessione (R & R), come proposto da Garner e Clement (1963), e dalle trasformazioni nel suo sottogruppo di simmetria come proposto da Palmer (1983). Garner e Clement scoprirono che i patterns considerati "buoni", come il primo in alto a sx, avevano meno varianti trasformazionali rispetto a quelli valutati "cattivi", come l'ultimo in basso.
Perciò essi proposero che la bontà dell'immagine fosse una funzione inversa della misura del loro sottoinsieme R & R.
Quest'analisi è molto attraente dal punto di vista della Gestalt perché si applica a tutte le figure, non c'è un criterio secondo il quale i patterns devono essere scomposti in piccoli parti per poterla applicare; infatti, i paterna che rimangono uguali anche dopo essere stati riflessi rispetto una linea posta al loro centro sono proprio quelli che possiedono simmetria bilaterale, il prototipo della Gestalt per la bontà dell'immagine.
Garner non espresse la sua teoria in termini di simmetria perché egli scoprì che anche l'invarianza rotazionale era importante, e questo non sembrava accordarsi con l'idea di simmetria, almeno nel senso comune del termine.
Comunque, l'invarianza rotazionale concorda perfettamente con la moderna definizione matematica di simmetria, un fatto che costituisce la prima pietra della rianalisi di Palmer sulla bontà dell'immagine in termini di sottogruppi di simmetria.

SOTTOGRUPPI DI SIMMETRIA
La teoria di Garner basata sulla misura del sottoinsieme R & R è capace di giustificare una grande porzione di differenze che risultano dalle stime della bontà di questi patterns, ma c'è da osservare che questa misura accumula insieme diversi tipi di strutture qualitativamente differenti.
Per esempio, si considerino le figure delle tre righe al centro in fig.8.3.4: hanno tutte esattamente quattro diverse varianti trasformazionali nel loro insieme R & R, ma, la prima è simmetrica bilateralmente rispetto l'asse verticale, la seconda lo è rispetto l'asse diagonale destro e la terza non è simmetrica bilateralmente.
Molte persone trovano la figura verticalmente simmetrica migliore delle altre due e anche molte ricerche supportano quest'idea (ad es. Chipman, 1977; Palmer, 1991; Palmer & Hemenway,1978; Royer,1981), la conclusione è quindi, che non tutte le differenze possono essere espresse in termini di sottoinsieme R& R, perché alcune figure hanno lo stesso numero di varianti trasformazionali.
Una possibile soluzione è suggerita dalla struttura di simmetria: ogni figura può essere caratterizzata dal tipo di simmetria che possiede, e quindi si differenzia tra simmetria bilaterale rispetto l'asse verticale, orizzontale e diagonale.
Ma cosa si può dire della figura nella 4° riga (fig. 8.3.4) che non possiede simmetria bilaterale?
Succede che alcune figure sono altresì simmetriche, ma di un tipo diverso.
Nella matematica moderna l'analisi della simmetria è data in termini di invarianza trasformazionale (Weyl,1952), quindi, una figura è simmetrica rispetto ad una data trasformazione se applicando questa trasformazione la figura non cambia.
Per l'esempio standard di simmetria bilaterale (o immagine allo specchio), la trasformazione basilare è riflessione di una figura rispetto l'asse di simmetria; così, un pattern verticalmente simmetrico, come una A o una T, è lo stesso prima e dopo essere stato riflesso rispetto una linea verticale che passa per il suo centro. In questo quadro generale, la simmetria rotazionale ha esattamente la stessa forma della simmetria bilaterale, eccetto il fatto che la trasformazione coinvolta è una rotazione centrale attraverso uno specifico angolo, ad es. patterns che hanno una simmetria rotazionale di 180° (come S, N e Z) rimangono gli stessi anche dopo essere stati ruotati di 180° rispetto i loro centri, oppure, patterns con una simmetria rotazionale di 90°, come una svastica, rimangono inalterati anche dopo essere stati ruotati di 90° rispetto il loro centro.
(Da notare che patterns con due simmetrie di riflessione (come H, O e X) hanno sempre una simmetria rotazionale di 180°).
Il sottogruppo di simmetria di una data figura può perciò essere considerato il sottoinsieme di trasformazioni spaziali che la lasciano invariata.
nota [Risulta che i sottoinsiemi così costruiti hanno alcune particolari proprietà strutturali, il cui effetto è che non tutti i possibili sottoinsiemi di trasformazione possono essere dei sottoinsiemi di simmetria (es. H o X) senza avere anche una simmetria rotazionale di 180°. Allo stesso modo, un pattern non può avere una simmetria di rotazione di 90° (es. svastica), senza avere anche una simmetria rotazionale di 180° e 270°. Questa struttura addizionale di sottoinsiemi simmetrici li qualifica come casi di gruppi e sottogruppi matematici piuttosto che insiemi e sottoinsiemi.]
La colonna più a destra in fig.8.3.4 mostra i sottogruppi di simmetria per i patterns, costituiti da cinque puntini, di Garner. Da notare che i patterns "migliori" hanno più simmetrie (cioè più trasformazioni nei loro sottogruppi di simmetria) rispetto quelli "poveri"; per questa ragione Palmer (1991) propose che la bontà dell'immagine fosse identificata attraverso il suo sottogruppo di simmetria. Data la stretta relazione tra il sottoinsieme R& R di Garner e i sottogruppi di simmetria di Palmer non sorprende che anche la loro struttura quantitativa sia strettamente collegata, infatti, il numero di trasformazioni nel sottogruppo di simmetria di un pattern è l'inverso della misura del suo sottoinsieme R & R, rispettando il set completo di trasformazioni : R*S=T, dove R è la misura del sottoinsieme R&R, S è la misura del sottogruppo di simmetria, e T è la misura del gruppo totale di trasformazioni.
Questa relazione ha senso perché le due teorie differiscono unicamente per quanto riguarda una teorica inversione figura/sfondo: Garner si focalizzò sui patterns generati dal gruppo di trasformazioni, mentre Palmer si focalizzò sulle trasformazioni che lasciano invariati i patterns.
Nonostante questa stretta relazione, ci sono importanti vantaggi nell'analisi in termini di sottogruppi di simmetria., la differenza cruciale è che gli elementi costitutivi di tali sottogruppi provengono da un set di trasformazioni fisse, che sono le stesse per tutte le possibili figure.
I sottogruppi di simmetria possono perciò, essere confrontati direttamente attraverso differenti figure per possibili effetti dell'identità delle trasformazioni nel sottogruppo; questo non è possibile con il sottoset R& R, perché i suoi elementi sono figure che non possono essere significativamente comparate attraverso differenti figure. Solo il numero di figure nel sottoset R& R può essere confrontato attraverso figure, questo è il motivo per cui le tre figure nel mezzo della fig.8.3.4 hanno la stessa la stessa grandezza nel sottoinsieme R& R- e lo stesso numero di simmetrie- ma diverse trasformazioni nei loro sottogruppi di simmetria.

8.3.2 TEORIA DELL'INFORMAZIONE STRUTTURALE

Questa teoria inizialmente chiamata teoria dei codici, formulata dallo psicologo olandese Emanuel Leeuwenberg (1971), fornisce un metodo per costruire differenti descrizioni della forma di uno stesso oggetto e per rapportarle alla percezione per mezzo del principio di Pregnanza della Gestalt.
Le descrizioni della forma sono ricavate dalla teoria dell'informazione strutturale attraverso la produzione e la semplificazione di descrizioni percettive chiamate codici, che sono sufficienti per creare la figura. La bontà dell'immagine e la Pregnanza sono poi introdotte nella teoria attraverso una misura chiamata carico d'informazione, che è usata per identificare il "miglior" codice possibile. Leuweenberg sostiene che l'alternativa percepita da molti osservatori è l'unica ad avere il codice più semplice (o rappresentazione della forma) come misurato dal più basso carico d'informazione.
Non solo la teoria fornisce buone spiegazioni circa la bontà dell'immagine, ma ha spiegato con successo un gran numero di effetti, come la percezione oggetti parzialmente occlusi e di oggetti trasparenti. Lo schema generale della teoria dell'informazione strutturale è il seguente:
1. Costruire un codice primitivo tracciando il contorno della figura e descrivendolo come una sequenza di segmenti di linee e di angoli tra essi contenuti.( Questa descrizione è molto simile alla rappresentazione della figura nel linguaggio del computer della "turtle geometry", LOGO).
2. Usare un set di operatori semantici (o regole riscritte) per semplificare il codice primitivo attraverso la rimozione di più ridondanze strutturali possibili. I codici semplificati che risultano sono chiamati codici ridotti.
3. Calcolare il carico d'informazione di ogni codice ridotto contando il numero di parametri (valori numerici) in esso contenuti. Questo valore corrisponde approssimativamente alla bontà dell'immagine della percezione che contiene la struttura specificata del codice ridotto.
4. Il codice ridotto con il minor carico d'informazione, chiamato codice minimo, è l'unico che la teoria dell'informazione strutturale prevede sarà percepito più spesso. Gli altri potranno essere percepiti con una probabilità che dipende dal loro carico d'informazione.
Con i termini di Marr questa si può definire una teoria computazionale, non algoritmica, perché descrive solamente la relazione tra i patterns in input e le possibili rappresentazioni della loro forma, piuttosto che il processo attraverso il quale questi risultati sono raggiunti.

CODICI PRIMITIVI
Per capire come la teoria dell'informazione strutturale produce descrizioni della forma, si può prendere in esempio la codificazione di un quadrato (fig. 8.3.5).
La stringa di simboli del codice primitivo consiste in una sequenza di numeri (1) rappresentanti la lunghezza della linea disegnata nella direzione presente e (2) gli aggiustamenti angolari fatti dopo che il precedente segmento di linea è stato disegnato. Perciò il codice primitivo per un quadrato di lunghezza di lato L, che inizia dall'angolo superiore sinistro e prosegue verso il basso, sarà la stringa di simboli:
L 90 L90 L90 L90.
Questo codice è un caso speciale della descrizione generale di ogni arbitrario quadrilatero, che può essere espressa come
W a X b Y c Z d,
dove W,X,Y e Z rappresentano le lunghezze dei quattro lati e a,b,c e d rappresentano le grandezze dei quattro angoli. Sostituendo queste variabili con gli appropriati valori si potrebbe descrivere ogni quadrilatero della figura 8.3.3.

RIMOZIONE DI RIDONDANZE
Il più semplice e regolare quadrilatero riceve una semplice descrizione nella teoria dell'informazione strutturale attraverso la rimozione di ridondanze nel codice primitivo. Per esempio, il codice per il quadrato contiene quattro ripetizione della sequenza (L90); questa regolarità può essere eliminata dalla stringa applicando l'operatore di iterazione, una regola riscritta
che riduce il codice primitivo ad una più semplice e corta stringa di simboli.
L'operatore di iterazione sostituisce una stringa di simboli, S, che consiste di n ripetizioni di una sottosequenza, X, con una stringa di simboli, n*X. La regola riscritta di iterazione può essere specificata come segue:
S-->n*(X), dove la freccia significa "è riscritto come".
Nel caso della descrizione di un quadrato, questo significa che il codice primitivo può essere riscritto come il codice ridotto
L90 L90 L90 L90--> 4* (L90).
Questo codice corrisponde al percepire la simmetria rotazionale di 90° del quadrato, ma non le simmetrie bilaterali; ci sono differenti operatori semantici (o regole riscritte) nella teoria dell'informazione strutturale che permettono di ridurre la complessità in stringhe di simboli.
I tre più importanti sono:
1. Iterazione: l'operatore d'iterazione elimina le sequenza ripetute e le sostituisce con un parametro, n, che indica il numero d'iterazioni e una specificazione della substringa ripetuta:
S-->n*(X).
Un esempio di questa applicazione potrebbe essere il seguente:
a b c a b c a b c -->3*(a b c).

2. Simmetria: l'operatore di simmetria elimina la simmetria di immagini allo specchio in sequenze e la sostituisce attraverso un simbolo, SYM, che indica l'operazione di simmetria e la sottostringa alla quale è applicato:
S-->SYM (X).
Può essere illustrato nel seguente esempio:
a b c c b a --> SYM (a b c ).

3. Distribuzione: l'operatore di distribuzione elimina l'alternanza tra una sottostringa e una serie di altre sottostringhe e la sostituisce con un paio di sottostrighe tra parentesi angolari indicanti le due sottostringhe interposte:
S--> <X><Y>.
Un esempio potrebbe essere la seguente riduzione:
a b a c a d --> <a> <b c d>.

CARICO D'INFORMAZIONE
Intuitivamente, la semplicità o la "bontà" di un codice ridotto corrisponde alla compattezza della sua descrizione , finché le regole riscritte permettono a stringhe molto lunghe di essere riscritte più corte. Nei termini della teoria dell'informazione strutturale, la bontà può essere definita come misura del carico d'informazione di una particolare stringa di codici, scritta come I(S), che corrisponde al numero di parametri contenuti nella descrizione.
Nel caso del codice primitivo per il quadrato, il carico d'informazione è 8, una unità per ogni lunghezza ed una per ogni angolo contenuti nella descrizione; nel caso del codice ridotto, 4*(L 90), il carico d'informazione è 3: un'unità rappresenta il numero d'iterazioni (4), una rappresenta la lunghezza (L), e un'altra la misura dell'angolo (90). Perciò questo codice ridotto è molto più semplice del codice primitivo, e corrisponde ad un "miglior" percetto nella teoria della Gestalt, perché riflette la percezione di regolarità sotto forma di simmetria rotazionale.
Ma è il codice ridotto il più semplice di tutti i possibili codici per il quadrato?
Questa è una domanda importante perché, in armonia con il principio Gestaltista della Pregnanza, la teoria dell'informazione strutturale propose che il percetto più facilmente percepito è quello con il minor carico d'informazione.
Ci sono molti altri codici per un quadrato che corrispondono al vedere aspetti differenti della sua struttura; il codice (4*(L 90)), esplicitamente codifica la simmetria rotazionale di 90° di un quadrato, ma non cattura la più saliente delle sue proprietà globali: le sue quadruplici simmetrie di riflessione, come invece potrebbe fare un altro codice.
Per vedere come una descrizione può essere generata, si inizia dal centro di un lato e si codificano tutti i lati come segmenti adiacenti di lunghezza L/2 e gli angoli come due adiacenti rotazioni di 45°; il codice primitivo sarebbe
L/2 45 45 L/2 L/2 45 45 L/2 L/2 45 45 L/2 L/2 45 45 L/2 , sebbene questo codice primitivo è più lungo di quello inizialmente considerato per il quadrato, può essere codificato in un più semplice codice ridotto tramite tre applicazioni interrelate dell'operatore simmetrico:
(SYM (SYM (SYM (L/2 45)))).
Questa descrizione ha un carico d'informazione di 2 unità: una per il parametro lunghezza, L/2, e l'altra per il parametro angolo, 45°. (L'operatore di simmetria, SYM, non conta nel carico d'informazione perché non ha un parametro associato, al contrario dell'operatore d'iterazione.)
Il codice ridotto che specifica le simmetrie di riflessione di un quadrato è il suo codice minimo, e questo corrisponde bene con le simmetrie bilaterali che molte persone percepiscono in un quadrato.
La teoria dell'informazione strutturale può essere applicata ad ogni quadrilatero della figura 8.3.3 per predirne la bontà dell'immagine; il carico d'informazione del codice minimo delle figure è rappresentato sotto ognuna: il quadrato ha il minor carico d'informazione (2), seguito dal rettangolo e dal rombo (4), dal parallelogramma (5), dal trapezio (6), e infine dal quadrilatero irregolare (8).
L'ordine in cui è disposto il carico d'informazione corrisponde bene con l'ordine della bontà percepita per queste figure.

APPLICAZIONI ALL'ORGANIZZAZIONE PERCETTIVA
La teoria dell'informazione strutturale è usata non soltanto per percepire la bontà dell'immagine delle forme, ma anche per esprimere un'organizzazione percettiva in un numero di potenziali situazioni ambigue, come il completamento di figure parzialmente occluse e la trasparenza.
Esamineremo il caso di un quadrato parzialmente occluso da un altro (fig.8.3.6); per prima cosa considereremo tre delle possibili interpretazioni percettive di quest'immagine:
la più usuale consiste nel vedere un quadrato più scuro dietro uno più chiaro, l'interpretazione a mosaico consiste nel vedere un quadrato confinante con una figura a forma di L rovesciata, e la terza consiste nel percepire un quadrato con l'angolo tagliato dietro un altro quadrato.
Il codice per il quadrato bianco è uguale per tutte e tre le interpretazioni, mentre quello per la figura scura cambia: il codice minimo ha un carico d'informazione minore per il quadrato della 1° interpretazione (2), rispetto a quello delle altre due, che corrisponde allo stesso valore (5); questo significa che, la teoria dell'informazione strutturale è capace di predire che le persone percepiscono quest'immagine scura come un quadrato parzialmente occluso piuttosto che nel modo descritto dalle altre due interpretazioni.
È interessante il fatto che la teoria dell'informazione strutturale è capace di predire anche, che le persone tenderanno a completare l'ottagono in fig.6.4.7A, ma non le croci in fig. 6.4.7B, perché la simmetria delle croci è sufficiente a rendere il loro codice minimo più semplice di quello che avrebbe la loro alternativa completata.
La teoria dell'informazione strutturale è strettamente in relazione con le tre teorie esposte in precedenza, infatti:
· come l'analisi teoretica dell'informazione di Attneave (1953) e Hochberg e McAlister (1953), identifica le figure "buone" tramite le descrizioni di queste ottenute dopo la rimozione delle ridondanze;
· come sia la teoria del sottoinsieme R&R di Garner (1974) e sia la teoria del sottogruppo di simmetria di Palmer (1991), le rindondanze che essa rimuove dai codici sono in relazione con le simmetrie di rotazione e riflessione.
Ma la teoria dell'informazione strutturale va significativamente oltre queste altre teorie perché specifica anche una rappresentazione attuale della forma e la usa per predire cosa le persone percepiscono in situazioni ambigue.

FORZE
La teoria dell'informazione strutturale può facilmente trattare del problema di trasformazioni di somiglianza perché il codice minimo è indipendente dalla posizione, misura, orientamento e riflessione di una figura. Queste variabili sono effettivamente scomposte nella iniziale posizione, direzione e lunghezza del lato della variabile usate nel generare il codice.

DEBOLEZZE
La teoria dell'informazione strutturale affronta anche un numero di serie difficoltà:
1. non può essere direttamente applicata ad immagini su scala di grigio, come molte teorie psicologiche essa lavora su ideali disegni lineari. Essa perciò richiede un pre-elaboratore che riduca l'immagine su scala di grigio ad immagini contenenti solo contorni puliti, perciò eliminando il problema di differenti canali di immissione.
2. Non contiene nessuna codificazione esplicita di parti eccetto semplici linee o curve; concavità e convessità sono trattate essenzialmente allo stesso modo e a dispetto di tutte le strutture rappresentate nei codici minimi nessuna di queste è in relazione con le parti. La figura 8.3.7 illustra tre figure di cui i numeri differenti di parti non potrebbero essere riflessi nei loro codici minimi. ( Fig 8.3.7 le persone generalmente percepiscono queste figure come contenenti una (A), due (B) e tre (C) parti, tuttavia i loro codici minimi non riflettono questo fatto nella teoria dell'informazione strutturale).
3. E' facile vedere come si applica la teoria dell'informazione strutturale a figure bidimensionali ma è più difficile per quelle tridimensionali, queste ultime possono essere generate facendo scorrere la figura bidimensionale lungo un'asse.
4. L'unico modo per garantire che l'interpretazione percettiva è la sola con il minor carico d'informazione è confrontare tutti i possibili codici. Questo è difficile, ed in molti casi impossibile, per esempio, nel caso del quadrato parzialmente occluso ci sono un numero infinito di completamenti logicamente possibili, ed ovviamente non possono essere tutti calcolati e confrontati.
5. La simmetria approssimata come l'esempio in fig.8.3.8 non può essere catturata dalla teoria dell'informazione strutturale usando l'operatore di simmetria perché la sua simmetria è imprecisa; per questo motivo molte persone spontaneamente la percepiscono come approssimatamente simmetrica rispetto il suo asse verticale.
6. La teoria dell'informazione strutturale non è una teoria d'elaborazione, non specifica l'attuale elaborazione o algoritmo che il sistema visivo dovrebbe usare per derivare il codice ridotto con il minor carico d'informazione. Molto più problematico è, però, il fatto che non c'è un metodo computazionale per la costruzione di codici minimi, eccetto sotto condizioni molto ristrette.

Collaborators

I am the leader of the Neuromorphics Lab, a highly collaborative lab with connections across both academia and industry.