Come insegnare ai computer a vedere

Tommaso Poggio,

neuroscienziato e "Eugene Mcdermott Professor" al Massachusetts Institute of Technology (MIT) di Boston che si occupa di progetti dedicati alla visione dei computer - come quelli per lo sviluppo dei sistemi ingegnerizzati per il riconoscimento dell’immagine - ha sempre creduto che la distanza tra "computer science" e le neuroscienze fosse incolmabile.

Fino a quando, circa un anno fa, la sua prospettiva è cambiata di colpo e in maniera radicale: il punto di svolta è stata una scoperta sorprendente; un modello preliminare, su cui stava lavorando da cinque anni che applica le conoscenze sulla corteccia visiva e si è rivelato addirittura migliore dei più efficienti sistemi ingegnerizzati per alcuni compiti di riconoscimento di immagini naturali estremamente complesse. Un risultato che lo ha convinto ad investire tempo ed energie nella comprensione di come la corteccia visiva del cervello identifica gli oggetti e le scene.

Cerchiamo di descrivere il suo approccio innovativo:

Il sistema visivo umano individua rapidamente e senza sforzo un gran numero di oggetti nell’ambiente naturale. In particolare è in grado di categorizzare immagini come i volti e poi identificarli uno a uno. Tuttavia questa capacità - fondamentale nella visione dei computer - è di difficile applicazione per le macchine ed è considerata un problema computazionale di non facile risoluzione.

Grazie alla ricerca sui primati svoltasi nell’ultimo decennio si hanno molti dati sui meccanismi corticali del identificazione che sembrano confermare e approfondire una serie di teorie ormai condivise della neuropsicologia. E, se queste sono le informazioni, che cosa possiamo dire della nostra comprensione attuale del riconoscimento visivo? Siamo liberi insomma di sviluppare una teoria che ci conduca a un modello in grado di far processare le immagini a un computer proprio come fa il nostro cervello?

Uno dei primi modelli di riconoscimento visivo degli oggetti è stato il «Neocognitron» di Fukushima nel 1980 ed è servito di base per la teoria più recente: questa, a sua volta, è il prodotto di numerose simulazioni al computer che tentano di mettere insieme un gran numero di dati sia anatomici sia fisiologici.
Un approccio del genere unifica livelli diversi di analisi, dalla computazione alla psicofisica, fino alla fisiologia e all’anatomia. Il risultato più interessante è che il modello ottenuto funziona meglio di molti dei più recenti sistemi di «computer vision» destinati a compiti di riconoscimento di immagini naturali. La sua caratteristica vincente è di avere un comportamento simile a quello di una persona che deve catalogare immagini molto velocemente e senza l’ausilio di movimenti oculari, rispondendo con lo stesso livello di correttezza e persino facendo errori sulle stesse immagini.

"Purtroppo però siamo ancora lontani dal risolvere l'intricato enigma della visione", dice Poggio, "in quanto essa va al di là del semplice riconoscimento degli oggetti e la corteccia visiva del cervello è molto di più di una semplice area dedicata alle funzioni della visione stessa".

"Inoltre nella sua forma attuale il modello non è in grado di replicare la visione normale di tutti i giorni, che richiede i movimenti oculari e una serie di processi di attenzione che vengono mediati da diverse aree cerebrali".

Ora la questione aperta è se nei prossimi anni si potranno estendere questi risultati promettenti, creando una teoria completa della visione. L’approccio richiede i diversi contributi della fisiologia, della psicofisica, del fMRI (le immagini a risonanza magnetica) e anche delle ricerche sull’Intelligenza Artificiale. Il progetto dovrebbe portare non soltanto a comprendere una parte importante del nostro cervello, ma anche a costruire macchine che imparano a vedere. Ciò potrebbe significare che è arrivato il momento per l’Intelligenza Artificiale di farsi guidare dalle scoperte delle neuroscienze.