Tema 3. Procesamiento de la estructura espacial de la imagen PDF

Title Tema 3. Procesamiento de la estructura espacial de la imagen
Course Atención y percepción
Institution Universidad de Jaén
Pages 15
File Size 1.6 MB
File Type PDF
Total Downloads 99
Total Views 152

Summary

Download Tema 3. Procesamiento de la estructura espacial de la imagen PDF


Description

Procesamiento de la estructura espacial de la imagen

TEMA 3. PROCESAMIENTO DE LA ESTRUCTURA ESPACIAL DE LA IMAGEN 1. Objetivos 2. Introducción 3. Análisis de la frecuencia espacial 3.1. Estímulos para estudiar la frecuencia espacial 3.2. Función de sensibilidad al contraste 3.3. Teorema de Fourier y procesamiento espacial de la imagen 3.4. Estudios empíricos en torno al papel de la FE y el teorema de Fourier 3.5. Codificación neural de la Frecuencia Espacial 4. El esbozo primario en bruto 4.1. Nivel computacional 4.2. Nivel algorítmico 4.3. Nivel de implementación 5. El esbozo primario completo 6. Bibliografía recomendada

1. OBJETIVOS Los objetivos del presente módulo de aprendizaje son los siguientes: 1) Comprender a qué hacemos referencia con la noción de procesamiento de la estructura espacial de la imagen visual. 2) Entender el conjunto de términos asociados al análisis de la frecuencia espacial, así como el papel que este parámetro de la luz tiene de cara a que el sistema visual adquiera información sobre la disposición espacial de la luz en la imagen. 3) Analizar las implicaciones que tiene la Función de Sensibilidad al Contraste de cara a conocer y predecir la respuesta del sistema visual a los cambios de intensidad luminosa del entorno. 4) Conocer los mecanismos neurales implicados en la codificación de la estructura espacial de la imagen. 5) Comprender y saber desarrollar los distintos aspectos contemplados en la teoría sobre la visión de David Marr acerca de las capacidades del sistema visual para determinar la estructura y composición de nuestro entorno a partir de los efectos que éste produce en términos de imágenes visuales.

1

Procesamiento de la estructura espacial de la imagen

2. INTRODUCCIÓN En general, los trabajos de Hubel y Wiesel (1965) sobre la selectividad de respuesta de las neuronas de V1 pueden considerarse el punto de partida de una serie de planteamientos teóricos sobre la percepción visual de la forma basados en el análisis de características particulares del estímulo, un enfoque radicalmente opuesto al de posiciones como, por ejemplo, la Gestalt. No obstante, esta perspectiva y los hallazgos de los que partían no estaban exentos de críticas. Así, para algunos autores la idea de que las células simples actúan como detectores de bordes o barras es demasiado simplista. Asimismo, numerosos estudios han puesto de manifiesto que estas células se activan ante una amplia variedad de estímulos, por lo que su respuesta no puede servir para indicar inequívocamente la existencia de un determinado rasgo o característica en el estímulo. Por ello, se desarrollaron otras perspectivas alternativas al planteamiento del análisis de características que, si bien mantenían una postura analítica a la hora de entender el procesamiento visual de la estructura espacial de la imagen (basado en elementos componentes), propusieron que los campos receptivos de las células de V1 están especializados en el análisis de una característica básica de la luz y común a cualquier tipo de estímulo visual, independientemente de su complejidad: la frecuencia espacial del contraste (F.E.), un parámetro que especifica la “rapidez” con la que cambia la iluminación en el estímulo.

3. ANALISIS DE LA FRECUENCIA ESPACIAL 3.1 Estímulos para estudiar la frecuencia espacial La frecuencia espacial del contraste se ha estudiado mediante estímulos luminosos

simples denominados enrejados (del término inglés, “gratings”; ver figura 1), consistentes en

2

Procesamiento de la estructura espacial de la imagen

estímulos cuya intensidad luminosa cambia de forma periódica a lo largo de toda su extensión (normalmente medida en grados de ángulo visual). Los enrejados pueden ser de dos tipos: los enrejados sinusoidales, se caracterizan porque en ellos los cambios de intensidad luminosa tienen lugar de forma progresiva. Estos enrejados se definen fundamentalmente por cuatro aspectos: su frecuencia espacial (número de ciclos de cambios de luminancia a lo largo del enrejado), la orientación de las distintas áreas luminosas con respecto a la vertical del campo visual, la amplitud (diferencia entre los puntos más y menos luminosos del estímulo) y la fase, es decir, la posición de cada punto luminoso con respecto a un punto de referencia arbitrario, siendo los 0º el punto de inicio del patrón sinusoidal. Por su parte, en los enrejados de onda cuadrada, los cambios de intensidad luminosa están perfectamente definidos (ver figuras 2 y 3).

3

Procesamiento de la estructura espacial de la imagen

3.2 Función de sensibilidad al contraste La detección del contraste está relacionada especialmente con la frecuencia espacial. Así, la relación psicofísica entre ambos aspectos se refleja en lo que se conoce como función de sensibilidad al contraste (FSC). Esta función indica cuál es el contraste necesario para detectar un estímulo cuya frecuencia espacial varía periódicamente en cada especie animal (ver figura 4) y en cada momento evolutivo (ver figura 5). En definitiva, la FSC describe la capacidad del sistema

4

Procesamiento de la estructura espacial de la imagen

visual y permite predecir la sensibilidad de éste a un estímulo determinado (ver figura 6). La FSC

también permite conocer los motivos por los que se producen determinados efectos perceptivos.

3.3 Teorema de Fourier y procesamiento espacial de la imagen Los distintos modelos interesados en el papel que tiene el análisis inicial de los numerosos valores de intensidad luminosa que forman la imagen visual dependen estrechamente de los estudios realizados por el físico y matemático francés Jean Baptiste Fourier (1768-1830). Este autor demostró que toda función compleja puede expresarse como la suma de una serie de

5

Procesamiento de la estructura espacial de la imagen

funciones sinusoidales con unas determinadas características de amplitud, frecuencia, fase, etc. Concretamente, en el caso de funciones periódicas, existe un componente con una frecuencia fundamental (primer armónico) y una serie de componentes -armónicos - cuya frecuencia se corresponde con la de sus múltiplos enteros impares (tercer, quinto armónico...) (ver figura 7).

La transformación de Fourier permite determinar tanto las características de cada función sinusoidal como sintetizar la función original a partir de sus componentes sinusoidales. Una de las aplicaciones más útiles de esta transformación es que permite considerar cualquier enrejado cuadrado (un patrón de cambio luminoso periódico) como la suma de una onda sinusoidal

6

Procesamiento de la estructura espacial de la imagen

fundamental y un número infinito de armónicos. Es más, la aplicación de las ideas de Fourier al análisis de la imagen visual bidimensional permite considerar que ésta se puede descomponer en la suma de un conjunto de patrones de bandas sinusoidales que difieren en frecuencia espacial, orientación, amplitud y fase (ver figuras 8 y 9). De estos planteamientos se deriva la hipótesis de que el análisis visual tiene lugar por elementos receptores que responden específicamente a los valores concretos de dichos parámetros luminosos sinusoidales. Es decir, que las distintas unidades que forman el sistema visual podrían responder de manera específica a los diversos componentes sinusoidales que son en sí la imagen visual (modelos multicanal). Alternativamente, otros planteamientos consideran que el sistema visual humano actúa como un único sistema cuyo funcionamiento se describe básicamente mediante la FSC (modelos unicanal). De acuerdo con esta perspectiva, la imagen visual es una versión borrosa de la escena original en la q ue los objetos de tamaño medio resultan menos “distorsionados” que los grandes o los pequeños

3.4. Estudios empíricos en torno al papel de la F.E. y el teorema de Fourier Campbell y sus colaboradores fueron los primeros defensores del modelo multicanal, fundamentalmente sobre la base de los resultados obtenidos en trabajos de adaptación selectiva a la frecuencia espacial. Así, Campbell y Robson (1969) hallaron que la presentación de estímulos enrejados sinusoidales con una determinada frecuencia espacial durante intervalos temporales en torno a los dos minutos disminuía específicamente la sensibilidad a estímulos con una frecuencia espacial próxima a la del estímulo expuesto previamente. Resultados similares se han obtenido en estudios de enmascaramiento: un estímulo de una determinada frecuencia espacial afecta al u mbral de contraste de un estímulo de prueba presentado anterior, posterior o simultáneamente,

7

Procesamiento de la estructura espacial de la imagen

Una de las pruebas más sólidas de que el sistema visual procesa selectivamente los diferentes valores de frecuencia espacial del estímulo es el trabajo de Campbell y Robson (1968). Estos autores hallaron que los participantes de su estudio eran incapaces de diferenciar un estímulo enrejado sinusoidal de otro cuadrado cuando la frecuencia fundamental de éste era elevada (por ejemplo, 28 c/g.a.v. - véase figura 10). Sin embargo, cuando la frecuencia fundamental era baja (por ejemplo, 2º c/ g.a.v.), sí podían discriminar entre ambos enrejados. Según estos resultados, los observadores no son sensibles a ninguno de los armónicos del estímulo enrejado cuadrado de frecuencia espacial elevada, por lo cual lo percibían igual que el enrejado sinusoidal con una frecuencia fundamental idéntica. Sin embargo, la discriminación sí fue posible en el caso de enrejados cuadrados de menor frecuencia. Los estudios de detección y discriminación de estímulos enrejados sinusoidales vs cuadrados realizados por Graham y Nachmias (1971) arrojaron resultados similares a los de Campbell y Robson (1968) y, por tanto, acordes con la propuesta del análisis visual basado en la frecuencia espacial (modelos multicanal). Graham y Nachmias (1971) evaluaron esta idea presentando a los observadores pares de estímulos enrejados cuyos componentes eran idénticos en términos de frecuencia espacial pero en un caso, ambos componentes estaban desfasados (el desfase entre dos componentes sinusoidales se traduce en una reducción de la amplitud del estímulo resultante equivalente a la diferencia en la amplitud entre ambos - véase figuras 11 y 12). Sin embargo, los participantes detectaban igualmente ambos estímulos complejos, lo cual demuestra que el sistema visual responde selectivamente a los componentes específicos de frecuencia espacial del estímulo. No obstante, este resultado es válido sólo cuando se emplean estímulos enrejados elaborados con componentes sinusoidales a nivel de umbral de contraste. En otras palabras, cuando el contraste está bien por encima del nivel umbral (cuando son

8

Procesamiento de la estructura espacial de la imagen

perfectamente detectables los cambios de intensidad luminosa), la fase de los enrejados influye en la detección y, por tanto, los dos enrejados complejos presentados a los observadores se perciben distintos.

3.5 Codificación neural de la Frecuencia Espacial La respuesta selectiva a la frecuencia espacial parece estar basada en diferentes mecanismos neuronales. Inicialmente, la estructura concéntrica de los campos receptivos de las células ganglionares y, en concreto, aspectos como su tamaño, podrían ser características capaces de explicar la respuesta selectiva del sistema visual a las frecuencias espaciales. Así, es de esperar que una célula ganglionar de centro “on” se active enérgicamente si esta parte del campo receptivo coincide con la parte clara de un enrejado (ver figura 13). Sin embargo, estas células no son sensibles a la orientación, por lo que no parece que puedan codificar la estructura espacial de la imagen retiniana. La codificación selectiva de diferentes frecuencias espaciales con una determinada orientación espacial parece relacionada principalmente con la actividad de las células de V1. Así, de Valois, Albrecht y Thorell (1982) demostraron la existencia de células simples y complejas en V1 que responden selectivamente a frecuencias espaciales altas, mientras que otras células están “afinadas” específicamente a frecuencias espaciales bajas. Estos autores también hallaron que la respuesta de estas células depende también del grado específico de orientación de los estímulos enrejados. Es más, la respuesta de estas células depende conjuntamente de los valores de frecuencia espacial y de orientación del enrejado, lo cual es

9

Procesamiento de la estructura espacial de la imagen

acorde con la demostración psicofísica de que la respuesta a la frecuencia espacial tiene lugar en un rango limitado de orientaciones.

De acuerdo con numerosos investigadores, la actividad de las células simples se puede comparar con la de canales o filtros localizados que responden selectivamente en función de la frecuencia espacial y la orientación. De acuerdo con esta propuesta, el sistema visual obtiene información en cada localización acerca de los aspectos espaciales de la imagen. Más concretamente, las neuronas selectivas a frecuencias espaciales bajas detectarán la estructura general, mientras que las que responden a frecuencias espaciales elevadas codificarán la estructura fina (detalles). Por tanto, es posible pensar que este tipo de células estaría implicado en los primeros niveles de análisis espacial del estimulo y, por tanto, en los procesos encaminados al procesamiento de la forma.

4. EL ESBOZO PRIMARIO EN BRUTO De acuerdo con D. Marr, el procesamiento visual comienza con el análisis de la intensidad y composición espectral de la luz reflejada por los objetos y superficies de la escena visual que dan lugar a la imagen retiniana. El objetivo de ello es elaborar una descripción de la escena visual que represente las estructuras y superficies de la misma, así como su orientación y distancia del observador (estructura de la imagen). La elaboración de esta representación se basa estrechamente en el hecho de que las discontinuidades en los objetos y/o en las superficies (contornos) se reflejan como cambios de la intensidad y composición espectral de la luz en la imagen retiniana. No obstante, en la imagen retiniana también hay cambios

10

Procesamiento de la estructura espacial de la imagen

luminosos debidos la diferente textura de los objetos observados, a su orientación con respecto a la fuente luminosa, etc. Por ello, Marr considera que la identificación de la estructura espacial de las escenas naturales a partir de la imagen retiniana implica dos fases: - en la primera, se forma una representación de los cambios significativos de intensidad luminosa en la imagen re tiniana, denominada esbozo primario bruto (del inglés, “raw primal sketch” - ver la figura 14). - la segunda fase, el esbozo primario completo (del inglés, “full primal sketch”) se apoya en la información incluida en el esbozo primario bruto para especificar los bordes y las discontinuidades en las superficies, sus orientaciones, localizaciones, contraste, etc.

4.1 Nivel computacional El esbozo primario bruto especifica dónde tienen lugar los cambios significativos de intensidad en la imagen, es decir, los producidos por objetos, superficies y sus propiedades (como la textura o los límites entre objetos), sin incluir los cambios de intensidad luminosa irrelevantes (e.g. los debidos a fluctuaciones momentáneas de la luz reflejada por los objetos - ver figura 1 4). Un modo de lograr este objetivo consiste en reducir el rango de valores de intensidad luminosa de la imagen con el fin de atenuar las diferencias de intensidad luminosa irrelevantes con respecto a las correspondientes a características prominentes de la imagen. Esta atenuación, equivalente a un filtrado de las frecuencias espaciales altas (eliminación de los pequeños cambios de intensidad luminosa), se puede llevar a cabo, por ejemplo, sustituyendo el valor de intensidad luminosa de cada punto de la imagen por el valor promedio de un conjunto de puntos cercanos. Sin embargo, dado que en la escena visual se producen cambios de intensidad luminosa a diferentes escalas (es decir, de distinta magnitud) para poder reflejar todos los cambios de intensidad relevantes en la escena, la elaboración del esbozo primario bruto implica el procesamiento en paralelo de varias represen taciones de la imagen con diferentes niveles de filtrado de frecuencia espacial.

11

Procesamiento de la estructura espacial de la imagen

4.2 Nivel algorítmico

12

Procesamiento de la estructura espacial de la imagen

13

Procesamiento de la estructura espacial de la imagen

4.3 Nivel de implementación

5. EL ESBOZO PRIMARIO COMPLETO Tras la especificación de las diferentes primitivas en el esbozo primario bruto (segmentos de borde, terminaciones, barras y manchas), extraídas a partir de los diferentes niveles de intensidad luminosa existentes en la imagen retiniana, el sistema visual organiza estas primitivas en conjuntos de mayor envergadura que ofrezcan información acerca de estructuras globales, estructuras internas y texturas de la superficie. Esta información conformará el esbozo primario completo, y su elaboración está íntimamente relacionada con lo que se denomina organización perceptiva.

6. VALORACIÓN DE LA PROPUESTA DE DAVID MARR Después de lo visto en el apartado correspondiente a la implementación, se puede afirmar que la teoría de Marr y Hildreth ofrece una explicación de la existencia en la corteza cerebral de células sintonizadas a diferentes rangos de frecuencias espaciales, proponiendo que estas células actuarían como filtrados de distinta anchura (recuérdense los resultados de Campbell y Robson, 1968 y Graham y Nachmias, 1971 en el apartado “Estudios empíricos en torno al papel de la frecuencia espacial y el teorema de Fourier"). No obstante, uno de los principales problemas de

14

Procesamiento de la estructura espacial de la imagen

esta propuesta es que no se puede aplicar a todas las células de este tipo, especialmente las que están sintonizadas con frecuencias espaciales elevadas. Por ello y otros motivos añadidos, la mayor parte de las perspectivas actuales consideran que el contenido de la representación de la estructura de la imagen computada por las células de V1 es más acorde con la propuesta del análisis de la frecuencia espacial, es decir, sería el resultado de filtros analizadores de distintas frecuencias espaciales en diferentes localizaciones, posiciones, orientaciones, escalas espaciales y fases, que con la propuesta simbólica de bordes, terminaciones, líneas, etc., de Marr (recuérdese la función postulada de las hipercolumnas de V1). Es más, este modo de funcionamiento tiene la ventaja de que permite preservar los cambios graduales en la luminancia de la imagen como, por ejemplo, los que se deben a las sombras producidas por la distinta orientación de los objetos y/o a los gradientes y cambios de textura. Asimismo, esta forma de procesamiento también resulta óptima si de lo que se trata es de que V1 preserve la mayor parte de la estructura espacial de la imagen para que, posteriormente, la procesen otras áreas de la corteza visual. Esto es especialmente cierto en el caso de las imágenes visuales naturales.

7. BIBLIOGRAFÍA RECOMENDADA Para la preparación del presente módulo de aprendizaje se recomiendan las siguientes referencias blibliográficas: Aznar, J. A. (1999). Percepción del contraste: procesamiento de bajo nivel. En E. Munar, J. Roselló y A. Sánchez-Cabaco (Eds.) Atención y Percepción (pp. 267-300). Madrid: Alianza. Ballesteros, S. (1997). Psicología general. Un enfoque cognitivo. (2º Ed.).Madrid: Universitas. Capítulo 14. Bruce, V., Green, P., y Georgeson, M. A. (1997). Visual perception: Physiology, psychology and ecology. (3ª Ed.). Hove: Psychology Press. (Capítulos 4 y 5). Lillo Jover, J. (1993). Psicología de la percepción...


Similar Free PDFs