Apuntes sobre Condicionamiento Operante 1 2º cuatri PDF

Title Apuntes sobre Condicionamiento Operante 1 2º cuatri
Course Aprendizaje y Condicionamiento Humano
Institution Universidad Pontificia Comillas
Pages 14
File Size 316.4 KB
File Type PDF
Total Downloads 63
Total Views 154

Summary

Apuntes sobre el condicionamiento operante. 2º cuatrimestre de la asignatura de Aprendizaje y condicionamiento humano. 1º Psicología + Criminología...


Description

Apuntes

Aprendizaje y Condicionamiento Humano Prof. María Prieto Ursúa

CONDICIONAMIENTO OPERANTE (I) Introducción. Fenómenos básicos. Reforzamiento positivo. Cadenas conductuales. Debilitación de una respuesta operante: Proceso de extinción. INTRODUCCIÓN

Llamaremos operante o instrumental a todo comportamiento que se produce o modifica en función de sus consecuencias. (Operante: el sujeto tiene que actuar sobre el medio para obtener una consecuencia). En nuestro quehacer diario, nuestros comportamientos están siendo influenciados constantemente por este tipo de condicionamiento, pero a menudo no se es consciente del proceso.

Los primeros trabajos experimentales sobre la conducta voluntaria fueron llevados a cabo por Thorndike, quien utilizó un método experimental para estudiar las conductas de solución de problemas de los animales. De estos estudios extrajo una serie de leyes, entre las que se encuentra su conocida ley del efecto ( 1911) (“si una respuesta en una situación estimular dada es seguida por un suceso satisfactorio o placentero, la relación entre la situación y la respuesta se fortalece, de forma que el organismo tendrá más tendencia a dar esa respuesta en esa situación. Si por el contrario va seguida de un suceso nocivo o desagradable, la respuesta tenderá a no darse”). Sin embargo, Thorndike siguió trabajando en el concepto de conexión ER: su ley del efecto planteaba que las consecuencias de la conducta fortalecen o debilitan la conexión entre un E y una R; no planteaba un nuevo tipo de condicionamiento distinto al condicionamiento clásico. Por otra parte, sus términos “desagradable”, “satisfactorio”... resultaban inadecuados para el conductismo watsoniano, ya que se basaban en estados internos del organismo. Los resultados de sus trabajos fueron retomados posteriormente por Skinner en sus trabajos sobre el condicionamiento operante, en donde se acentúa la relación funcional entre la conducta y el medio. Skinner reformula la ley del efecto como “ley de refuerzo” (ciertos sucesos, refuerzos, cuando siguen consistentemente a una respuesta de un organismo, aumentan su probabilidad), y se centra, no tanto en el fortalecimiento de una conexión, sino de una respuesta. Trabaja con la asociación entre una respuesta y la situación estimular que le sigue.

1

Apuntes

Aprendizaje y Condicionamiento Humano Prof. María Prieto Ursúa

Elementos básicos del condicionamiento operante

1. Respuesta (operante). Una conducta es instrumental cuando su realización tiene alguna consecuencia para la persona o el animal que la realiza; es decir, la respuesta instrumental se define como una conducta modificable por sus consecuencias.

2. Estímulo reforzador: son aquellos sucesos que siguen a la respuesta y alteran su probabilidad de emisión., son la consecuencia de la respuesta. Hay dos tipos: -Er+: o estímulo apetitivo: aumentan la probabilidad de emisión de la respuesta. -Er-: o estímulo aversivo: disminuyen la probabilidad de emisión de la respuesta. Consideraciones: Es importante no confundir un reforzador con un “estímulo o suceso agradable”. Un estímulo es un reforzador en virtud de su efecto en la respuesta a la que sigue, y no por su supuesta inducción de un estado subjetivo en un organismo. La mayoría de los reforzadores funcionarán como positivos o negativos dependiendo de la historia de aprendizaje de la persona. Por lo tanto, cualquier consecuencia debe considerarse como un reforzador potencial, teniendo que comprobar siempre sus efectos sobre un individuo particular en una situación específica para asegurarnos que, efectivamente, funciona como tal. Principio de Premack: en cualquier par de respuestas o actividades en las que se ocupa un organismo, la más probable reforzará a la menos probable. Esto ya permite una cierta predicción: antes teníamos que probar si un reforzador funcionaba como tal o no antes de utilizarlo, ahora el sujeto nos lo indica: son sus conductas más probables. 3. Estímulos discriminativos: son señales que van delante de la respuesta, y alteran la probabilidad de emisión de ésta. Su presencia es informativa sobre la disponibilidad de un reforzador, sobre las posibles consecuencias disponibles para un comportamiento concreto. Son señales que indican, pero no desencadenan la respuesta. Los estímulos discriminativos Delta disminuyen la probabilidad de emisión de determinada respuesta, ya que indican que ésta, en principio, no va a ser seguida de un Er+ o que va a ser seguida de un Er-. 2

Apuntes

Aprendizaje y Condicionamiento Humano Prof. María Prieto Ursúa

4. Contingencia: es la relación estadística entre la emisión de un operante y la administración de una consecuencia. El concepto de contingencia hace referencia a una relación del tipo “si -entonces”: si el sujeto ejecuta una determinada acción, entonces sucederá determinada consecuencia.

Esta relación es fundamental para el establecimiento del aprendizaje. Por ejemplo, si la consecuencia está disponible tanto si la conducta es emitida como si no, el aprendizaje no tendrá lugar; si una conducta es seguida de forma fortuita por un determinado acontecimiento, pero la persona establece la contingencia entre ambos, la ejecución de dicha conducta estará en función de la contingencia establecida (aunque no exista de hecho ninguna relación entre dicha respuesta y la consecuencia).

Fenómenos básicos. Se refieren a la contingencia básica que puede darse entre la R y la consecuencia.

1. El reforzamiento hace referencia al proceso por el cual se mantiene, aumenta o fortalece una conducta. Existen dos fenómenos básicos dentro del reforzamiento:

-

Reforzamiento

positivo:

administración

de

un

estímulo

siguiendo

contingentemente a una R dada, que tiene como efecto un aumento de la fuerza, la probabilidad o la tasa de ésta. Se denomina “positivo” por el hecho de administrar un E. R

-

Er+

Otro tipo de reforzamiento es el reforzamiento negativo: omisión o interrupción

o desaparición de un estímulo (típicamente aversivo) de forma contingente con la emisión de una R, a resultas de lo cual se produce un aumento en la fuerza, la probabilidad o la tasa de ésta. Se denomina negativo porque consiste en la retirada de un E. R

3

Er-

Apuntes

Aprendizaje y Condicionamiento Humano Prof. María Prieto Ursúa

En este tipo de reforzamiento puede haber dos tipos de conducta: . De escape: está ya presente la circunstancia negativa, se da R y el Er-.desaparece.

. De evitación: siempre es necesario un Ed que avisa que si no doy R va a venir el Er-. El organismo puede, mediante R, llegar a prevenir la aparición del Er-.

2. El castigo hace referencia al proceso por el cual disminuye o se debilita la emisión de una R, como consecuencia de la contingencia establecida entre esa R y la estimulación que le sigue. Existen dos procesos dentro del castigo:

-

Castigo positivo: consiste en la administración de un estímulo (aversivo)

siguiendo contingentemente a una R dada, que tiene como efecto una disminución en la fuerza, la probabilidad o la tasa de ésta. R

-

Er-

Castigo negativo: a veces se le llama entrenamiento de omisión. Consiste en la

omisión o interrupción de un estímulo de forma contingente con la emisión de una R, a resultas de lo cual se produce una disminución en la fuerza, la probabilidad o la tasa de ésta. R

-

Er+

Una última contingencia que podemos encontrar en el condicionamiento

operante es la extinción. Consiste en cortar la relación entre la R y su Er+. En el castigo negativo se retiraba un estímulo positivo cualquiera, mientras que en la extinción le quito a la R el reforzador que la mantiene. Para ello, tengo que ver qué reforzador mantiene esa conducta, y eliminarlo: corto la contingencia que existía entre ambos. R

4

Er+

Apuntes

Aprendizaje y Condicionamiento Humano Prof. María Prieto Ursúa

REFORZAMIENTO POSITIVO:

El reforzamiento positivo consiste en la administración de un estímulo apetitivo de forma contingente con la emisión de la respuesta. Si el sujeto ejecuta la respuesta instrumental, recibe el estímulo reforzador; si el sujeto no ejecuta la respuesta, el reforzador no se recibe. A veces se denomina a este procedimiento entrenamiento de recompensa, sobre todo en contextos de investigación.

Sin embargo, en ocasiones no puede aplicarse el reforzador, ya que la respuesta que queremos reforzar no está en el repertorio conductual del sujeto, o su frecuencia de ocurrencia es demasiado baja. El moldeado (moldeamiento, o shaping) es el procedimiento a través del cual podremos ir fortaleciendo selectivamente los comportamientos. Se centra en el reforzamiento de las aproximaciones sucesivas a una conducta terminal o meta. Es decir, crea unidades conductuales nuevas reforzando aproximaciones cada vez mayores a la acción final deseada. La idea esencial es fortalecer las conductas que son consecuentes con, o forman parte de, la respuesta deseada, recompensando aproximaciones cada vez mayores a la respuesta final. En el moldeado se enseñan nuevas conductas delimitando claramente el objetivo final, la meta, y los pasos ordenados en los que hay que dividir el objetivo para que pueda ser fácilmente alcanzado.

VARIABLES QUE AFECTAN AL PROCESO DE ADQUISICION:

1. PROGRAMA DE REFORZAMIENTO:

Un programa de reforzamiento es una pauta o regla que determina la contingencia que existe entre la respuesta y la consecuencia, regula la forma y el momento en que la aparición de una respuesta va a ir seguida de un reforzador.

La tasa y el patrón de respuesta producido por los distintos programas de reforzamiento que se pueden plantear pueden representarse en un registro acumulativo. Este registro es un tipo especial de gráfico en el que el eje horizontal representa el paso del tiempo, y el vertical representa el número total o acumulado de respuestas que se han emitido hasta un momento determinado. 5

Apuntes

Aprendizaje y Condicionamiento Humano Prof. María Prieto Ursúa

Existen dos tipos fundamentales de programas: a. Continuo: tras la R siempre aparece el reforzador. b. Intermitente: tras la R, algunas veces aparece el E y otras no. Esto afecta a la R manteniendo niveles de ejecución más bajos, pero la resistencia a la extinción es más alta.

PROGRAMAS DE REFORZAMIENTO INTERMITENTE SIMPLE: En los programas de reforzamiento simple sólo hay un factor que determina si la respuesta va a ser reforzada o no va a serlo; este factor puede ser el número de respuestas realizadas desde el último reforzador, o el tiempo transcurrido desde el mismo.

Dentro de los programas de reforzamiento intermitente de razón (el reforzador depende sólo del número de respuestas que emite el sujeto) podemos distinguir entre:

-

Programas de razón fija: el número de respuestas necesario para obtener el

reforzador es fijo. Efectos: en general, obtenemos una actuación estable y constante; se obtiene una elevada tasa de respuestas. El número de respuestas que se pide para obtener el reforzador (la razón) puede ser elevado, moderado o bajo. Si la razón es mayor, se observa una pequeña pausa tras la obtención del reforzador (pausa postrreforzamiento, cuya duración está directamente relacionada con la magnitud del requisito de la razón. Extinción: después de un programa de razón fija, dejamos de presentar el reforzador y vemos que el sujeto seguirá emitiendo respuestas durante un determinado periodo de tiempo por encima de la razón, habrá pausas bruscas cada vez más largas y no hay tasa intermedia: en las primeras fases de extinción se actúa mucho, y luego poco, sin tasa intermedia de actuación.

-

Programas de razón variable: no hay un número fijo de respuestas, sino que la

cantidad de respuestas necesarias para obtener el reforzador puede ir variando; normalmente, un programa de razón variable viene definido por el número medio de respuestas requeridas. Efectos: produce una ejecución muy estable, con tasas de respuesta muy altas, y alta resistencia a la extinción. Extinción: Las respuestas reforzadas intermitente y variablemente son muy resistentes. En las primeras fases se da un número muy elevado de respuestas, van apareciendo pausas bruscas y no existen tasas intermedias.

6

Apuntes

Aprendizaje y Condicionamiento Humano Prof. María Prieto Ursúa

En los programas intermitentes de intervalo la obtención del reforzador depende del paso del tiempo (siempre que el sujeto de la respuesta, claro, aunque el reforzador no depende de ella. Tengo disponible el reforzador pasado el tiempo, pero tengo que dar además mi respuesta (encender la tele). Entre estos programas también distinguimos entre:

-

Programas de intervalo fijo: el período de tiempo desde la obtención de un reforzador

hasta la presentación del siguiente es fijo. El reforzador se presentará cuando se emita la primera conducta dada al final de un intervalo de tiempo determinado. Efectos: no hay una ejecución constante, se alternan tasas de emisión de respuesta con periodos de descanso. Hay una tasa baja de respuesta. Tras la obtención del reforzador hay una pausa, y aumenta la tasa de ejecución a medida que se acerca el reforzador, sobre todo en los últimos instantes antes del reforzador. Las conductas suelen emitirse hacia el final del intervalo. Cuanto más largo es el intervalo, mayor es la pausa que hace el sujeto antes de reanudar su conducta, y más pronunciada es la aceleración de la tasa hasta el siguiente reforzador. La tasa de respuesta es menor en el programa de intervalo que en el de razón. Extinción: las respuestas en la primera fase de la extinción serán elevadas hacia la última fase del periodo: los sujetos actúan más allá del tiempo establecido, luego hacen una pausa, y luego vuelven a dar una tasa elevada, y se detienen repentinamente. Las pausas son cada vez mayores, y las aceleraciones cada vez más pequeñas.

-

Programa de intervalo variable: los periodos de tiempo entre la entrega del

reforzador y el momento en que el reforzador vuelve a estar disponible van cambiando. Efectos: la respuesta a un programa de IV es similar a la respuesta en un programa de RV. Encontramos una tasa de respuesta más constante y estable, sin pausas o cambios predecibles en la misma, pero no muy elevada, es bastante moderada. Y una alta resistencia a la extinción. Extinción: hay una reducción constante de la respuesta, con tasas intermedias. El tiempo que transcurre hasta que desaparece R es más largo, sobre todo si hemos trabajado con intervalos normales o largos (si han sido cortos, dura menos tiempo).

En general, cuanto mayor sea la diferencia entre la fase de adquisición y la de extinción, habrá menor resistencia a la extinción, porque es más fácil discriminar entre una situación y otra, y viceversa. Hay mayor tasa de ejecución en los programas de razón que en los de intervalo, y los programas variables son más resistentes a la extinción que los fijos.

7

Apuntes

Aprendizaje y Condicionamiento Humano Prof. María Prieto Ursúa

Gráficos de la adquisición de una R operante según los distintos tipos de programa: Respuestas acumulativas RF RV IF IV

Tiempo

Gráfico de la extinción de la R según el tipo de programa en la adquisición: Respuestas acumulativas

RV

IF

RF

IV

Tiempo RF: Razón fija IF: Intervalo fijo

RV: Razón variable IV: Intervalo variable

8

Apuntes

Aprendizaje y Condicionamiento Humano Prof. María Prieto Ursúa

PROGRAMAS DE REFORZAMIENTO INTERMITENTE COMPLEJO

Se basan en los mismos elementos que los simples: las ejecuciones son el resultado de los mismos principios que regulan las ejecuciones de los programas simples. Son mezclas de razón e intervalo.

1. Programas de reforzamiento múltiple: Consisten en dos o más programas independientes que se presentan al sujeto de forma sucesiva (no a la vez) y en presencia, para cada uno de ellos, de un estímulo discriminativo que indica el tipo de programa. Afectan a un mismo tipo de respuesta.

2. Programas de reforzamiento compuesto: Se está reforzando una respuesta de acuerdo con los requisitos de dos o más programas de reforzamiento que están actuando al mismo tiempo. Hay cuatro subtipos: Programas conjuntivos: una respuesta será reforzada cuando se hayan cumplido todos los requisitos de los programas que están actuando. La actuación se ajusta a los programas simples que están actuando. Las leyes que regulan la actuación son las mismas que en los programas simples. Programas alternativos: Basta que se cumplan los requisitos de uno de los programas que están actuando. Programas entrelazados: pueden ser de dos tipos, decrecientes o crecientes.



Decrecientes: una respuesta será reforzada después de emitir una determinada

razón (número de respuestas), pero ésta va decreciendo a medida que pasa el tiempo desde que ocurrió el último reforzamiento.



Crecientes: la respuesta será reforzada cuando se ha emitido un determinado

número de respuestas que aumenta a medida que va pasando el tiempo desde el último reforzamiento. Es decir, el requisito de reforzamiento cada vez es más difícil. Programas diferenciales: también se distinguen dos tipos:



De tasa alta: se obtiene el reforzador si se ha superado un determinado número

de respuestas en un tiempo marcado. Fijamos un número mínimo que se tiene que cubrir, y se refuerza cualquier ejecución por encima de dicho número en un tiempo determinado.

9

Apuntes

Aprendizaje y Condicionamiento Humano Prof. María Prieto Ursúa



De tasa baja: se refuerza la respuesta cuando en un determinado tiempo se

hayan emitido un número de respuestas menor a un número máximo fijado. El reforzamiento diferencial de tasa baja puede llevarse a cabo de varias formas: Administrar reforzamiento contingente a las respuestas emitidas después de un periodo de tiempo fijo desde la última respuesta. (Reforzamiento de respuesta espaciada). Fijamos un máximo de conductas a permitir en un determinado intervalo de tiempo; si se supera ese criterio, no habrá reforzador, se planteará extinción. Se refuerza por tasas bajas de ejecución. (Reforzamiento de intervalo). Administramos el reforzador al final de la sesión de observación completa si el total de respuestas no supera el número de respuestas especificadas límite (Reforzamiento de sesión completa).

3.

Programas concurrentes:

Entender completamente la conducta instrumental requiere comprender por qué los organismos escogen realizar una respuesta en lugar de otra. Los programas de reforzamiento concurrentes se diseñaron para proveer un método que permita un estudio más directo de la razón por la que los sujetos eligen realizar una R en lugar de otra.

En los programas concurrentes, se proporciona

dos respuestas alternativas (A y B), y cada una de ellas es reforzada con un programa de reforzamiento. Cada programa es independiente de los otros programas, y además independiente de la conducta que está siendo reforzada por los otros programas: son programas de elección. Ambas alternativas de respuesta (y sus programas de reforzamiento correspondientes) están disponibles al mismo tiempo y el sujeto puede cambiar de una actividad a otra en ...


Similar Free PDFs