TEMA 7 programas de refuerzo PDF

Title	TEMA 7 programas de refuerzo
Author	Carmen muñoz
Course	Psicología Del Aprendizaje
Institution	Universidad Camilo José Cela
Pages	10
File Size	198.8 KB
File Type	PDF
Total Downloads	57
Total Views	152

Preview

CLICK TO PREVIEW PDF

Summary

Apuntes temas psicologia del aprendizaje de Marta Redondo...

Description

TEMA 7. PROGRAMAS DE REFUERZO

CONTINUOS

INTERMITENTES

SIMPLES

RAZÓN

FIJO

VARIABLE

REFUERZO DIF.

TASAS ALTAS

COMPUESTOS

INTERVALO

TASAS FIJO BAJAS

VARIABLE

SECUENCIALES

TÁNDEM ENCANDENADO

SIMULTÁNEOS

MIXTO

MÚLTIPLES

¿Condiciones para diferenciarlos? -Número de programas -Orden de los programas -Presencia o no de estímulo discriminativo. -Refuerzo vaya detrás de cada programa o al final

1.¿Qué son? Pauta o regla que establece el experimentador y que determina la forma y momento en que se va a presentar el refuerzo. El sujeto tiene que haber dado, como mínimo, una respuesta correcta Influyen en la manera en que el sujeto aprende una conducta y en cómo dicha conducta se mantiene En función de las condiciones que establezco para que el sujeto obtenga el refuerzo, distintos tipos de programa de refuerzo: -Continuo: Cada vez que aparece la conducta instrumental yo le aplico el refuerzo. No hay condiciones. Al principio para trabajar las conductas es preferible que fuese continuo. -Intermitentes. 2.TIPOS DE PROGRAMAS DE REFORZAMIENTO INTERMITENTES: Las respuestas correctas del sujeto sólo se refuerzan en algunas ocasiones y bajo determinadas condiciones. Ej. Juegos de azar A)SIMPLES: 1.DE RAZÓN: se fundamentan en el número de respuestas que emite el sujeto -Razón fija: el sujeto debe completar un nº de respuestas prefijado por el experimentador para obtener cada refuerzo -Razón variable: el nº de respuestas requerido para dar el refuerzo cambia de una ocasión a otra. Después se fija el promedio. (Máquinas tragaperras). ·CARACTERÍSTICAS DE LAS RESPUESTAS GENERADAS: Elevada tasa de respuestas, función directa del requisito de razón (cuanto más deprisa se responda, antes se recibirá el próximo reforzador y mayor número de ellos se podrán obtener en un mismo período de tiempo) RV (Razón Variable): tasa alta y estable RF (Razón Fija): pausa post-reforzamiento (función directa de la razón requerida), seguida de una transición abrupta a una tasa relativamente elevada y estable que se mantiene hasta el siguiente reforzador

Si se quiere instaurar un programa con una razón alta (ej. 100) se empieza con reforzamiento continuo, programas de reforzamiento intermitente poco exigentes (RV3) y se va aumentando progresivamente el requisito del programa Estiramientos: pausas repentinas en la respuesta durante la parte en la que el animal se encuentra ejecutándola con una tasa estable y alta. Se suelen deber a incrementos excesivamente bruscos en el valor de la razón requerida, y se corrigen si se retrocede algo en la progresión

2.DE INTERVALO: el reforzamiento depende de que transcurra un periodo de tiempo desde la administración del último reforzador. Se refuerza la primera respuesta dada después de un tiempo determinado -Intervalo fijo: se da el refuerzo una vez transcurrido un tiempo fijo desde el último reforzador. El tiempo es constante. -Intervalo variable: el intervalo de tiempo varía de un ensayo a otro. Al final se fija un promedio. *Intervalo variable 10: Quiere decir que la media de todos los ensayos ha sido 10. ·CARACTERÍSTICAS DE LAS RESPUESTAS GENERADAS: Tasas de respuesta moderadas, función inversa de la duración del intervalo requerido por el programa (la tasa de respuesta del sujeto acaba siendo inversa del tiempo del intervalo) -IV (Intervalo Variable): tasa estable, poca variabilidad en sus tiempos entre respuestas -IF (Intervalo Fijo): tasa irregular, pero con una estructura que se repite en cada intervalo: Justo después de obtenerse el refuerzo, el animal deja de responder durante un tiempo (pausa post-reforzamiento, función directa de la duración del intervalo). Luego la tasa va progresivamente incrementándose, llegando a ser alta justo antes de recibirse el siguiente reforzador = PATRÓN FESTONEADO

➢ En los programas fijos, de razón o de intervalo, existen pausas postreforzamiento. En los variables se obtienen tasas estables sin pausas predecibles

➢ En los programas de razón, hay una relación directa entre tasa de respuesta y nº de reforzamientos, los de intervalo dependen del tiempo por lo que no existe esa relación directa ➢ Los de razón son mucho más motivantes y se obtienen tasas de respuesta más altas. Los de razón variable son los de mayor tasa de respuesta

3.REFORZAMIENTO DIFERENCIAL: (pensar en omisión) Se dispone explícitamente una diferencia en la probabilidad del reforzador, dependiendo de algún aspecto de su respuesta . -Reforzamiento diferencial de tasas bajas (RDB): la respuesta es recompensada cuando ha transcurrido al menos cierto período de tiempo (X) desde la última respuesta. Sólo se recompensa si la tasa de respuesta es lo suficientemente baja. Si lo hace antes el contador se coloca a cero. Ese tiempo lo vamos aumentado. -Reforzamiento diferencial de tasas altas (RDA): la respuesta es recompensada cuando no ha transcurrido determinado tiempo desde la última respuesta. Es decir, la primera respuesta desde la anterior se da antes de un tiempo determinado. Si lo hace después, no recibe recompensa. Ese tiempo lo vamos disminuyendo. ·CARACTERÍSTICAS DE LAS RESPUESTAS GENERADAS: -Refuerzo diferencial de tasas bajas: actuación oscilante. Al principio tasa elevada por lo que no obtiene recompensa. La tasa baja, hasta algún ensayo en el que el TER es suficientemente largo y lleva a la recompensa. La tasa se eleva y de nuevo no se obtiene recompensa… ~Explosión de respuestas: cuando el sujeto responde con un TER ligeramente por debajo del requerido y no obtiene consecuencia sube la tasa bruscamente inmediatamente después. ~Cadena estereotipada de respuestas que sistemáticamente precede a la respuesta que es reforzada: rellenar el TER y cronometrar el tiempo, incompatibles y ayudan a no dar la respuesta… contingencia con el refuerzo - conducta supersticiosa.

En el video, lo que hace la rata es según me dan el esfuerzo: Bebo, me peino... ritualizar. -Refuerzo diferencial de tasas altas: al recompensar directamente los TER cortos, que aumentan en frecuencia hasta hacerse mayoritarios, producen una tasa muy alta y estable de respuestas

B.COMPUESTOS: Resultado de la combinación de programas simples. Para su clasificación se tienen en cuenta tres variables: -Orden de presentación secuencial de los programas -Nº de reforzadores que se administra -Presencia o no de un estímulo discriminativo (sonido inmediatamente después de terminar el primer programa)

1. SIMULTÁNEOS/CONCURRENTES: Los programas operan simultáneamente. Cada uno sobre una respuesta. MIDEN LA CONDUCTA DE ELECCIÓN: -Tasa de respuestas en cada manipulador -Tiempo que el sujeto pasa respondiendo en cada uno

2. SECUENCIALES: Los programas operan sucesivamente y sobre la misma respuesta. 2.1 PROGRAMA TANDEM: 2 programas simples. Siempre el mismo orden, sin estímulo discriminativo. El organismo tiene que satisfacer todos los requisitos del primer programa para pasar al segundo. Al final de ambos se presenta el reforzador 2.2. PROGRAMA ENCADENADO: igual que el anterior pero con estímulo discriminativo que señala al sujeto que ha terminado el primer programa para que inicie el segundo. Pueden ser más de dos, pero siempre en el mismo orden

2.3. PROGRAMA MIXTO: dos o más programas simples que se van alternando de forma aleatoria (al azar). Al acabar cada programa el organismo recibe un reforzamiento. No estímulo discriminativo. Hay un tiempo fijo para cada programa. 2.4. PROGRAMA MÚLTIPLE: como el anterior pero con estímulos discriminativos.

Programas Concurrentes Encadenados! (Estudio de la elección compleja) Lo que tenemos primero es un dispositivo de elección (lo que hace el animal es elegir, y en el momento de elegir accede a un programa y ya no puede retomar el otro). Este tipo de programas se utilizan para estudiar las conductas de elección compleja. En humanos—> la conducta de autocontrol. Ej: si alguien esta haciendo una dieta, y le pongo una dulce: se lo comerá. Es un reforzador inmediato, y el otro reforzador por el que hace la dieta es más a largo plazo. ¿Qué se ha observado? Primero se distancian los dos refuerzos. Siguiendo el ejemplo: Si en el caso digo: en la cena de navidad prefieres, fruta o tarta? Elegirás fruta porque ambos reforzadores están atrasados en el tiempo. Es más fácil que nos inclinemos por un reforzador que me importa más. -El hecho de elegir una alternativa puede eliminar las otras y la elección implica valorar objetivos complejos a largo plazo. En conductas de autocontrol por tanto es importante trabajar con programas estimulares. Ej. Una paloma prefiere trabajar en un programa de reforzamiento RF 10 durante 15 minutos o en un programa IV 60 seg. la misma cantidad de tiempo Tandem: suelen ser para conductas simples —>Ej: queremos enseñar a multiplicar a un niño. 1. Intervalo variable: estar estudiando la tabla del 3 x tiempo 2. Razón fija: hacer dos ejercicios Recompensa. —>Ej: hábitos de estudio 1.intervalo variable: estudiar hasta que te lo sepas 2.

—>Ej: cuando le damos de comer al perro. 1.razon fija: conducta de sentarse. 2.intervalo fijo: esperar unos segundos Recompensa: poder comer.

—>ej: enseñar a lavarse los dientes. 1.razon fija: echar la pasta. 2.intervalo fijo: cepillarselo durante 15 s.

—>platos en el friegaplatos. 1.intervalo fijo: mojarlos durante 10 segundos. 2.razon fija: meterlo en el friegaplatos

ENCADENADO: —>mas mayores friegaplatos: 1.intervalo variable: lo metes debajo del agua hasta que no haya comida. (Comida: estimulo discriminativo) 2.razón fija: meterlo en el friegaplatos

—>Ej: lavar la ropa en la lavadora y ponerla a secar. 1.Intervalo variable: poner ropa a lavar hasta cuando suena (pitido=ha terminado-estimulo discriminativo.) 2.Razón fija: poner la ropa a secar.

—>enseñar a comer: 1.Intervalo variable: estar sentado sin comer hasta que están todos. 2.Razon fija: empezar a comer.

*cuando un niño come mal se suelen trabajar con programas de tiempo. (Si no has acabado en 10 min, te retiro el plato: No recompensa) *también al revés. Cuando queremos que no coman rápido: Se les suele trabajar a masticar con un número de veces.

—>en la mesa: 1.recoger los platos cuando haya acabado (no hay comida=estimulo discriminativo) 2.Limpiar el mantel (no hay migas=estimulo discriminativo)

—> en pista de atletismo: 1.Intervalo variable: correr hasta que suene un timbre. Cuando suena timbre: 2.Razon fija: hacer 15 flexiones. Recompensa: Hacer la siguiente prueba.

—>Triatlón es un ejemplo de encadenado. (La meta cada uno de los programas=estimulo discriminativo). Son intervalos variables. —>Duatlon (no es tandem porque hay estimulo discriminativo) —>Calentar para hacer ejercicio. También encadenado. (Primero tipo de estiramiento, luego face activa, y después estiramiento).

*Cuando se hace deporte se suele trabajar con un programa mixto.

—>para hacer una yincana. Puede ser encadenada o multiple.

—>enseñas a ducharse a un niño. 1.intervalo variable: enjabonarte hasta que salga espuma (estimulo discriminativo). 2.Intervalo variable: aclararte hasta que no haya espuma Recompensa.

—>enseñar a freír: 1.intervalo variable: respirar a que se ponga el aceite caliente (humo=estimulo discriminativo) 2.Razon fija: echar la comida.

MIXTO: —>EJ: un niño hacer la tarea. 1.intervalo fija: hacer una tarea 2.razón fija: la madre le pregunta lo que ha estudiado y cuando se lo sepa bien: Recompensa.

*No puedo enseñar a hacer cosas sin refuerzos detrás.

—>Habito de hacer deberes: tienen de varias cosas, no suele tener orden establecido. Cada día una manera diferente. 1.razón fijo: hacer lengua 2.intervalo variable: cuando termines. Recompensa. Paso a lo siguiente.

—>hacer ejercicio: 1.intervalo fijo: hacer 23 min de cardio. Recompensa: beber agua y descanso.

2.Razon fija: hacer 50 sentadillas. Recompensa: beber agua y finalizar entrenamiento.

—>adiestrar a un perro: Razón fija: dar la pata Recompensa. Intervalo variable: estar tumbado

MÚLTIPLE: —>hábitos de estudio con estimulo discriminativo que es que yo te lo pregunte. —>circuitos de entrenamiento (pitido=nos avisa el final de una) —>adiestramiento con delfines (recompensa: pescado. Estimulo discriminativo: el entrenador, pitido, pelota...).

—>enseñar a un perro: Razón fija: Sentarse (Estímulo discriminativo: señalarle con el dedo) Recompensa Razón fija: hacerse el muerto (Estímulo discriminativo: hacer como un disparo) Recompensa....