TEMA 4 (parte 1 parte 2): introducción al condicionamiento instrumental: procedimientos de adquisición y extinción PDF

Title	TEMA 4 (parte 1 parte 2): introducción al condicionamiento instrumental: procedimientos de adquisición y extinción
Author	Elisa Gómez Sánchez
Course	Psicología del Aprendizaje
Institution	Universidad de Málaga
Pages	13
File Size	838.5 KB
File Type	PDF
Total Downloads	80
Total Views	127

Preview

CLICK TO PREVIEW PDF

Summary

Estos resúmenes incluyen la bibliografía, las diapositivas y los apuntes de clase....

Description

TEMA 4: INTRODUCCIÓN AL CONDICIONAMIENTO INSTRUMENTAL PROCEDIMIENTOS DE ADQUISICIÓN Y EXTINCIÓN 0. -

-

INTRODUCCIÓN AL CONDICIONAMIENTO INSTRUMENTAL Los estudios iniciales de Thorndike y Skinner Elementos del condicionamiento instrumental:  El estímulos discriminativo (E), la respuesta instrumental (R) y sus consecuencias (C) Tipos de condicionamiento instrumental Adquisición del condicionamiento instrumental  Efectos de la contigüidad temporal  Efectos de la contingencia  Efectos de la pertinencia Extinción del condicionamiento instrumental:  Definición y efectos paradójicos

1. LOS ESTUDIOS INICIALES DE THORNDIKE Y SKINNER LOS ESTUDIOS DE E. THORNDIKE El propósito de Thorndike era estudiar la inteligencia animal. Utilizó la investigación empírica para estudiar el grado en que las capacidades intelectuales humanas estaban presentes en los animales, y lo hizo mediante cajas problema para sus experimentos. Su procedimiento de entrenamiento era: colocar a un animal hambriento en la caja problema y algo de comida en el exterior de modo que el animal pudiera verla  La tarea del animal era aprender a salir de la caja y obtener la comida. En esta caja, la respuesta que se pedía era presionar una palanca, con lo cual se abría el cerrojo.   

E: caja R: accionar pestillo C: Liberación

Son respuestas voluntarias y consecuencias dependientes de la respuesta. -

LEY DEL EFECTO: plantea que si una respuesta dada en presencia de un estímulo es seguida de un evento satisfactorio, la asociación entre el estímulo (E) y la respuesta (R) es fortalecida. Si la respuesta es seguida de un evento molesto, la asociación E-R se debilita. Según esta ley, lo que se aprende es una asociación entre la respuesta y los estímulos presentes en el momento en que ésta se realiza (aprendizaje E-R).

LOS ESTUDIOS DE B. F. SKINNER Skinner inventó el método de operante libre para estudiar la conducta de manera más continua de lo que permiten los laberintos (en los que tras llegar a la caja meta, se saca al animal del aparato por un rato antes de regresarlo a la caja de inicio para el siguiente ensayo). -

CONDUCTA OPERANTE LIBRE: permiten al animal repetir, sin restricciones, una y otra vez, la respuesta instrumental. Ej: presionar la palanca. Una respuesta operante/instrumental se define

en términos del efecto que tiene sobre el ambiente, es decir, el aspecto crucial no son los músculos involucrados en la realización de la conducta, sino la forma en que ésta opera en el ambiente. Ej: La rata puede presionar la palanca con la pata derecha, con la pata izquierda o con la cola. Esas diferentes respuestas musculares constituyen la misma operante si todas hacen descender la palanca en la cantidad requerida. Se supone que las distintas maneras de presionar la palanca son funcionalmente equivalentes, pues todas tienen el mismo efecto en el ambiente.

La caja es una pequeña cámara que contiene una palanca que la rata puede presionar de manera repetida, además de un mecanismo que puede entregar un reforzador, como agua o comida.

NO CONFUNDIR esta caja con la caja negra de Skinner: que es una metáfora utilizada para representar la mente como algo misterioso, imposible de abrir para ser explorado. No significa que la mente no pueda ser estudiada, sino que la mente no existe. Su procedimiento de entrenamiento era: se coloca en la cámara a una rata hambrienta y la palanca se conecta electrónicamente al sistema dispensador de comida y cuando la rata presiona la palanca, cae una pella en el comedero.

REGISTRO ACUMULATIVO: El registro acumulativo es un aparato que registra las respuestas operantes en función del tiempo de forma acumulativa. Es un gráfico cuyo eje de abscisas refleja el tiempo, y el eje de ordenadas las respuestas emitidas. También se señaliza qué respuestas han sido reforzadas. ADQUISICIÓN Y EXTINCIÓN: La adquisición es la etapa inicial del aprendizaje. La extinción es la disminución de una respuesta aprendida que ocurre, pues el estímulo condicionado deja de ser emparejado con el estímulo incondicionado. Además, el procedimiento que consiste en presentar de manera repetida el estímulo condicionado sin el estímulo incondicionado (en el COND. CLÁSICO): es la disminución de la respuesta instrumental que ocurre, ya que la respuesta ya no es seguida por el reforzador. Además, el procedimiento que consiste en dejar de reforzar la respuesta instrumental (en el COND. INSTRUMENTAL).

2. ELEMENTOS DEL CONDICIONAMIENTO INSTRUMENTAL - El estímulo discriminativo  Control estimular del comportamiento: un estímulo señala que una respuesta específica conllevará una consecuencia concreta.  En hábitos, el ED desencadena un comportamiento automático. - La respuesta  Definida a partir de sus efectos en el ambiente.  Entrenamiento de respuestas complejas: o Moldeamiento: es el reforzamiento de las aproximaciones sucesivas a una respuesta instrumental deseada. El moldeamiento de una nueva respuesta operante requiere que se entrenen los componentes o aproximaciones a la conducta final. Implica tres componentes: A- debe definirse con claridad la respuesta final que se desea que realice el sujeto. B- es necesario evaluar con claridad el nivel inicial del desempeño, sin importar qué tan alejado esté de la respuesta final en que se ha interesado. C- es necesario dividir en pasos de entrenamiento o aproximaciones sucesivas apropiadas la progresión que va del punto de inicio a la respuesta objetivo final. Ejemplo: enseñar a un niño a encestar una pelota o a una rata a presionar una palanca, al principio sólo se requieren aproximaciones burdas al desempeño final para recibir el reforzamiento. Una vez que el niño adquiere competencia para meter la pelota en una canasta colocada a la altura del hombro, la altura de la canasta puede elevarse de manera gradual. A medida que progresa el proceso del moldeamiento, se exige cada vez más hasta que sólo se entrega el reforzador si se realiza la conducta objetivo final.

-

o Encadenamiento: es la formación de conducta a través de combinaciones en secuencia de series de unidades conductuales simples. La consecuencia 



Reforzadores: conllevan un incremento de la probabilidad futura de la respuesta o Primarios y secundarios  R. Primario: son aquellos que poseen un valor reforzante biológicamente determinado y no por aprendizaje (ej: aire, comida y bebida); R. Secundario (= R. condicionado): Estímulo que se convierte en un reforzador eficaz por su asociación con un reforzador primario o incondicionado. Son aquellos que han adquirido su valor por aprendizaje (ej: la recompensa social (alabanza) o el dinero). o Contraste positivo: Mayor respuesta por un reforzador favorable o grande luego de la experiencia con un reforzador menos deseado o más pequeño, que en ausencia de dicha experiencia previa. Estímulos punitivos: conllevan un decremento de la probabilidad futura de la respuesta o Contraste negativo: Disminución de la respuesta por un reforzador menos deseado o más pequeño después de la experiencia previa con un reforzador más deseado o más grande que en ausencia con dicha experiencia previa.

3. TIPOS DE CONDICIONAMIENTO INSTRUMENTAL

Nombre del procedimiento Reforzamiento positivo

Contingencia entre respuesta y resultado Positiva: la respuesta produce un estímulo apetitivo

Resultado del procedimiento Reforzamiento o incremento en la tasa de respuestas

Castigo (castigo positivo)

Positiva: la respuesta produce un estímulo aversivo

Castigo o disminución en la tasa de respuestas

Reforzamiento negativo (escape o evitación)

Negativa: la respuesta elimina o impide la presentación de un estímulo aversivo Negativa: la respuesta elimina o impide la presentación de un estímulo apetitivo

Reforzamiento o incremento en la tasa de respuestas

Entrenamiento por omisión (castigo negativo)

-

-

-

Castigo o disminución en la tasa de respuestas

Reforzamiento positivo: Procedimiento de condicionamiento instrumental en que existe una contingencia positiva entre la respuesta instrumental y un estímulo reforzante. Si el participante realiza la respuesta, recibe el estímulo reforzante; si no la lleva a cabo, no recibe el reforzador Reforzamiento negativo: Procedimiento de condicionamiento instrumental en que existe una contingencia negativa entre la respuesta instrumental y un estímulo aversivo. Si se realiza la respuesta instrumental, el estímulo aversivo es terminado o cancelado; si la respuesta instrumental no se lleva a cabo, el estímulo aversivo se presenta. o Escape: Procedimiento de condicionamiento instrumental en que la respuesta instrumental termina un estímulo aversivo. o Evitación: Procedimiento de condicionamiento instrumental en que la respuesta instrumental impide la entrega de un estímulo aversivo. Castigo positivo: Procedimiento de condicionamiento instrumental en que existe una contingencia positiva entre la respuesta instrumental y un estímulo aversivo. Si el participante realiza la respuesta instrumental, recibe el estímulo aversivo; si no la lleva a cabo hace, no recibe el estímulo aversivo

-

Castigo negativo: Procedimiento de condicionamiento instrumental en que la respuesta instrumental impide la entrega de un estímulo reforzante. ** POSITIVO: dar algo ** NEGATIVO: retirar algo

Ejemplos: -

-

-

Reforzamiento positivo: Un padre le da a su hija una galleta cuando guarda sus juguetes; un profesor elogia a un estudiante cuando éste entrega un buen informe; un empleado recibe un bono en su cheque cuando se desempeña bien en el trabajo. Castigo (= castigo positivo): Una madre regaña a su hijo por correr en la calle; su jefe lo critica por llegar tarde a una reunión; un maestro le asigna una calificación reprobatoria por dar una respuesta incorrecta a muchas preguntas del examen. Reforzamiento negativo (= escape o evitación): Abrir un paraguas para impedir que la lluvia lo moje, subir la ventana del automóvil para reducir el viento que entra y ponerse los lentes de sol para protegerse del brillo del sol de verano. Entrenamiento por omisión (= castigo negativo= reforzamiento diferencial de otra conducta): cuando a una niña se le ordena ir a su habitación después de cometer una travesura. La niña no recibe un estímulo aversivo cuando se le dice que vaya a su cuarto, No hay nada aversivo en la habitación de la niña. Más bien, al enviarla a su cuarto el padre está retirando fuentes de reforzamiento positivo, como jugar con las amigas o ver televisión. Suspenderle a alguien la licencia de conducir por hacerlo ebrio (retirar el placer y el privilegio de conducir).

¡NO CONFUNDIR!: Reforzamiento Negativo con Castigo  SEMEJANZA: ambos procedimientos se emplea un estímulo aversivo. DIFERENCIAS: En los procedimientos de castigo, la respuesta instrumental produce el estímulo aversivo y la contingencia entre la respuesta instrumental y el estímulo aversivo es positiva. En contraste, en el reforzamiento negativo la respuesta termina el estímulo aversivo y existe una contingencia negativa entre respuesta y resultado. El castigo disminuye la respuesta instrumental mientras que el reforzamiento negativo la incrementa.

METAS QUE MOTIVAN. LOS ESTIMULOS QUE REFUERZAN

4. FACTORES QUE FAVORECEN SU ADQUISICIÓN: contigüidad temporal R-C, contingencia R-C (indefensión aprendida) y pertinencia R-C.

-

CONTIGÜIDAD TEMPORAL R-C: es la presentación muy cercana en el tiempo de dos eventos, como una respuesta y un reforzador

o o Autocontrol: gratificación inmediata vs. gratificación demorada: El autocontrol frecuentemente es una cuestión para elegir una recompensa grande demorada sobre otra inmediata y pequeña. Por ejemplo, el autocontrol en la alimentación implica elegir la recompensa grande y demorada de estar delgado sobre la recompensa inmediata, pero pequeña, de comer un pedazo de pastel. Cuando se tiene el pastel a la vista resulta difícil elegir la recompensa demorada.

Numerosos investigadores han encontrado que las preferencias cambian a favor de la recompensa demorada grande a medida que se exige que los participantes esperen más tiempo para recibir cualquiera de las recompensas después de hacer su elección. Si las recompensas son entregadas poco después de una respuesta de elección, los sujetos, por lo general, prefieren la recompensa pequeña e inmediata.

El valor del reforzador resulta modulado por la demora en su entrega Los reforzadores inmediatos tienden a ser más eficaces (más facilidad para controlar la conducta) que los reforzadores demorados o El marcado de la respuesta: ¿Cómo superar los efectos de demoras temporales?  

[Lo + parecio a esto que he encontrao en la biblio ha sio esto:]

Una persona que no puede tolerar el tiempo de espera requerido para obtener recompensas grandes tiene que renunciar a la obtención de esos reforzadores. Por lo que, ¿Puede enseñarse el autocontrol? Sí. Entrenar a la gente con recompensas demoradas parece tener efectos generalizados para incrementar su tolerancia por las recompensas demoradas. Ejemplo: en un estudio, se evaluó primero el autocontrol de estudiantes de segundo y tercer grado de primaria, preguntándoles si querían recibir dos centavos de dólar de inmediato o tres centavos al final del día. Los niños que eligieron la recompensa inmediata recibieron los dos centavos. Para los que eligieron la recompensa demorada se depositaron los tres centavos en una taza que posteriormente se les entregó a los niños. El procedimiento se repitió ocho veces para completar el pretest. Los niños fueron sometidos luego a tres sesiones de entrenamiento con la recompensa inmediata o la demorada. Durante cada sesión de entrenamiento se presentaron varios problemas (contar objetos en una tarjeta, memorizar dibujos e igualar formas). Para la mitad de los estudiantes la respuesta correcta era reforzada de inmediato con dos centavos. Para el resto de los niños, las respuestas correctas tenían como resultado que se depositaran tres centavos en una taza que se entregaba al niño al final del día. Después de la tercera sesión de entrenamiento, se midió igual que en el pretest la preferencia por la recompensa pequeña e inmediata contra la preferencia por la recompensa mayor pero demorada. Dado que las tareas del entrenamiento implicaban poco esfuerzo, el entrenamiento con la recompensa demorada aumentó la preferencia por la recompensa mayor y demorada durante el postest. Por consiguiente, el entrenamiento con reforzamiento demorado produjo un autocontrol generalizado.

-

CONTINGENCIA (CORRELACIÓN) R-C: es la relación de una respuesta con un reforzador definida en términos de la probabilidad de ser reforzado para realizar la respuesta en comparación con la probabilidad de ser reforzado en ausencia de la respuesta o Contingencia=P(refz./respuesta)-P(refz./no respuesta) o La respuesta debe ser el instrumento más eficaz para obtener la consecuencia:  P(refz./respuesta) > P(refz./no respuesta) o El refuerzo gratuito perjudica el aprendizaje:  Incrementa P(refz./no respuesta)

 Cuando la contingencia es nula (y la consecuencia es un estímulo punitivo): - INDEFENSIÓN APRENDIDA: o Diseño triádico: El diseño implica dos fases: una de exposición y otra de condicionamiento. Durante la fase de exposición, un grupo de ratas (E, por escape) es expuesto a descargas periódicas que pueden ser terminadas realizando una respuesta de escape (por ejemplo, hacer girar una pequeña rueda o un tambor giratorio). Cada sujeto del segundo grupo (A, por acoplado) se acopla a un animal del grupo E y recibe la misma duración y distribución de descargas que su pareja del grupo E, por lo que no hay nada que los animales del grupo A puedan hacer para terminar las descargas. El tercer grupo (C, por confinado) no recibe descargas durante la fase de exposición, pero se le confina en el aparato por el mismo tiempo que permanecen ahí los otros grupos. Durante la fase de condicionamiento los tres grupos reciben entrenamiento de escape-evitación, que por lo general se lleva a cabo en un aparato de vaivén con dos compartimentos adyacentes. Los animales tienen que ir y venir entre ambos compartimentos para evitar la descarga. La exposición a descargas incontrolables (grupo A) produce un grave impedimento del aprendizaje posterior de escape-evitación. En la fase de condicionamiento del experimento, el grupo A por lo general muestra un desempeño de escape-evitación mucho más deficiente que los grupos E y C. En contraste, se observan pocos o ningún efecto perjudicial después de la exposición a descargas de las que es posible escapar. De hecho, el grupo E suele aprender la tarea posterior de escapeevitación con tanta rapidez como el grupo C, que no recibió descargas durante la fase de exposición. El hecho de que el grupo A muestre un déficit en el aprendizaje posterior en comparación con el grupo E indica que los animales son sensibles a las diferencias de procedimiento entre las descargas de las que es posible escapar y las descargas acopladas de las que no puede escaparse. La principal diferencia de procedimiento entre los grupos E y A es la presencia de una contingencia entre respuesta y reforzador para el grupo E pero no para el grupo A. Por consiguiente, la diferencia en la tasa de aprendizaje entre esos dos grupos demuestra que los animales son sensibles a la contingencia entre respuesta y reforzador.

Déficits motivacionales, cognitivos, emocionales  en la investigación sobre el efecto del desamparo aprendido, a los investigadores les preocupaba que el déficit de aprendizaje observado en el grupo A fuese un resultado de que esos animales hubieran aprendido a permanecer inactivos en respuesta a la descarga durante la fase de exposición.  ¿Por qué? o Hipótesis del desamparo aprendido: se basa en la conclusión de que los animales pueden percibir la contingencia entre su conducta y la entrega de un reforzador. La incontrolabilidad del evento aversivo conlleva la adquisición de una creencia generalizada sobre la falta de control de la conducta sobre los eventos del medio, es decir, supone que durante la exposición a descargas de las que no pueden escapar los animales aprenden que éstas son independientes de su conducta, es decir, que no hay nada que puedan hacer para controlarlas. o Indefensión en seres humanos como modelo de depresión reactiva: 

-

PERTINENCIA R-C: son las predisposiciones naturales, es decir, que ciertas respuestas son naturalmente pertinentes para el reforzador debido a la historia evolutiva del animal. Es una idea teórica, propuesta originalmente por Thorndike, de que la historia evolutiva de los organismos hace que ciertas respuestas correspondan o sean relevantes para ciertos reforzadores. La pertinencia facilita el aprendizaje. o Importancia de la coherencia R-C o La interferencia de la deriva instintiva: la deriva instintiva es un concepto acuñado por los Breland para describir el efecto de interferencia que la Conducta innata puede ejercer sobre la Conducta Operante.

5. EXTINCIÓN DEL CONDICIONAMIENTO INSTRUMENTAL - Definición: Disminución de la respuesta como consecuencia de que deja de ir seguida por el reforzador. - Efectos paradójicos de la extinción: o El efecto de sobre-entrenamiento  El sobre-entrenamiento con la respuesta instrumental, con reforzamiento continuo, facilita su extinción posterior o El efecto de la magnitud del reforzamiento  La magnitud del reforzamiento durante el entrenamiento facilita la extinción posterior de la respuesta instrumental o El efecto del reforzamiento parcial:  El reforzamiento parcial de una conducta, dificulta su posterior extinción, es decir, permite que los organismos aprendan acerca de la falta de recompensa de formas que los inmunizan contra los efectos de la extinción.

 ¿Por qué estos efectos paradójicos? - Descartar la teoría de la discriminación: ...