Title | INF Exp 8 APR Moldeamiento, extinción y recuperación espontánea |
---|---|
Author | Alba Felipe |
Course | Psicología del Aprendizaje |
Institution | Universidad de Salamanca |
Pages | 10 |
File Size | 407.3 KB |
File Type | |
Total Downloads | 20 |
Total Views | 121 |
Download INF Exp 8 APR Moldeamiento, extinción y recuperación espontánea PDF
Experimento 8: Moldeado, extinción y recuperación espontánea. Alba Felipe Esteban. Psicología del aprendizaje. Facultad de psicología, USAL.
A finales del siglo XIX, Edward Thorndike realizó varios experimentos con gatos en los que pudo comprobar que cuando la consecuencia de la conducta del animal es positiva para el mismo, esta se ve fortalecida de tal manera que la probabilidad de que esta conducta tenga lugar, se incrementa. Explica este tipo de aprendizaje alegando que el animal asocia la conducta con sus consecuencias, ya sean positivas o negativas, de este modo laconducta en sí se fortalecerá o debilitará en función de las consecuencias que tenga para el propio individuo ejecutor. De esta manera, lo natural en el avance conductual del individuo es que fortalezca las conductas de consecuencias positivas mientras que tenderá a la eliminación de toda conducta de consecuencias negativas. En esto tendríamos la base para la llamada “Ley del Efecto” de Thorndike, pero tenemos también que contar con el hecho de que la conducta debe entrenarse y repetirse para fortalecer esa conexión entre estímulo y respuesta; la falta de práctica debilitaría esa conexión. Thorndike llamó a esto “Ley del ejercicio”. Sin duda, a pesar de que en el plano más empírico de la Psicología las ideas de Thorndike hayan quedado ligeramente descatalogadas, se trata de principios de vital importancia para el avance de la Psicología del Aprendizaje en particular y de la Psicología como ciencia en general. B. F. Skinner desarrolló las ideas de Thorndike y con ello llega a un hito en la historia de la Psicología;desarrollael concepto de C ondicionamiento Instrumental u Operante. Skinner se planteaba dos problemas principales encuanto a la conducta guiada por las consecuencias: Primero que si utilizamos cajas problema o laberintos, la conducta que observamos es discreta, y segundo que previamente al estudio y descripción de la conducta guiada por las consecuencias, debemos establecer una unidad de conducta medible que podamos identificar con claridad como conducta instrumental. Para poder dar una solución a estos problemas, por un lado, diseña lo que llamamos “ Caja de Skinner” o “Cámara Operante” q ue permitía al organismo emitir la conducta sin restricciones y al observador/experimentador, medir conductas mucho más parecidas a las conductas naturales, y por otro lado, plantea la idea de “Operante” como unidad conductual que se define por los efectos que opera en el ambiente.
Figura 1: Cámara operante.
En el condicionamiento clásico vemos que se emparejan dos estímulos y la respuesta es claramente elicitada por el estímulo, pero debemos tener en cuenta que Skinner, en el condicionamiento operante, no habla en ningún momento de asociaciones E-R, lo que trata es la fuerza de las respuestas en función de si éstas van seguidas por un refuerzo o no; en caso de ir seguidas del refuerzo, las respuestas se fortalecen y tienen mayor probabilidad de llevarse a cabo en un futuro. Lo que trata Skinner se puede considerar una asociación Respuesta-Estímulo Reforzante.
Figura 2: Comparativa entre el condicionamiento clásico y el condicionamiento operante.
Sibien es cierto que en muchos casos, a pesar de ser procedimientos diferentes, son claramente compatibles. Por ejemplo, en los procedimientos de entrenamiento y moldeamiento al comedero (un tipo de procedimiento de los llamados de operante libre) se han de combinar ambos tipos. En este entrenamiento se pretende enseñar a un animal, por ejemplo una rata, a comer de un comedero presionando una palanca para que salga la comida. Al comenzar el entrenamiento los animales presentan una tasa de presión de la palanca (línea base) muy baja. Primero deben aprender cuándo está disponible la comida mediante un procedimiento de
condicionamiento clásico (entrenamiento al comedero), en el que se vincula un EC a la disponibilidad de comida (si presionas en presencia del EC saldrá comida; si el EC no está presente, no saldrá). A continuación debe aprender a ejecutar la operante requerida (presionar la palanca) para obtener el reforzador paso a paso (moldeamiento), al principio reforzando cualquier conducta que se asemeje a la operante y exigiendo una respuesta cada vez más parecida a la misma (reforzamiento de aproximaciones sucesivas) mientras se deja de reforzar las conductas iniciales (no reforzamiento de las formas de respuesta más tempranas). Esta es la base de técnicasdemodificacióndeconducta como el moldeamiento, por el que enseñamos conductas nuevas a partir de conductas lo más parecidas a la conducta objetivo, que están ya en el repertorio del individuo. La base sobre laqueseasientaelcondicionamiento operante son las consecuencias de la conducta del sujeto (respuestas). Existen cuatro tipos de respuestas que se pueden clasificar de acuerdo al efecto que producen, es decir; se clasifican en función de si logran que la conducta se incremente o se reduzca (algo que va indudablemente ligado al carácterapetitivoo aversivo del estímulo) y a la forma de presentación del estímulo.
Figura 3: Clasificación de las respuestas que guían la conducta instrumental.
Visto esto, podemos pensar: ¿cómo se adquiere y cómo se elimina una conducta aprendida por Condicionamiento Operante? Al principio la conducta se da en un nivel de línea base, es decir, el nivel en que el sujeto la emite antes de reforzarla. Este nivel base puede ser cero, es decir, puede no darse la conducta en absoluto. En ese caso, la instauración de la conducta requerirá la aplicación combinada de otras técnicas además del reforzamiento (como el moldeado, las instrucciones o el modelado). Ejemplo: Imaginemos que un niño nunca participa en clase. Su nivel base para la conducta de hacer preguntas es cero y para poder reforzarla hemos primero de conseguir que la emita en algún grado; por ejemplo, animándole, mediante instrucciones, a paticipar. Una vez que consigamos la realización de la conducta en algún grado podremos reforzarla, por ejemplo con refuerzo social como Una señal
de aprobación verbal directa o con refuerzos materiales o puntos (reforzador secundario) (no importa si al principio hay que animarle siempre a preguntar, reforzaremos la pregunta igualmente, y el próximo paso será reforzarla únicamente si pregunta de modo espontaneo). Si reforzamos la conducta de preguntar, ésta aumentará su frecuencia (fase de adquisición). Al final de nuestro programa de reforzamiento (más adelante veremos los distintos programas), la conducta llegará a tomar la forma y frecuencia estable que deseamos, es lo quesellama conducta terminal. Ahora bien, si dejamos de reforzarla, la conducta se extinguirá, es decir, irá disminuyendo en frecuencia hasta volver a su línea base (fase de extinción). Si esta línea base era cero, la conducta desaparecerá. Hay ciertos aspectos de gran importancia en el reforzamiento como puede ser la calidad y cantidad de reforzador ofrecido; si la cantidad del reforzador es mucho más baja que la que esperaba el individuo tras su respuesta, no se va a conseguir que la conducta se vea reforzada. Estereforzadornotendrá un valor real frente a la asociación Respuesta-Consecuencia. Algo que debemos tener en cuenta también es que cada individuo tendrá un criterio propio para lo que es un reforzador de calidad; el agua con sacarosa puede ser un excelente reforzador para una rata que recorre un laberinto, pero no para un niño que acaba de recoger su habitación. La relación conducta-reforzador (o castigo, si lo que queremos es eliminar una conducta) también es muy importante. Existen dos tipos de relaciones entre respuesta y reforzador, la contigüidad temporal y la contingencia respuesta-reforzador. Ambos tipos de relación son independientes y necesarios. La contingencia indica al organismo cómo controlar la aparición del reforzador; es importante que el refuerzoaparezcaconmásprobabilidad cuando se la da conducta que queremos que aumente que cuando no se da. ● Por ejemplo: si quiero que Javier haga la cama todas las mañanas y cada vez que la hace la doy una piruleta, es importantequesóloconsiga piruletas por hacer la cama o, almenos, quehacerlacama haga que consiga más piruletas que si no lahace.Perosi en la cocina tiene un bote de piruletas y coge las que quiere cuando quiere, entonces la aparición de la piruleta no es contingente a hacer la cama (la tiene haga la cama o no la haga). Esta es una razón por la que fallan muchos programas de reforzamiento, especialmente en las aulas y hogares: no se controla realmente la contingencia, estando disponibles los reforzadores aunque no se hagan las conductas objetivo. Puede haber refuerzos por una conducta y también castigos por esas mismas conductas. ● Por ejemplo, nosotros reforzamos a Javier por comportarse bien en clase y traer siempre las tareas hechas y bien presentadas, pero los amigos se ríen de él por esa misma razón (castigo positivo), dejan de querer jugar con él cuando hace esas conductas (castigo negativo). Como ves, una misma
conducta tiene, normalmente, muchosconsecuentesy la conducta resultado es consecuencia del balance entre unos y otros. En cuanto a la contigüidad temporal, cuanto más demoramos la entrega del reforzador, más difícil resulta el condicionamiento.Por unlado, la demora dificulta que el organismo establezca una relación entre conducta y reforzador. Por otro, la contigüidad impide que se interpongan otras actividades entre la respuesta y el reforzador que puedan interferir en el condicionamiento de la respuesta. Si no podemos entregar el reforzador inmediatamente después de realizada la conducta a reforzar, podemos evitar los efectos de la demora utilizando dos procedimientos: introducir unreforzadorcondicionado osecundario o bien utilizar un procedimiento de marcado. Si decidimos utilizar un reforzador secundario, podemos, por ejemplo, entregar una ficha que posteriormente pueda ser cambiada por un refuerzo (reforzador condicionado o secundario). Esta es la base de los programas de Economía de Fichas, en los que, con el fin de que el individuo aumentelafrecuencia de diversas conductas, se otorgan fichas de distinto valor por cada conducta objetivo realizada. Las fichas pueden ser canjeadas por diferentes reforzadores, normalmente de valor diverso (cuanta mayor magnitud del reforzador, más número de fichas son necesarias para obtenerlo). Si decidimos utilizar un procedimiento de marcado, debemos indicar (marcar) la respuesta que queremos que aumente en frecuencia de manera inmediata y, posteriormente, entregar el reforzador o consecuente, recordando la conducta marcada. Por otra parte, los estudios indican que cuanto más tiempo tengamos que esperar por un reforzador, más valor pierde. Este hecho, junto con la influencia de la magnitud del reforzador (lo “grande” que sea para el individuo) en su valor, son los elementos claves en la denominada Función Descontadora del Valor, que trata de explicar las conductas de autocontrol. Función descontadora del valor: V=M/(1+KD) Donde: V: Valor del reforzador M: Magnitud del reforzador D: Demora del reforzador K: Tasa descontadora (cuánto se devalúa el reforzador por cada unidad de tiempo que nos separa de él). Indica el grado de “impulsividad”. Una vez hemos expuesto la generalidad teórica del Condicionamiento Operante podemos continuar profundizando con el experimento llevado a cabo. Vamos a
hacer que la rata con la que trabajamos adquiera una conducta y la mantenga en el tiempo debido a que esta respuesta asociada a la señal sonora, se asociará también a una consecuencia positiva: obtener comida. Este objetivo se va a llevar a cabo a través de 5 fases: 1. Adiestramiento al Comedero: Recompensaremos al sujeto por las conductas de acercamiento al comedero dejando caer una bola de comida. 2. Elevarse sobre las patas de atrás: Seguimos con un procedimiento muy parecido a lo anterior, pero ahora recompensamos toda conducta cercana a lo que sería el hecho de pulsar la palanca. 3. Presionar la palanca: lo que se refuerza ahora es la “presión de la palanca” como tal; esto sellevaa cabo mediante un programa de refuerzo continuo en el que cada aparición de la respuesta instrumental da lugar a la presentación del reforzador. 4. Extinción: El claro objetivo de esta fase es conseguir que la tasa de respuesta se reduzca a 0. Se consigue mediante la ausencia de reforzadores de conducta ya que sin el reforzador, la respuesta se debilita. La rata será extraída de la cámara durante 24h. 5. Recuperación espontánea: Tras 24h fuera de la cámara y habiendo sido extinguida la conducta de presión de palanca, la rata es reintroducida en el entorno experimental, de forma que podemos ver como de una tasa de respuesta igual a la de la línea base inicial pasa a una tasa de respuesta cercana a la de la fase 3. Se ha producido la llamada “recuperación espontánea”. INSTRUMENTOS Y MATERIALES. Utilizaremos ordenadores con un sistema operativo Windows 10 y la simulación se llevará a cabo a través del programa “Sniffy: the virtual rat.” una rata digital realista en una cámara operante (Skinner Box). La versión Pro de Sniffy que se utiliza en este experimento incluye cincuenta ejercicios que cubren todos los fenómenos principales que normalmente se tratan en un curso de Psicología del aprendizaje. Este programa dota a cada uno de los sujetos de una particularidades que lo hacen distinto al resto del grupo, aproximando así la experiencia virtual a la real.
MÉTODO. Sujetos: Se va a trabajar con una única rata de laboratorio, la ofrecida de forma estándar por el simulador Procedimiento. 1. Adiestramiento al Comedero: Recompensaremos al sujeto por las conductas de acercamiento al comedero dejando caer una bola de comida. Esta fase se considera terminada cuando la fuerza asociativa que se observa en el visor “Operant association” llega al 75% del total.
2. Elevarse sobre las patas de atrás: Seguimos con un procedimiento muy parecido a lo anterior, pero ahora recompensamos toda conducta cercana a lo que sería el hecho de pulsar la palanca. Esta fase se considera terminada cuando en la ventana “Repertorio conductual” las secciones correspondientes a Palanca-Sonido y Fuerza de la Respuesta. 3. Presionar la palanca: lo que se refuerza ahora es la “presión de la palanca” como tal; esto sellevaa cabo mediante un programa de refuerzo continuo en el que cada aparición de la respuesta instrumental da lugar a la presentación del reforzador. 4. Extinción: El claro objetivo de esta fase es conseguir que la tasa de respuesta se reduzca a 0. Se consigue mediante la ausencia de reforzadores de conducta ya que sin el reforzador, la respuesta se debilita. La rata será extraída de la cámara durante 24h. 5. Recuperación espontánea: Tras 24h fuera de la cámara y habiendo sido extinguida la conducta de presión de palanca, la rata es reintroducida en el entorno experimental, de forma que podemos ver como de una tasa de respuesta igual a la de la línea base inicial pasa a una tasa de respuesta cercana a la de la fase 3. Se ha producido la llamada “recuperación espontánea”. RESULTADOS. FASE 1:
Figura 4: F uerza asociativa de el par Sonido-Comida.
Figura 5: R epresentación de los reforzadores que han sido necesarios.
FASE 2:
Figura 6: A sociaciones operantes.
Figura 7: I ncremento en la conducta de levantarse sobre las patas traseras.
FASE 3:
Figura 8: Asociación operante.
Figura 9: Incremento en las respuestas de presión de la palanca.
FASE 4:
Figura 10: M uestra de la pérdida de fuerza de la respuesta en la fase de extinción.
Figura 11: Reducción significativa en la tasa de respuesta.
FASE 5:
Figura 12: I ncremento en la fuerza de las respuestas en el caso de la recuperación espontánea.
Figura 13: Readquisición de la respuesta operante.
DISCUSIÓN. En las tres primeras fases podemos observar un cambio conductual en la rata, ya que adquiere la conducta de “presionar la palanca” por condicionamiento operante. Vemos como cuando una conducta se refuerza, aumenta su tasa de ocurrencia de modo que se llega incluso a hacer sin reforzador. Si bien es cierto que la eliminación completa del reforzador lleva a la extinción de la conducta adquirida,por ejemplo cuando la sacamos de la cámara esas 24 horas, es de esperar que la tasa de respuesta vuelva a línea base. Una vez que la rata regresa al entorno experimental se puede ver como la tasa de respuesta se eleva desde línea base para alcanzar los niveles propios de respuesta durante el condicionamiento en presencia del reforzador. BIBLIOGRAFÍA. ● Domjan, M. (2010). Principios de aprendizaje y conducta. 6ª Edición 149-154. ● Domjan, M. (2010). Principios de aprendizaje y conducta. 6ª Edición 301-306. ● Allowey, T., Wilson, G. & Graham, J. (2011) Sniffy, the virtual rat Pro....