Facultad de Psicología Asignatura: Aprendizaje y Condicionamiento Profesor: Pablo Adarraga <pablo.adarraga@uam.es> U UNIVERSIDAD AUTONOMA DE MADRID Práctica 1: Condicionamiento de una rata virtual El trabajo se articula en tres partes: 1.- Establecimiento de un reforzador secundario. 2.- Moldeado de la R de presión de palanca 3.- Aplicación de programas de refuerzo y extinción. 1.- Establecimiento de un reforzador secundario. Se trata de entrenar a la rata mediante condicionamiento clásico, de forma que el sonido que se produce al pulsar la palanca actúe como un estímulo condicionado (EC) con valor apetitivo para el organismo, y que como tal pueda ser utilizado como reforzador en fases posteriores. Puesto que la RC que vamos a establecer es esencialmente una respuesta emocional condicionada (REC) que no va acompañada de reacciones motrices que podamos observar fácilmente, necesitaremos alguna forma de saber cómo progresa la adquisición. En la vida real tendríamos que usar alguna técnica de laboratorio para medir dicho progreso, pero con el programa Sniffy es más fácil, ya que nos permite "ver dentro de la mente" de la rata los estados de las asociaciones que va aprendiendo. Para ello, en el menú Windows seleccionaremos "Mind windows" (ventanas de la mente), y en el submenú correspondiente, "operant associations". Ahora tendremos en el espacio de la aplicación una nueva ventana: Las tres posibles asociaciones que aparecen están todas "a cero", ya que estamos trabajando con una rata ingenua (que todavía no ha recibido entrenamiento alguno). A medida que progresemos, los histogramas correspondientes nos permitirán ver el grado en que cada una de esas asociaciones se ha establecido. De momento sólo nos interesa la primera, sound-food (sonido-comida), ya que vamos a usar el sonido de la palanca como EC y la comida que cae en el comedero como EI. Para ello vamos a seguir la siguiente regla: Cada vez que la rata esté cerca del comedero y orientada (mirando) hacia él, le administraremos el EC seguido del EI. Para administrar el par EC-EI basta con que pulsemos una vez la barra espaciadora o, como alternativa, que hagamos click con el ratón sobre la palanca del comedero. Cualquiera de estas acciones provocará el sonido característico de la palanca (una especie de "clonc") que usamos como EC, seguido rápidamente de la aparición en el cuenco del comedero de una pellet (un pequeño fragmento de comida), que actúa como EI. En esta fase es importante que la rata "vea" la comida nada más sonar el EC, pues así la demora EC-EI será más breve y la asociación se establecerá mejor. Mientras la rata permanezca orientada hacia el comedero, consumiendo el último EI que le hemos dado, conviene aprovechar para darle más pares EC-EI: podemos usar "ráfagas", siempre y cuando se mantenga bien orientada. En cambio, cuando la rata se aleje o mire hacia otros lugares no debemos administrarle nada. Si todo va bien, a los pocos minutos el organismo comenzará a aprender la asociación pavloviana entre el sonido y la comida, lo cual se manifestará en el histograma de la ventana de asociaciones: Si proseguimos unos minutos, la fuerza de la asociación seguirá creciendo: Cuando la fuerza de la asociación alcance las tres cuartas partes del máximo posible se puede considerar suficiente (obsérvese la indicación en la ventana lab assistant): Como nos indica la ventana lab assistant, ya se puede utilizar el sonido de la palanca como reforzador para moldear la conducta de la rata. Por tanto, el objetivo de esta primera fase está cumplido. 2.- Moldeado de la conducta de presión de palanca. Aunque es bastante probable que a estas alturas la rata ya haya presionado la palanca alguna que otra vez, serán con seguridad muy pocas. El objetivo de esta fase es implantar la conducta de presión de palanca con cierta estabilidad. Puesto que su tasa es muy baja o nula, vamos a moldearla. Recordemos que el moldeado o shaping es el reforzamiento de aproximaciones sucesivas a la conducta objetivo: vamos a ir reforzando conductas que cada vez más "lleven" al organismo a la que deseamos. Dada la configuración de la caja de Skinner que estamos usando, la rata debe alzarse sobre sus patas traseras ("rampar") para poder accionarla. Por tanto, una posible secuencia de moldeado es la siguiente: a) Reforzamos la conducta de rampado en cualquier punto de la cámara. b) Una vez que la conducta de rampado sea fuerte, la reforzamos sólo si ocurre en las inmediaciones de la palanca. Con esto, la rata realizará muchos rampados cerca de la palanca, y acabará pulsándola aunque sea por casualidad. Una típica conducta de rampado: Empezaremos, pues, por reforzar este tipo de conductas en cualquier punto de la caja. Para observar el progreso del moldeado nos serviremos de nuevo de la ventana de asociaciones, pero ahora nos vamos a fijar sobre todo en el histograma de la derecha (action strengh) que nos indica hasta qué punto ha resultado reforzada de momento la conducta objetivo (el rampado, en nuestro caso). Al cabo de unos minutos de recompensar a la rata por rampar, veremos fácilmente que tal conducta se produce con más frecuencia y tendremos ya una cierta altura en la barra: Cuando el histograma supere aproximadamente la mitad, podemos pasar a recompensar sólo los rampados que se produzcan en la pared del fondo de la cámara y cerca de la palanca. Es posible que la action strength se resienta un poco al hacer este cambio, pero ello debería ser transitorio. Si vemos que decae demasiado, volvemos a reforzar los rampados en cualquier parte de la caja durante un rato, hasta que el histograma suba un poco más que la primera vez. Una vez que los rampados cerca de la palanca estén suficientemente reforzados, comenzarán a aparecer cada vez más frecuentemente las respuestas casuales de presión de palanca. La barra central, bar-sound, que refleja la fuerza de la asociación operante entre la presión de palanca y el R+ secundario (el sonido) comenzará a crecer un poco también. Este es un buen momento para hacer dos cosas: a) Automatizar la administración de recompensas al pulsar la palanca (si no lo hemos hecho antes). Para ello seleccionaremos en el menú Experiment la opción Design operant conditioning experiment: En el cuadro de diálogo que aparece, nos aseguraremos de que en el desplegable Reinforcement action aparece seleccionada bar press. Ahora la caja administrará automáticamente comida cada vez que la rata presione la palanca. b) Empezar a registrar la conducta de presión de palanca. Para ello, ponemos en marcha el registro acumulativo, usando Windows | Cumulative records | Cumulative record:1 El registro acumulativo aparece en una nueva ventana, normalmente en la parte inferior de la ventana del programa: En todo caso, siempre podemos mover las ventanas a nuestro gusto para ver todo cómodamente. Ahora podemos ver temporalmente las Rs de presión de palanca que ha dado la rata hasta ahora, más las que sigue dando. Los trazos cortos oblicuos que cortan el registro acumulativo indican los momentos en que la rata ha recibido recompensa. Podemos seguir durante unos minutos recompensando manualmente los rampados en la proximidad de la palanca, pero enseguida veremos que las respuestas de presión de palanca van a más. Esto se pondrá de manifiesto tanto en el histograma bar-sound como en el registro acumulativo: A estas alturas ya podemos dar por concluido el moldeado. La rata seguirá aumentando su R de presión de palanca sólo por efecto del R+ que le da automáticamente la caja: En este momento, tenemos la R de presión de palanca bajo refuerzo continuo, y podemos ver que sigue fortaleciéndose hasta llegar al máximo. Por tanto, hemos cubierto el objetivo de esta fase. Merece la pena notar dos cosas: una, que ha aparecido una segunda ventana de registro acumulativo. Esto se debe simplemente a que los registros en el programa Sniffy tienen una longitud limitada; no reviste la menor importancia teórica. Y dos, que el lab assistant nos indica que la rata está lista para probar los efectos de distintos programas de refuerzo (reinforcement schedules). Eso nos permite proceder a la última fase del trabajo. 3.- Aplicación de programas de refuerzo y extinción El objetivo de esta fase es aplicar a la rata los cuatro programas básicos de refuerzo y realizar dos extinciones de la respuesta de presión de palanca. La estructuración temporal de estas situaciones queda al arbitrio del estudiante. Por ejemplo, a partir de la rata condicionada en la fase anterior, puede hacerse lo siguiente: - Aplicar programas RF de exigencia creciente (RF-5. RF10, etc.) Pasar a programas IF (IF-10", IF-30"...) Extinguir la R Volver a aplicar refuerzo continuo Pasar a programas IV Pasar a programas RV Extinguir la R. O cualquier otra secuencia que el estudiante prefiera. También existe la posibilidad de que cada uno de los programas básicos se apliquen siempre a partir del mismo fichero original (la rata en refuerzo continuo) que se obtuvo en la fase anterior... o cualquier otra combinación. Para aplicar un programa de refuerzo a la rata, usaremos de nuevo Experiment | Design operant conditioning experiment. Supongamos que deseamos programar la caja para que aplique un RF-5. Entonces seleccionaremos las opciones marcadas en el cuadro: A partir del momento en que pulsemos OK, la caja administrará recompensa a cada quinta R (RF-5). En el registro acumulativo aparecerá automáticamente una anotación del cambio de programa que hemos hecho. Otro ejemplo: para poner la cámara operante en IV-10", marcaríamos estas otras opciones: Y así sucesivamente. Para extinguir la R, simplemente seleccionaríamos la opción "Extinction". Como es lógico, al realizar cada cambio tendremos que dejar a la rata un cierto tiempo en la nueva situación hasta que aprenda a amoldar su comportamiento a la misma. Es importante tener en cuenta que los aumentos muy bruscos de exigencia pueden hacer que la R se extinga. Por ejemplo, si pasamos directamente de RF-5 a RF-50, resulta probable que se produzca extinción. Siempre que hagamos un cambio conviene vigilar los histogramas de las fuerzas de asociación, así como el registro acumulativo, para asegurarnos de que la conducta de la rata se está adaptando. Entrega del trabajo Lo que se entrega para evaluación del trabajo es lo siguiente: - Portada adaptada a partir de la plantilla suministrada - Extractos comentados de los registros acumulativos obtenidos en la fase 3. La entrega debe realizarse en papel y con la fecha límite indicada en la página de la asignatura: http://www.uam.es/personal_pdi/psicologia/adarraga/cto-p1.html Puedes descargar la plantilla de la portada en esa misma página. Selecciona los fragmentos relevantes de los registros acumulativos obtenidos, es decir, aquellos que muestren cambios (por ejemplo aumentos o disminuciones de la TR), efectos ya conocidos (pausas post-reforzamiento, explosión de respuesta...) o patrones típicos de los distintos programas (tasa muy altas, festoneado, etc.) Copia esos fragmentos mediante captura de pantalla y/o algún programa de edición de imágenes. Sirviéndote de este último, añade anotaciones e interpretaciones a los registros. Puedes usar flechas y texto, bocadillos tipo comic... como prefieras. Por ejemplo: "Aquí se observa que al pasar a RV-5 la TR comienza a subir", "esto parece un pico de respuesta", "la TR se ha estabilizado", "aquí parece que comienza a decaer la TR"... Una vez que lo tengas, lo grapas con la portada y listo. Aunque esto es lo único que se requiere a efectos de evaluación, te animo a que explores otras opciones más avanzadas que ofrece el programa. Si te surgen dudas durante la realización de la práctica, recuerda que el lugar preferente para consultarlas es el foro de la asignatura. Buena suerte :)