Angry Birds y Skinner: conductismo en la vida cotidiana

El conductismo (más precisamente, el análisis de la conducta), no es el modelo más popular dentro de la psicología. La persona promedio probablemente desconozca prolijamente el nombre de Burrhus Frederic Skinner (su representante más conocido), e incluso una buena parte de los psicólogos tiene dificultades para distinguir entre condicionamiento clásico (o respondiente) y condicionamiento operante, sin mencionar distinciones más sutiles, como la que hay entre refuerzo negativo y castigo.

A pesar de haber pasado a un segundo plano en lo que a popularidad se refiere, los principios planteados por Skinner siguen absolutamente vigentes, utilizándose en toda una gama de situaciones y contextos. Esto es posible porque los principios del condicionamiento operante son aplicables a todo organismo, incluyendo a los seres humanos.

Los principios planteados por Skinner siguen absolutamente vigentes

El conductismo operante se basa en una premisa muy simple: toda conducta se ve afectada por sus consecuencias. Es una descripción de cómo funciona el aprendizaje de los organismos, y en este sentido, las leyes del aprendizaje no son una invención (así como Newton no inventó la gravedad), sino una descripción de cómo todo aprendizaje tiene lugar.

Un ámbito interesante para echar un vistazo a esto es el de los videojuegos. Los videojuegos han dejado de ser ámbito exclusivo de las consolas para pasar a ser accesibles a un amplio número de personas a través de la posibilidad de jugar en el celular o incluso en el navegador (vía juegos nefastos como Farmville y similares). Y gran parte del éxito de estos videojuegos se puede explicar a través de principios conductuales, aún cuando no sean aplicados de manera deliberada. Nota para los conductistas leyendo este artículo (si, ustedes tres), vamos a sacrificar aquí la precisión técnica en aras de la claridad, así que vayan sabiendo.

Dicho esto, pasemos al Angry Birds.

Angry Birds y los principios del aprendizaje

Los videojuegos proveen una ventana a los principios básicos del conductismo. La mayoría de los videojuegos utilizan estrategias derivadas de los principios del condicionamiento operante para mantenernos “enganchados” al juego. Consideremos cualquier juego sencillo de los últimos años, como el Candy Crush, Angry Birds, Farmville, etc. (aunque esto se aplica también a los videojuegos más complejos) y veamos algunos elementos que tienen en común. Pero antes de esto, necesitamos comprender algunos términos básicos para el análisis de la conducta.

Refuerzo y castigo

Como dijimos antes, el conductismo se basa en que las consecuencias de una conducta influyen en su frecuencia. De la misma manera que en la teoría de la evolución la interacción entre las adaptaciones de un organismo y su medio hacen que ciertas modificaciones perduren y otras no, para el conductismo las consecuencias de una conducta llevan a que ésta se sostenga (es decir, que se siga produciendo), o que se extinga (que se deje de emitir). Cuando las consecuencias hacen que una conducta dada aumente se sostenga, hablamos de “refuerzo”; cuando las consecuencias hacen que una conducta disminuya, hablamos de “castigo”. Sobre este último término, probablemente “castigo” no sea el término más feliz, por lo cual hacemos hincapié en lo siguiente: “castigo” no es sinónimo de castigo físico, sino que es un término técnico para describir lo que sucede cuando las consecuencias de una conducta hacen que ésta disminuya. Debemos recordar que “refuerzo” y “castigo” no remiten a estímulos concretos, sino a funciones que ciertos estímulos ejercen sobre las conductas. Por esto incluso un abrazo (algo que podríamos considerar generalmente como un reforzador), bajo ciertas condiciones puede funcionar como un castigo para algunas conductas (si no me creen, prueben a abrazar a su hijo adolescente frente a sus compañeros).

Los videojuegos proveen una ventana a los principios básicos del conductismo

Denominamos entonces “refuerzo” a cualquier estímulo que aumenta la probabilidad de una conducta. Una distinción más fina es la de “refuerzo positivo” y “refuerzo negativo”. Hablamos de refuerzo positivo cuando la consecuencia agrega algo nuevo (por ejemplo, ganar puntos o pasar de nivel en el juego), en cambio un reforzador negativo es cuando esa consecuencia quita algo aversivo del ambiente (por ejemplo, cuando tomamos una aspirina para mitigar un dolor de cabeza). Pero ya sea que agregue algo o que remueva un aversivo, el refuerzo siempre aumenta o sostiene la frecuencia de una conducta.

Veamos cómo se aplica esto a los videojuegos. Básicamente un videojuego tiene dos objetivos

“Enganchar” al usuario, que éste aprenda las reglas básicas de funcionamiento.
Que éste siga jugando.

Para el primer objetivo, el principio conductual que aplica es el de moldeamiento (shaping), de la conducta.

Moldeamiento

El moldeamiento de una conducta es el proceso por el cual, a través de la manipulación de las contingencias, se genera una conducta que no estaba presente anteriormente. Involucra reforzar aproximaciones sucesivas a la conducta deseada hasta que se llega a ella.

Los videojuegos comienzan estableciendo recompensas por jugar: estrellas, puntos, gemas, vidas, pasar de nivel, etc. Podemos considerar a estas recompensas como “refuerzos positivos”, en tanto agregan nuevos estímulos. Una vez establecido cuáles serán los reforzadores, éstos se utilizan para generar las conductas deseadas.

El refuerzo es inmediato y contingente en las primeras etapas del juego. En los primeros niveles de Angry Birds, por ejemplo, prácticamente cualquier lugar al que se apunte será exitoso y nos permitirá pasar al siguiente nivel, es decir, se refuerza cada vez la conducta de apuntar y disparar el condenado pájaro. La dificultad es mínima en este punto es mínima, y frecuentemente hay tutoriales incorporados que nos señalan qué hacer (y a menudo, esos tutoriales sólo nos permiten seleccionar la opción correcta, eliminando la posibilidad de meter la pata).

El refuerzo es inmediato y contingente en las primeras etapas del juego

De a poco, siguiendo con el ejemplo de Angry Birds, las conductas necesarias para derribar a los cerdos son más complejas, y sólo son reforzadas las conductas con mayor precisión al apuntar, o las más rápidas, es decir, se refuerzan sólo las conductas que tienen ciertas propiedades especiales. Skinner denominó a este proceso “reforzamiento diferencial”, y dijo “es la diferencia entre ‘saber hacer algo’ y ‘hacerlo bien’. Este último es el campo de la habilidad”. Es la etapa de “aprender a jugar el Angry Birds”.

También es el camino estándar en el aprendizaje de cualquier instrumento musical: inicialmente se comienza sólo presionando teclas, luego se practican escalas sencillas que se pueden realizar sin dificultad, y de a poco se refuerzan conductas con propiedades especiales (tocar una tecla con cierta fuerza, pero no demasiada, para obtener un forte en el piano, por ejemplo.)

De esta manera, podemos construir operantes complejas que nunca hubieran aparecido en el repertorio del organismo de otra manera. Reforzando una serie de aproximaciones sucesivas, hacemos que una respuesta infrecuente tenga una alta probabilidad en un corto tiempo.

(Skinner, 1963)

Para observar el proceso de moldeamiento en otro ámbito, aquí podemos ver a Skinner moldeando una conducta nueva en una paloma (hacer que la paloma efectúe un giro completo) a través de reforzar las conductas que se acercan a la conducta deseada:

Esto es el primer paso para la adquisición de toda nueva conducta: el refuerzo de las aproximaciones progresivas a dicha conducta. Esto aplica a aprender a caminar, a tocar el piano, a hablar, hacer psicoterapia, etc. En esta charla de TED podemos ver cómo un bebé, partiendo de un sonido inarticulado llega por aproximaciones sucesivas a emitir correctamente la palabra “water” (agua) (a partir del minuto 4.30 es el segmento en cuestión)

Programas de refuerzo

Una vez adquirida la conducta (una vez que uno ya aprendió a jugar el Angry Birds, en este caso), lo siguiente que le interesa a quien diseña el juego es que la persona siga jugando, que la conducta se mantenga en el tiempo. Y aquí entran a tallar otro conjunto de principios conductuales.

¿Cuándo y qué reforzar? Si estuviéramos diseñando un videojuego, podríamos entregar un refuerzo cada vez que se emite la conducta, pero esto tiene un inconveniente: conduce a la saciación; el jugador se aburre rápidamente. Este es el problema con los juegos “demasiado fáciles”, en los que a poco tiempo de jugar se pierde el interés, aun cuando se siga reforzando al jugador.

¿Cuándo y qué reforzar?

Hay otra opción, y es la de reforzar intermitentemente la conducta. Es decir, en lugar de reforzar todas las conductas podemos hacer que el refuerzo se entregue bajo determinadas condiciones. En la vida cotidiana, esto es la norma; no obtenemos un refuerzo por cada actividad que realizamos, sino que el refuerzo se presenta bajo ciertas condiciones (por ejemplo, rara vez se paga un salario por cada vez que se trabaja, sino que habitualmente cobramos cada cierta cantidad de días o al alcanzar determinada cuota de producción). Estas condiciones son las que denominamos “programas de refuerzo”.

Los programas de refuerzo intermitente pueden depender de la cantidad de respuestas (programas de “razón”), o del tiempo transcurrido (programas de “intervalo”). Cada tipo de programa de refuerzo tiene sus utilidades y desventajas, son útiles bajo ciertas situaciones y no otras. En este artículo sólo nos vamos a detener en las características de los programas de razón.

Programa de refuerzo de razón fija: en estos programas, en lugar de reforzar todas las respuestas, el refuerzo se obtiene cada cierto número determinado de respuestas. Por ejemplo, se refuerza sólo cada 10 respuestas emitidas. Un ejemplo cotidiano podemos encontrarlo en las personas que reparten volantes en la calle, que tienen que repartir un determinado número de volantes para poder recibir su paga. En los juegos, nos encontramos con situaciones en las cuales tenemos que completar diez misiones (cantidad de respuestas), para obtener un ítem especial o para pasar al siguiente nivel (refuerzo). Todos los juegos comienzan reforzando cada conducta para pasar luego a un programa de razón fija que gradualmente va aumentando el número de respuestas requeridas. Es crucial aquí lo de “gradualmente”, ya que si no fuera así:

Cuando se utilizan programas de razón debe tenerse cuidado de no aumentar demasiado pronto la razón requerida (o, en términos más generales, la dificultad de la tarea), pues de otro modo puede presentarse una tensión de la razón y el sujeto tal vez deje de responder por completo.

(Domjan, 2010)

Esto es algo que, a propósito o no, tenemos en cuenta siempre: nunca se le impone un aumento súbito de dificultad a alguien que está aprendiendo, sino que la dificultad se aumenta gradualmente.

Estos programas de refuerzo juegan un papel importante en lo que denominamos comúnmente “motivación”. Cuando una persona actúa dentro de un programa de refuerzo de razón fija en la cual el refuerzo surge sólo después de un número altísimo de respuestas, es probable que la persona termine abandonando la actividad o que la continúe con mucha dificultad. Es el clásico ejemplo de la procrastinación del escritor, en donde el refuerzo (una novela terminada, por ejemplo), sólo surge después de un número muy alto de respuestas, y este tipo de programa de refuerzo hace que la conducta de sentarse a escribir se vuelva infrecuente. Es interesante destacar en este caso (y para otros casos similares) no resulta útil pensar en términos de que la persona “ no está motivada”, pero sí resulta útil pensar si hay refuerzos suficientes para el nivel de actividad exigido. Los videojuegos, en cambio, inicialmente recompensan niveles bajos de actividad para luego, progresivamente, requerir mayor nivel de actividad y respuestas más precisas (por llamarlas de alguna manera).

A pesar de lo que afirma el folclore psicológico, se ha opuesto al uso de aversivos cuando hay otra alternativa disponible

Programa de refuerzo de razón variable: estos programas requieren un número variable de respuestas para obtener un refuerzo. El refuerzo se obtiene aleatoriamente luego de una, diez o veinte emisiones de la conducta en cuestión. Este principio es la base de todos los juegos de azar. El ejemplo clásico es el de las máquinas tragamonedas, en donde el número de respuestas a emitir (poner una moneda y bajar la palanca), es completamente aleatorio dentro de un rango. Una conducta puesta bajo un programa así resulta notablemente persistente, y es por esto que las adicciones al juego son tan difíciles de manejar. Dicho de otro modo, dado que nunca se sabe cuándo se obtendrá el refuerzo, la conducta se sigue emitiendo.

A través del uso de refuerzos, de procedimientos de moldeado y aplicando programas de refuerzo de razón fija o variable, los videojuegos se aseguran de que la persona juegue y continúe jugando durante la mayor cantidad de tiempo posible. Por supuesto que el éxito de los videojuegos depende de varios otros factores (como su calidad y su popularidad), pero requieren inevitablemente de la aplicación exitosa de estos principios para que los usuarios continúen jugando.

Algo que vale la pena destacar: no se utilizan estímulos aversivos. El conductismo, a pesar de lo que afirma el folclore psicológico, se ha opuesto al uso de aversivos cuando hay otra alternativa disponible, y esto se debe a que los aversivos sólo disminuyen una conducta, sin generar otra conducta alternativa. Trabajar con refuerzos positivos suele ser la mejor opción a largo plazo.

Angry Birds en la vida cotidiana.

La madre que se queja de que su hijo de tres años llora y gime por atención de una manera extrema quizá no se dé cuenta de que sus propias prácticas de refuerzo son responsables de ello. Si está ocupada, quizá no responda a una llamada o un gemido hecho en un tono bajo de voz. Cuando el niño levanta su voz, ella responde. Esto es reforzamiento diferencial. La intensidad promedio de la conducta vocal del niño se eleva. Cuando la madre se ha adaptado a un nuevo nivel, nuevamente solo las instancias más intensas son reforzadas. (Skinner, 1953)

Estos principios (junto con varios otros), están presentes no sólo en los videojuegos, sino en toda nuestra vida. La cita de Skinner de arriba es un buen ejemplo de reforzamiento diferencial, situación que nos encontramos a menudo en situaciones clínicas: padres que sólo prestan atención a su hijo adolescente cuando emite una conducta particularmente nociva, amigos que sólo prestan atención cuando los niveles de demanda son altos, terapeutas que sólo se involucran activamente en la terapia cuando escuchan determinadas palabras por parte del paciente.

Los terapeutas somos parte privilegiada del ambiente de nuestros pacientes

Los programas de reforzamiento son también responsables de varios fenómenos clínicos, como ciertos casos de depresión. El descenso de los niveles de actividad y la pérdida del interés en actividades típicos de la depresión suelen ser explicables por la falta de refuerzo positivo para esas conductas, o por situaciones en las cuales el refuerzo se vuelve difícil de obtener (por ejemplo, requerir mucho trabajo para conseguir un objetivo laboral, tener que estudiar 10 años para obtener un título, sin refuerzos intermedios).

En la clínica, los terapeutas somos parte privilegiada del ambiente de nuestros pacientes. Respondemos a determinadas palabras, a determinados gestos, y no a otros; reforzamos con nuestra atención o nuestras palabras que los pacientes hablen de ciertos tópicos, somos indiferentes frente a otros, y eso lleva a que se extingan. Luego de un tiempo, los pacientes aprenden a responder de determinada manera a un mero gesto o al tono de voz del terapeuta. Y por supuesto, los pacientes son a la vez parte privilegiada del ambiente del terapeuta: nos activan, nos aburren, nos conmueven. Por eso es que la influencia recíproca es inevitable, y conocer de qué manera funcionan los refuerzos y los castigos en la situación clínica es una manera de volvernos mejores terapeutas.

Los principios conductuales no son una mera explicación, sino, fundamentalmente, una vía para cambiar las conductas. Cada uno de ellos establece bajo qué condiciones es más o menos probable que una conducta determinada se produzca o deje de producirse. Cada uno de ellos es un herramienta que nos puede ayudar a cambiar nuestra vida.

Fabián MaeroPsicólogo y profesor, atiende pacientes y cuando le queda tiempo libre escribe información biográfica en tercera persona en Psyciencia. Demasiado online para su propio bien, está siempre dispuesto a sostener discusiones sobre psicología o Star Wars, dependiendo de la hora. Miembro de la Association for Contextual Behavioral Science (http://contextualscience.org/user/fabian_maero( y del grupo ACT Argentina (www.grupoact.com.ar), intenta difundir terapias que funcionen y sean adecuadas en el contexto sudamericano; pese a esto, dicta regularmente talleres y cursos para psicólogos.

Revista Tecnología

Angry Birds y Skinner: conductismo en la vida cotidiana

Angry Birds y los principios del aprendizaje

Angry Birds en la vida cotidiana.

Sobre el autor

Sus últimos artículos

Dossier Paperblog

Revista

LA COMUNIDAD TECNOLOGÍA

JUEGOS EN ES.PAPERBLOG.COM