Computación afectiva y voz: detección de estados anímicos en la cara y en la voz

Publicado el 20 diciembre 2024 por Ignacio G.r. Gavilán @igrgavilan
Un campo de la computación, y muy especialmente de la que tiene que ver con la inteligencia artificial, que recibe gran interés, aunque al tiempo resulta polémico o desafiante desde el punto de vista ético y regulatorio, es la detección de emociones por las máquinas, por algoritmos y robots.

Computación afectiva

Aunque últimamente quizá no se utilice mucho este nombre, existe un subconjunto de la inteligencia artificial denominado computación afectiva ('affective computing') que se concentra en ello, una disciplina a la que hace un tiempo dediqué bastante espació en este blog a propósito de la lectura del libro 'The Oxford handbook for affective computing' y una disciplina que su creadora, Rosalind Pickard definía como 

computing that relates to, arises from, and deliberately influences emotion.

una definición compacta y clara y no exenta de ambición e incluso polémica puesto que declara la intención, no sólo de detectar emociones sino de, deliberadamente, influir en ellas.

Modelos de emociones. 

Una de las tareas de la computación afectiva es, claro, detectar las emociones de los humanos. Y el resultado de esa detección podría ser, simplemente, una etiqueta que clasifique la emoción. En esa labor es frecuente acudir al campo de la psicología para que nos defina y clasifique de alguna manera las emociones humanas.

Un muy famoso, aunque no completamente aceptado, modelo de emociones es el de las seis emociones básicas definidas por Paul Ekman, que identificaba seis emociones que, además, se daban en todas las culturas: alegría, ira, miedo, asco, sorpresa, tristeza.

Las seis emociones fundamentales de Ekman


Hay que decir que este modelo ha sido discutido y que el propio Ekman amplió este modelo para llegar hasta las quince emociones, en lugar de 6.


Detección visual de emociones 

No es del todo difícil imaginar cómo trabajar en la detección visual de emociones. Más o menos, la idea podría ser: partimos de un sensor (típicamente una webcam) que captura la imagen y se le da como entrada a un algoritmo (típicamente una red neuronal, probablemente con unas primeras capas de convolución para 'entender la imagen' y otras capas densas finales para realizar la clasificación con una función de actividad final de tipo softmax). A este algoritmo, evidentemente se le ha entrenado previamente, seguramente mediante aprendizaje supervisado, para que aprenda a hacer la clasificación.

El mismo Ekman planteó también otra forma de trabajar, no pensando en machine learning, pero sí orientada a la detección visual de las emociones, mediante el desarrollo de FACS ('Facial Action Coding System') en que se definen una serie de unidades de acción ('action units') que eran como elementos de la expresión facial anatómicamente observables y que luego se relacionan con emociones.

FACS y action units


Lo que no cabe duda es de que, con mayor o menor acierto, es viable la detección de emociones humanas mediante la expresión facial

Análisis de sentimiento

Pero hay otros mecanismos. Es muy conocido en el campo de la inteligencia artificial el denominado análisis de sentimiento ('sentiment analysis'), que trabaja con un texto (texto que lo puede haber tecleado un usuario, que puede proceder de un tuit, un correo electrónico, una noticia, un documento, o que puede provenir de la conversión a texto de lo dicho vocalmente por una persona) y se le asigna una etiqueta que representa la actitud del emisor/emisora de ese texto hacia lo que allí expresa.

Es una tarea propia del procesamiento de lenguaje natural y que da buenos resultados en el estado actual de la tecnología.

Detección acústica de emociones

Pero lo que, en el fondo, me ha animado a escribir este post es otra forma de detectar emociones humanas, en este caso, con base en la voz y las propiedades físicas del sonido emitido por el humano.

Se trata de una forma de trabajo que me encuentro descrito en el libro 'The Oxford Handbook of Computational Linguistics' editado por Ruslan Mitkov y, en concreto, en el capítulo 'Text-to.Speech synthesis' de Thierry Dutoit y Yannis Stylianou.

En este caso, se trabaja con el propio sonido, con la onda del sonido, no con el texto que se expresa, enlazando un poco, aunque creo que no exactamente, con la idea de la prosodia.

Se trata de la exposición de un trabajo ya antiguo, realizado por la propia Rosalind Pickard de la que hablábamos más arriba, y que relaciona las propiedades del sonido de la voz con las seis emociones de Ekman, que mencionábamos antes.

En la tabla se pueden observar esas correspondencias.


Como se puede ver en esa tabla, Pickard se fijaba en cuatro propiedades:

  • La velocidad del hablante, es decir la tasa a la que va emitiendo elementos léxicos

  • El tono ('pitch') es decir, si es más agudo o más grave, (medido a partir de la frecuencia fundamental del sonido de la voz) y del cual evalúa tanto su valor medio como el rango de tonos empleados.

  • La intensidad de la voz 

Aunque parece un estudio algo preliminar y no del todo operativo, da buenas pistas de cómo las propiedades físicas de la voz correlan con las emociones y estados anímicos.

Combinaciones

No me resulta difícil imaginar que un mecanismo avanzado de detección de emociones, como podría incluir un robot social avanzado, probablemente reuniría percepción multisensorial y ejecutaría un análisis multimodal que combinaría los elementos visuales, textuales, acústicos e incluso alguno más, para proporcionar un mecanismo de detección de emociones altamente sofisticado y efectivo.

Conclusiones

Por si alguien lo duda a estas alturas, las máquinas, combinando sensores y procesamiento mediante inteligencia artificial, están bien preparadas para detectar emociones en los humanos, unas emociones que pueden detectar, al menos, mediante la imagen facial, el texto expresado por la persona y, además, por el propio sonido de la voz.