Control por voz: por qué la IA debe resistirse a nuestro mal hábito de estereotipar el habla humana

El director general de Google, Sundar Pichai, dijo recientemente que el 20% de las búsquedas de la empresa se inician por voz a través de teléfonos móviles. Y, a finales de 2017, el análisis del mercado estadounidense sugería que se habían vendido un total de 44 millones de dispositivos Amazon Alexa y Google Home.

La tecnología tiene habilidades cada vez más impresionantes para reconocer palabras, pero -como experto en acústica - me parece claro que la comunicación verbal es mucho más compleja. La forma en que se dicen las cosas puede ser tan importante como las palabras mismas. Cuando alguien dice "Estoy bien", el tono de su voz puede decirte que su estado de ánimo es el contrario de lo que ellos dicen.

Los gadgets controlados por la voz, también conocidos como altavoces inteligentes o asistentes virtuales, pueden ser frustrantes de usar porque sólo prestan atención a las palabras y, en su mayoría, ignoran cómo se expresa el habla. Los gigantes de la tecnología esperan que la próxima frontera para los dispositivos, como Amazon Echo, sea detectar cómo se siente una persona desde su voz para hacer que las interacciones sean más naturales.

La voz humana puede dar información sobre quién es esa persona, de dónde viene y cómo se siente. Cuando un extraño habla, la gente se da cuenta inmediatamente de su acento y entonación y hace suposiciones sobre su clase, sus antecedentes y su educación.

Si los gadgets de control de voz captan esa información, se podrían mejorar las interfaces de voz. Pero vale la pena tener cuidado con las consecuencias no deseadas. La tecnología se basa en el aprendizaje automático -una rama de la inteligencia artificia l que reúne algoritmos y estadísticas aprendidas por una máquina que ha sido alimentada con una gran cantidad de datos-, por lo que su comportamiento no es del todo predecible.

¿El futuro es inteligente o tonto?

Las investigaciones muestran que los ejemplos de lenguaje utilizados para entrenar la aplicación de aprendizaje automático pueden conducir a sesgos. Tales problemas con la tecnología han sido evidentes en herramientas populares como Google Translate.

Cuando se utilizan, por ejemplo, para traducir al inglés las frases turcas "o bir doktor" y "o bir hemşire", el servicio de Google devuelve los resultados "él es médico" y "ella es enfermera". Pero "o" es un pronombre de tercera persona neutro en turco. La presunción de que un médico es hombre y una enfermera es mujer refleja los prejuicios culturales y la distribución sesgada de género en la profesión médica.

Google Translate captó un sesgo cultural humano que estaba en los datos en los que los algoritmos fueron entrenados y el resultado final es un sistema de traducción sexista.

No es una tarea fácil de resolver porque el aprendizaje automático se hace eco de los estereotipos humanos. Cuando los humanos escuchan las voces, simplifican el trabajo de averiguar cómo responder a alguien usando reglas generales.

Las investigaciones muestran que cuando la gente escucha a una mujer terminar muchas de sus frases con una inflexión ascendente, conocida como uptalk, la suposición típica es que son jóvenes. Si un hombre habla con voz grave, se supone que es grande y fuerte. Tales suposiciones simplificadas sobre el habla pueden llevar a juicios prejuiciosos.

Un estudio encontró que los sospechosos criminales con acento de Birmingham eran más propensos a ser clasificados como culpables en comparación con aquellos con un acento más neutral. La investigación también ha revelado que un acento no nativo era percibido como más falso.

Averiguar si una persona está enfadada, feliz o triste por su habla podría ser muy útil para cualquiera que utilice dispositivos controlado por voz. Pero las señales vocales que la gente emite varían de persona a persona, y a través de idiomas y culturas. Los seres humanos no siempre reconocen correctamente las emociones, como testificará cualquiera que haya estado en una relación, así que ¿por qué debería esperarse que las máquinas puedan hacer un mejor trabajo?

La investigación sobre el " gaydar" auditivo de las personas -un término coloquial utilizado por algunos que afirman que pueden intuitivamente decir si alguien es gay, lesbiana o bisexual- ofrece un buen ejemplo de señales ambiguas e incluso falsas. Los oyentes hacen suposiciones, por ejemplo, sobre cómo debería sonar un hombre gay, como por ejemplo, tener una voz más aguda, pero a menudo son erróneas. Los actores que hacían frente a estereotipos incorrectos en aparentes respuestas a las expectativas del público se convirtieron en una especie de norma cultural en las pantallas de televisión como muestra la investigación.

La ambigüedad individualizada y natural de las señales vocales puede conducir a errores, a menos que las empresas tecnológicas aprendan de sus percances. Los prejuicios arraigados podrían ser aprendidos por las aplicaciones que intentan interpretar las voces humanas, dado que la tecnología se basa en gran medida en el aprendizaje de los datos a los que se alimenta.

Es posible que las empresas de tecnología que desarrollan dispositivos y servicios controlados por voz ya hablen con expertos en acústica. Pero necesitan escuchar atentamente las advertencias para comprender mejor las trampas que hay que evitar, antes de aplicar el aprendizaje automático a la decodificación de la voz humana.