En este post vamos a hablar un poco de este problema, de su origen y soluciones y, sobre todo, hacer patente que a lo mejor no siempre estamos teniendo en cuenta el problema más profundo ligado al sesgo y la discriminación.
La idea de sesgo
Pero vayamos por partes. ¿Qué es el sesgo algorítmico?
Bueno, sin buscar una definición especialmente académica ni perfecta, podemos decir que el sesgo es la desviación consistente de una medida o algoritmo respecto al valor que debería dar.
Esto quiere decir, por ejemplo, y antes de llegar a un algoritmo, que un elemento de medida, digamos una báscula casera, ofrece un valor erróneo: nos dice, por ejemplo, que pesamos más de lo que realmente pesamos. Al utilizar la palabra consistente, queremos decir que es un error sistemático, no aleatorio, y que siempre opera en la misma dirección (en este caso, pongamos como ejemplo, dice que pesamos 500 gr más de lo que es el peso real). Ese es uno de los motivos por lo que los aparatos de medida se 'calibran'.
Cuando hablamos de un algoritmo con sesgo solemos referirnos a una desviación consistente en sus resultados. Recordar que un algoritmo con frecuencia actúa como una suerte de función matemática que, ante unos datos de entrada, produce un dato de salida. Si el resultado de esa función se desvía de manera consistente del valor que consideramos correcto(no aleatoria y siempre en el mismo sentido) , entendemos que el algoritmo está sesgado.
El sesgo como problema operativo y de negocio
El sesgo, pues, se puede producir en todo tipo de medidas y cálculos (no es algo exclusivo ni mucho menos de la inteligencia artificial) y creo que, sin excepción, se puede considerar un problema operativo o de negocio.
No soy capaz de imaginar ninguna situación en que una persona, empresa u organización pueda desear que sus medidas o cálculos estén sesgados. Incluso aunque, supuestamente, se pretendiese hacer un uso discriminatorio de una medada o cálculo, parece más sensato saber la verdad tal cual es (sin sesgo) y luego adoptar el uso que se considere oportuno.
Así que, desde un punto de vista técnico, operativo o de negocio, el sesgo es un problema, y es indeseable.
El sesgo como problema ético
¿Cuándo un sesgo da el salto para pasar de ser un mero problema operativo a convertirse en un problema ético?
Pues cuando ese sesgo genera discriminación, un trato diferenciado e injusto de personas individuales o, más comúnmente, colectivos, digamos por género, edad, etnia o lo que sea.
Un aviso importante a este respecto: considerar un algoritmo como sesgado y discriminatorio desde un punto de vista ético tiene que ver con nuestros valores y concepción de cuál debe ser el trato a personas y colectivos. Es decir, consideramos que un algoritmo está sesgado desde un punto de vista ético si, de forma consistente, sus resultados perjudican a algún colectivo de una forma que nos parece incorrecta.
Hago esta precisión porque considero que, en más de uno o de dos casos, algunos algoritmos que consideramos sesgados, no lo están realmente desde un punto de vista matemático, bajo cuyo punto de vista podrían ser perfectos, sino desde un punto de vista ético. Espero que esta afirmación se entienda porque explicarla más, si no es así, daría como mínimo para otro post.
El origen del sesgo algorítmico
¿Por qué se produce el sesgo algorítmico en machine learning?
Existen muchas motivaciones y me gusta mucho en ese sentido el resumen que ofrecen Mónica Villas y Javier Camacho en su libro 'Manual de ética aplicada en inteligencia artificial'. En él, nos hablan de hasta siete orígenes del sesgo:
- Sesgo histórico: se parte de unos datos que ya tienen sesgo
- Sesgo de representación o muestreo: las muestras no incluyen el número adecuado de elementos de las distintos segmentos
- Sesgo de medida: errónea selección de los atributos a medir para un determinado problema
- Sesgo de aprendizaje: las opciones de modelado (ej. métrica) amplifican alguna opción
- Sesgo de evaluación: los datos de referencia (los que se usan, no para el entrenamiento sino la calidad) no representan a la población
- Sesgo de agregación: cuando se usan datos de diferentes grupos y se asume que el mapeo de datos con etiquetas es similar en todos los grupos
- Sesgo de implementación: cuando hay una desconexión entre el problema que el modelo resuelve y cómo se usa
Para mayor detalle aconsejo la lectura del libro citado pero llamo la atención sobre el hecho de que el origen se encuentra, en general, en datos de entrada (sesgo histórico) o en defectos de tipo fundamentalmente metodológico y no ético, aunque en el caso del sesgo de representación puede responder a un cierto prejuicio oculto y/o a falta de diversidad en los equipos de trabajo.
Soluciones al sesgo algorítmico
A la hora de solucionar las problemáticas sobre el sesgo, y aunque en materia de ética de la inteligencia artificial se suele pensar en seguida en aspectos regulatorios o de gobierno, que son sin duda relevantes, llamo la atención sobre la importancia, viabilidad y efectividad de enfocarse en los aspectos operativos (eliminación de defectos metodológicos) e incluso, como los mismos autores nos cuentan, en la existencia de abundantes herramientas técnicas para la detección y en algunos casos eliminación del sesgo.
El problema profundo
Sin embargo, al hablar de sesgos, y como decía antes, estamos hablando de valores, y eso es algo propio de los humanos y en lo que, por desgracia, no hemos alcanzado nunca en la historia un consenso suficientemente amplio.
No sólo eso, los sesgos, no los algorítmicos, sino los hechos reales (hechos reales que generan los datos de que se alimentan los algoritmos, por cierto) aparte de a valores, se corresponden con herencias culturales y estados de opinión.
Y esos sesgos son mucho más profundos y difíciles de cambiar. A ese respecto, al final de su libro 'Power and prediction: the disruptive economics of Artificial Intelligence', Ajay Agrawal, Joshua Gans y Avi Goldfarb, y citando al profesor de la Universidad de Chicago, Sendhil Mullainathan, dicen:
Changing algorithms is easier than changing people: software on computers can be updated; the 'wetware' in our brains has so far proven much less pliable.
Y estoy de acuerdo. Como acabo de comentar, existen soluciones técnicas y procedimentales (aparte de las regulatorias) para eliminar los sesgos y la eventual discriminación que pueden traer consigo. Y, dentro de lo que cabe, podemos considerar que esas medidas son fáciles de aplicar.
Pero otra cosa es cambiar la mente humana, su cultura, sus valores y, eventualmente sus prejuicios. Nos insisten los autores anteriores:
discrimination is easier to detect and fix in AI systems than in humans.
Así que, tenemos labor y no sólo técnica
Conclusiones
El sesgo es algo muy anterior a la inteligencia artificial y nos habla de una desviación sistemática en medidas o cálculos, una desviación que desde un punto de vista técnico, operativo o de negocio, sólo cabe considerarla como un defecto y, por tanto, negativo.
Si este defecto meramente técnico, se traslada a una discriminación de colectivos o personas es cuando consideramos que ha generado un problema ético. Pero el juzgar esa discriminación ya tiene que ver con valores y cultura.
Y si para el problema técnico, existen ya metodologías y herramientas razonablemente efectivas, para el problema de fondo, el problema cultural y de valores, quizá no tengamos tantas soluciones o, más bien, tan efectivas.