¿Y si el sesgo algorítmico se reduce a un problema de muestreo?

Publicado el 10 noviembre 2021 por Ignacio G.r. Gavilán @igrgavilan
El sesgo algorítmico es una de las problemáticas de naturaleza ética que más se suelen usar como ejemplo y que más se suelen explicar (no siempre con suficiente claridad ni rigor) cuando hablamos de esas implicaciones éticas de la inteligencia artificial.

En este artículo quiero comentar una posibilidad, una casuística más bien, que creo es importante tener en cuenta cuando hablamos de sesgo algorítmico. Una situación que cambia bastante la percepción ética del problema y, sobre todo, que orienta las acciones para eliminar e incluso prevenir ese sesgo.

Debo advertir de todas formas, a modo de 'disclaimer', que  tengo todavía pendiente un estudio en profundidad sobre la naturaleza técnica de los sesgos (insisto en lo de técnica), su detección (también técnica) y su prevención, así que este artículo se basa en mi casi intuición actual y pudiera tener que revisar en el futuro algún elemento una vez adquirida mayor perspectiva y profundidad sobre el tema. O, incluso pudiera recibir feedback por parte de los lectores que desafiasen algunas de mis consideraciones.

Sesgo algorítmico

Sin entrar en definiciones profundas, quizá sin ser del todo rigurosos, lo que es fácil de entender es que cuando hablamos de un sesgo algorítmico nos estamos refiriendo al caso de un algoritmo (típicamente de inteligencia artificial, y más aún de machine learning) cuyos resultados favorecen o perjudican injustificadamente a un colectivo.

La palabra 'injustificada' tiene mucha más importancia de lo que parece y lleva a importantes consideraciones... pero no me voy vamos a ocupar de ello en este artículo.

El tipo de sesgo más comentado hoy en día en medios es el de género, pero también lo puede haber de raza, de edad y así un largo etcétera en donde, si somos rigurosos, podríamos incluir otro tipo de sesgos menos mediáticos o de menores implicaciones éticas.

Motivos para el sesgo algorítmico

En mi opinión actual, y dudo que cambie de opinión al respecto cuando consiga más información, existen muchas causas posibles para un sesgo algorítmico. 

Las consecuencias eventualmente negativas de un sesgo algorítmico pueden ser de naturaleza ética y la literatura al respecto se centra en ellos. En efecto, si se produce un sesgo, y por tanto una eventual discriminación, de personas por motivo de género, edad o raza, caemos en el campo de los derechos humanos y, por tanto, las consecuencias son fundamentalmente éticas.

Estoy convencido que, aunque mucho menos comentado en la literatura, el sesgo algorítmico puede tener otro tipo de consecuencias completamente diferentes a las éticas: económicas, de seguridad, etc

De todas formas, incluso en el caso más comentado de consecuencias éticas, el origen, el motivo por el que se produce el sesgo, no tiene por qué ser (de hecho creo que en la mayoría de los casos no es) de naturaleza ética. 

Creo que existen varias categorías de causalidad para el sesgo, pero esa categorización es algo de lo que no voy a ocuparme ahora y espero hacerlo en algún artículo futuro, cuando haya avanzado más en mi investigación y reflexión.

Ahora sólo me voy a centrar en una de esas eventuales categorías: el error de muestreo , mejor dicho, la mala selección de la muestra.

Recordemos que en los algoritmos de machine learning hay una fase de entrenamiento en que debemos conseguir un conjunto amplio de ejemplos, con mucha frecuencia (aprendizaje supervisado) etiquetarlos para marcar la respuesta esperada, mostrárselos al algoritmo y que éste aprenda con base en esos datos.

Como no es práctico, ni en general posible, acceder a todos los datos, cuando entrenamos al algoritmo, extraemos un subconjunto de casuísticas de las que se dan (o se han dado, más bien) en la vida real. Esa toma de un subconjunto de datos es lo que en estadística se denomina muestreo. Pues bien, de cómo elijamos esa muestra, de cómo sea de representativa de la población de la que es extraída, dependerá la calidad y extrapolabilidad de las conclusiones que obtengamos, en este caso del entrenamiento a que sometamos al algoritmo.

La idea ya se va entendiendo ¿no?

Si para entrenar a un algoritmo elegimos un conjunto de datos con una muestra no representativa de la población, sus resultados no serán del todo válidos, probablemente estarán sesgados en algún sentido.

Aunque no conozco el detalle del algoritmo ni su entrenamiento, tengo pocas dudas de que el famoso caso de algoritmo de visión artificial que clasificaba a las personas de color como gorilas, es un caso de error de muestreo: el algoritmo no distinguía a las personas de color como personas porque en sus datos de entrenamiento la inmensa mayoría de los ejemplos eran personas blancas.  Mala selección de la muestra.

Técnicas de muestreo

Lo cierto es que desde hace ya muchísimo tiempo, la estadística ha estudiado la problemática del muestreo y ha definido las técnicas de muestreo para conseguir muestras representativas de las poblaciones estudiadas. Y sus motivaciones para hacerlo no ha sido especialmente éticas, sino científicas y prácticas, a saber, que las conclusiones de la inferencia estadística fuesen válidas.

Y esto es afortunado: disponemos de unas técnicas científicas, rigurosas, documentadas y maduras para seleccionar muestras representativas de una población. 

Si el sesgo se reduce a un problema de muestreo

Así que, si el problema del sesgo algorítmico se reduce a un error de muestreo, tenemos varias consecuencias que creo muy interesantes e incluso positivas.

La primera: disponemos de técnicas conocidas para eliminarlo.

La segunda, ese sesgo no solo se puede eliminar sino que también se puede prevenir, es decir, no necesitamos, no debemos, esperar a comprobar a posteriori que un algoritmo entrenado se comporta de forma sesgada, sino que se puede evitar el sesgo desde el mismísimo inicio, aplicando un poco la idea de la 'etica desde el diseño'.

Tercero, aunque la consecuencia del sesgo puede ser ética, el origen no es realmente ético. No es ni siquiera estrictamente técnico (no es una mala definición del algoritmo o de su mecanismo de aprendizaje). En realidad es un error metodológico, debido seguramente en muchos casos al desconocimiento y quizá en otros a la dificultad y/o coste de obtener una muestra representativa.

Estaríamos hablando no de motivaciones éticas o de limitaciones técnicas sino, simplemente, de una mala praxis.

Y esto en el fondo son buenas noticias porque, aunque no nos podemos alegrar nunca de una mala praxis, ésta es mucho más fácil de identificar, reorientar y evitar. Mucho mejor eso que pensar una intrínseca limitación técnica de los algoritmos o, peor aún, que imaginar unos científicos de datos o unos ingenieros maliciosos e intentando hacer daño o discriminar ¿no?

Conclusión

Tengo claro que el origen del sesgo algorítmico es diverso y que no en todos los casos ni mucho menos se va a tratar de una problemática de muestreo.

Pero también estoy razonablemente seguro de que en algunos casos ese error de muestreo está en el origen, total o parcial, de los sesgos algorítmicos.

Y eso creo que hay que conocerlo, entenderlo y explicarlo. Y lo bueno, eso sí, es que nos marca un camino claro, práctico y accionable para eliminar ese tipo de sesgo.