Revista Salud y Bienestar

Los prejuicios en la atención sanitaria son peligrosos. Pero también lo son los algoritmos de «equidad». – Wired

Por David Ormeño @Arcanus_tco

La salud mental y física son factores cruciales para llevar una vida feliz y plena. Cómo nos sentimos influye en el trabajo que realizamos, en las relaciones sociales que forjamos y en los cuidados que prestamos a nuestros seres queridos. Dado que es mucho lo que está en juego, a menudo se recurre a la tecnología para ayudar a mantener la seguridad de nuestras comunidades. La inteligencia artificial es una de las grandes esperanzas, y muchas empresas están invirtiendo mucho en tecnología para atender las crecientes necesidades sanitarias en todo el mundo. Y existen muchos ejemplos prometedores: La IA puede utilizarse para detectar el cáncer, clasificar a los pacientes y recomendar tratamientos. Uno de los objetivos es utilizar la IA para aumentar el acceso a la atención sanitaria de alta calidad, especialmente en lugares y para personas que históricamente han estado excluidas.

Sin embargo, los dispositivos médicos con sesgo racial, por ejemplo, provocaron retrasos en el tratamiento de pacientes de piel más oscura durante la pandemia de Covid-19 porque los pulsioxímetros sobrestimaban los niveles de oxígeno en sangre en las minorías. Del mismo modo, se sabe que las tecnologías de detección del cáncer de pulmón y de piel son menos precisas para las personas de piel más oscura, lo que significa que con más frecuencia no detectan los cánceres en los pacientes, retrasando el acceso a una atención que puede salvarles la vida. Los sistemas de triaje de pacientes suelen subestimar la necesidad de atención de los pacientes pertenecientes a minorías étnicas. Uno de estos sistemas, por ejemplo, subestima regularmente la gravedad de la enfermedad de los pacientes negros porque utiliza los costes de la atención sanitaria como indicador de la enfermedad y no tiene en cuenta la desigualdad en el acceso a la atención, y por tanto en los costes, entre la población. El mismo sesgo puede observarse también en función del sexo. A las mujeres se les diagnostica de forma desproporcionadamente errónea una cardiopatía y reciben un tratamiento insuficiente o incorrecto.

Afortunadamente, muchos miembros de la comunidad de la IA trabajan ahora activamente para corregir este tipo de sesgos. Por desgracia, como muestran nuestras últimas investigaciones, los algoritmos que han desarrollado podrían empeorar las cosas en la práctica y poner en peligro la vida de las personas.

La mayoría de los algoritmos desarrollados para aplicar la "justicia algorítmica" se crearon sin tener en cuenta el contexto político y social. La mayoría definen la equidad en términos simples, es decir, reduciendo las diferencias de rendimiento o resultados entre grupos demográficos. Aplicar con éxito la equidad en la IA ha llegado a significar satisfacer una de estas definiciones matemáticas abstractas preservando al mismo tiempo la mayor precisión posible del sistema original.

Con estos algoritmos, la equidad suele conseguirse en dos pasos: (1) ajustando el rendimiento de los grupos con peor rendimiento, y (2) degradando el rendimiento de los grupos con mejor rendimiento. Estos pasos pueden distinguirse por sus motivaciones subyacentes.

Imaginemos que, en aras de la equidad, queremos reducir el sesgo en un sistema de IA utilizado para predecir el riesgo futuro de cáncer de pulmón. Nuestro sistema imaginario, similar a los ejemplos del mundo real, sufre una diferencia de rendimiento entre los pacientes negros y los blancos. En concreto, el sistema tiene una menor capacidad de recuperación para los pacientes negros, lo que significa que subestima sistemáticamente su riesgo de cáncer y clasifica incorrectamente como de "bajo riesgo" a pacientes que en realidad tienen un "alto riesgo" de desarrollar cáncer de pulmón en el futuro.

Este peor rendimiento puede tener muchas causas. Puede deberse a que nuestro sistema se haya entrenado con datos tomados predominantemente de pacientes blancos, o a que los historiales médicos de los pacientes negros sean menos accesibles o de peor calidad. Asimismo, puede reflejar desigualdades sociales subyacentes en el acceso a la atención sanitaria y en el gasto sanitario.

Sea cual sea la causa de la diferencia de resultados, nuestra motivación para perseguir la equidad es mejorar la situación de un grupo históricamente desfavorecido. En el contexto del cribado del cáncer, los falsos negativos son mucho más perjudiciales que los falsos positivos; estos últimos significan que el paciente se someterá a revisiones o exploraciones de seguimiento que no necesitaba, mientras que los primeros implican que más casos futuros de cáncer quedarán sin diagnosticar ni tratar.

Por tanto, una forma de mejorar la situación de los pacientes negros es mejorar la capacidad de predicción del sistema. Como primer paso, podemos decidir pecar de precavidos y decirle al sistema que cambie sus predicciones para los casos en los que tiene menos confianza de que se trate de pacientes negros. En concreto, cambiaríamos algunos casos de "bajo riesgo" a "alto riesgo" para detectar más casos de cáncer. Es lo que se denomina "nivelar hacia arriba", o diseñar sistemas que cambien a propósito algunas de sus predicciones para los grupos actualmente desfavorecidos por los sistemas, y hacer un seguimiento con ellos más a menudo (por ejemplo, aumentar la frecuencia de las pruebas de detección del cáncer).

Este cambio se produce a costa de la precisión; aumenta el número de personas identificadas erróneamente como en riesgo de cáncer, y la precisión global del sistema disminuye. Sin embargo, esta compensación entre precisión y recuerdo es aceptable porque no diagnosticar un cáncer es muy perjudicial.

Al cambiar los casos para aumentar la recuperación a costa de la precisión, podemos llegar a un estado en el que cualquier cambio adicional supondría una pérdida de precisión inaceptablemente alta. En última instancia, se trata de una decisión subjetiva; no existe un verdadero "punto de inflexión" entre la recuperación y la precisión. No hemos conseguido necesariamente que el rendimiento (o la recuperación) de los pacientes negros alcance el mismo nivel que el de los pacientes blancos, pero hemos hecho todo lo posible con el sistema actual, los datos disponibles y otras limitaciones para mejorar la situación de los pacientes negros y reducir la diferencia de rendimiento.

Aquí es donde nos enfrentamos a un dilema, y donde el estrecho enfoque de los algoritmos modernos de equidad en lograr la igualdad de rendimiento a toda costa crea problemas involuntarios pero inevitables. Aunque no podemos mejorar más el rendimiento de los pacientes negros sin una pérdida inaceptable de precisión, también podríamos reducir el rendimiento de los pacientes blancos, disminuyendo tanto su capacidad de recuperación como su precisión en el proceso, de modo que nuestro sistema tenga tasas de recuperación iguales para ambos grupos. En nuestro ejemplo, modificaríamos las etiquetas de los pacientes blancos, cambiando algunas de las predicciones de "alto riesgo" a "bajo riesgo".

La motivación es la conveniencia matemática: Nuestro objetivo es hacer que dos números (por ejemplo, el recuerdo) sean lo más parecidos posible entre dos grupos (es decir, pacientes blancos y negros), únicamente para satisfacer una definición que dice que un sistema es justo cuando estos dos números son iguales.

Evidentemente, marcar a un paciente que antes era de "alto riesgo" como de "bajo riesgo" es extremadamente perjudicial para los pacientes a los que no se ofrecería atención de seguimiento y control. La precisión global disminuye y la frecuencia del tipo de error más perjudicial aumenta, todo ello en aras de reducir la diferencia de rendimiento. Y lo que es más grave, esta reducción del rendimiento no es necesaria ni está causalmente vinculada a ninguna mejora para los grupos con un rendimiento inferior.

Sin embargo, esto es lo que ocurre en muchos algoritmos que imponen la equidad de grupo porque es la solución matemáticamente óptima. Este tipo de degradación, en la que la equidad se consigue empeorando arbitrariamente la situación de uno o más grupos, o rebajando los grupos con mejor rendimiento al nivel del grupo con peor rendimiento, se denomina "nivelación a la baja".

De hecho, lo que hemos descrito aquí es en realidad el mejor de los casos, en el que es posible imponer la equidad haciendo cambios sencillos que afectan al rendimiento de cada grupo. En la práctica, los algoritmos de equidad pueden comportarse de forma mucho más radical e impredecible. Este estudio reveló que, por término medio, la mayoría de los algoritmos de visión artificial mejoraban la equidad perjudicando a todos los grupos, por ejemplo, reduciendo la recuperación y la precisión. A diferencia de nuestra hipótesis, en la que hemos reducido el perjuicio sufrido por un grupo, es posible que la nivelación a la baja empeore directamente la situación de todos.

Nivelar a la baja va en contra de los objetivos de la equidad algorítmica y de los objetivos más amplios de igualdad en la sociedad: mejorar los resultados de los grupos históricamente desfavorecidos o marginados. Disminuir el rendimiento de los grupos con mejores resultados no beneficia por sí mismo a los grupos con peores resultados. Además, nivelar a la baja puede perjudicar directamente a los grupos históricamente desfavorecidos. La elección de eliminar un beneficio en lugar de compartirlo con otros muestra una falta de preocupación, solidaridad y voluntad de aprovechar la oportunidad para solucionar realmente el problema. Estigmatiza a los grupos históricamente desfavorecidos y solidifica la separación y la desigualdad social que condujeron al problema en primer lugar.

Cuando creamos sistemas de IA para tomar decisiones sobre la vida de las personas, nuestras decisiones de diseño codifican juicios de valor implícitos sobre lo que debe priorizarse. La nivelación a la baja es una consecuencia de la elección de medir y corregir la justicia únicamente en términos de disparidad entre grupos, ignorando la utilidad, el bienestar, la prioridad y otros bienes que son fundamentales para las cuestiones de igualdad en el mundo real. No es el destino inevitable de la equidad algorítmica, sino el resultado de tomar el camino de menor resistencia matemática, y no por razones sociales, legales o éticas generales.

Para avanzar tenemos tres opciones:

  • Podemos seguir desplegando sistemas sesgados que benefician ostensiblemente sólo a un segmento privilegiado de la población mientras perjudican gravemente a otros.
  • Podemos seguir definiendo la equidad en términos matemáticos formalistas y desplegar una IA que sea menos precisa para todos los grupos y activamente perjudicial para algunos.
  • Podemos tomar medidas y lograr la equidad "subiendo de nivel".

Creemos que subir de nivel es el único camino moral, ética y legalmente aceptable. El reto para el futuro de la equidad en la IA es crear sistemas que sean sustancialmente justos, no sólo procedimentalmente justos a través de la reducción de nivel. Subir de nivel es un reto más complejo: debe ir acompañado de medidas activas para erradicar las causas reales de los sesgos en los sistemas de IA. A menudo, las soluciones técnicas no son más que una tirita para solucionar un sistema roto. Mejorar el acceso a la atención sanitaria, conservar conjuntos de datos más diversos y desarrollar herramientas que se centren específicamente en los problemas a los que se enfrentan las comunidades históricamente desfavorecidas pueden ayudar a hacer realidad la equidad sustantiva.

Se trata de un reto mucho más complejo que el simple ajuste de un sistema para igualar dos cifras entre grupos. Puede requerir no sólo una importante innovación tecnológica y metodológica, incluido el rediseño de los sistemas de IA desde cero, sino también cambios sociales sustanciales en ámbitos como el acceso a la atención sanitaria y el gasto sanitario.

Por difícil que sea, este replanteamiento de la "IA justa" es esencial. Los sistemas de IA toman decisiones que cambian vidas. Las decisiones sobre cómo deben ser justos, y para quién, son demasiado importantes para tratar la justicia como un simple problema matemático que hay que resolver. Este es el statu quo que ha dado lugar a métodos de equidad que logran la igualdad a través de la nivelación hacia abajo. Hasta ahora, hemos creado métodos que son matemáticamente justos, pero que no pueden beneficiar ni benefician de forma demostrable a los grupos desfavorecidos.

Esto no es suficiente. Las herramientas existentes se tratan como una solución a la equidad algorítmica, pero hasta ahora no cumplen su promesa. Sus efectos moralmente turbios hacen que sea menos probable que se utilicen y pueden estar frenando soluciones reales a estos problemas. Lo que necesitamos son sistemas que sean justos mediante la subida de nivel, que ayuden a los grupos con peores resultados sin perjudicar arbitrariamente a los demás. Este es el reto que debemos resolver ahora. Necesitamos una IA que sea sustancialmente justa, no sólo matemáticamente.


Volver a la Portada de Logo Paperblog