Las estadísticas, como las armas, las carga el diablo. Un dicho popular para demostrar las perversiones de los datos fríos es que si un hombre tiene diez pasteles y otro no tiene ninguno, la media dice que ambos tienen cinco pasteles. La última distorsión datística pandémica está llevando a titulares maliciosos como el siguiente: "las personas vacunadas tienen seis veces más probabilidades de morir a causa de las variantes de la covid", o que en Israel, que cuenta con un 63% de su población general vacunada, hay hoy más hospitalizados por covid que estaban vacunados que entre los que no se han puesto la vacuna. Es la Paradoja de Simpson o efecto de Simpson-Yule operando.
Definición y ejemplos prácticos de la paradoja
Hay otros divulgadores y periodistas que han tratado esto antes que nosotros. Javier Álvarez Liébana ha conseguido miles de retuits con su ameno hilo, y José Luis Torrecilla lo trató en El País.
La paradoja de Simpson es una de las falacias estadísticas más comunes en medicina y sociología: la tendencia de datos agregados puede ser contraria a la de los datos desagregados
- 🎲 Javi Álvarez Liébana | Dados de Laplace (@DadosdeLaplace) July 28, 2021
¿Por qué es importante conocerla para combatir el negacionismo de las vacunas?
Breve hilo🧵👇 pic.twitter.com/gZRw89WvXY
La Paradoja de Simpson es "una paradoja en la cual una tendencia que aparece en varios grupos de datos desaparece cuando estos grupos se combinan y en su lugar aparece la tendencia contraria para los datos agregados". Esta paradoja "desaparece cuando se analizan las relaciones causales presentes". O dicho de otra forma: cuando la asociación entre dos variables cambia completamente cuando se tiene en cuenta (se controla) el efecto de una tercera variable que no se había tenido en cuenta.
Wikipedia pone un ejemplo de un caso real: la Universidad de California, Berkeley, fue demandada por un caso de discriminación contra las mujeres. Primero, por qué a primera vista parece que la UCLA discriminaba a las mujeres. Segundo, por qué, pese a lo que parecía, la universidad tenía, en realidad, un pequeño sesgo a favor de ellas.
Los datos en una y otra tabla son exactamente los mismos, provienen de la misma fuente. Y sin embargo, dependiendo de cómo dividas esos datos, pueden sacarse conclusiones completamente opuestas. En un caso parece que se favorece a los hombres y en el otro a las mujeres. ¿Qué estaba sucediendo en realidad? Que las mujeres presentaron solicitudes en departamentos más competitivos y con un porcentaje de admisiones más bajos (por ejemplo, literatura inglesa) frente a los hombres, que eran más proclives a solicitar su admisión en departamentos con menor competencia y mayor porcentaje de admisiones (como ingeniería y química).
De ahí que lo importante sea saber qué datos y variables son los que hay que analizar según el caso para llegar a la conclusión relevante. En este caso, por ejemplo, pensar si, para valorar un posible caso de discriminación, ayuda el tener en cuenta el tipo de solicitudes que echan las mujeres.
El canal de YouTube de Minute Physics pone otro ejemplo (en inglés) y lo pone precisamente simulando qué pasaría con un medicamento.
Se presenta un fármaco para tratar una enfermedad mortal que vale tanto para humanos como para gatos. Resulta que, de los gatos que tomaron el fármaco, el 100% sobrevive mientras que esto sólo ocurre entre el 25% de los humanos que la tomaron. En el grupo que no tomó la pastilla, se salvó el 75% de los gatos y el 100% de las personas. Eso nos lleva a pensar que el 40% de los empastillados se salva frente al 60% de los que no siguieron al tratamiento. ¿Significa eso que la pastilla, en general, no debería ser usada? No. Como se explica, a esos datos podría faltarles una variable. Imaginemos: ¿y si los humanos que tomaron la pastilla y participaron de ese estudio tenían ya la enfermedad seriamente desarrollada, ergo, con una salud más débil y menos posibilidades de sobrevivir?
Vamos con el reciente e instrumentalizado caso de Israel. Como se podía ver en el panel de datos del gobierno israelí hace un par de días, de los 515 pacientes actualmente hospitalizados con cuadros graves en el país, 301 (58,4%) de estos casos era gente completamente vacunada, es decir, habían recibido dos dosis de Pfizer. El 60% de todos los hospitalizados graves por covid-19 era gente vacunada. ¿Significa eso que la vacuna tiene una baja eficacia? ¿Que es estadísticamente mejor no vacunarse que hacerlo para evitar los cuadros graves?
No. Significa que faltan datos para entender el contexto. Si ahora mismo hay en torno a un 80% de personas mayores de 12 años vacunadas, hay mucha, mucha más gente en ese grupo que en el de no vacunados, así que la comparativa no es proporcional. Por eso lo primero que habría que hacer es dilucidar las tasas de hospitalización con cuadros graves segregando vacunados de no vacunados por cada 100.000 habitantes. Casos graves entre no vacunados: 16,4 para cada 100.000. Casos graves entre vacunados: 5,3 para cada 100.000. Es decir, más o menos la tasa de casos graves está siendo un tercio menor entre vacunados. Concretamente, y según esos datos, del 67,5%.
Pero un momento, ¿no puede servir eso también para demostrar que la eficacia de la vacuna no es ese 95%, como se nos prometía, y que ha bajado al 67%? ¿Qué ha pasado por el camino? ¿Significa eso que las vacunas han perdido eficacia o que la variante Delta está haciendo de las suyas?
Tampoco. Como también sabemos, el virus es mucho más agresivo con la gente mayor que con la joven. Los mayores de 50 años tienen 20 veces más probabilidades de acabar hospitalizados con gravedad. Segreguemos aún más los datos que hemos visto antes, en otras dos categorías, viejos y jóvenes:
- Casos graves entre no vacunados de menos de 50 años: 3,9 por cada 100.000 habitantes.
- Casos graves entre no vacunados de más de 50 años: 91,9 por cada 100.000 habitantes.
- Casos graves entre vacunados de menos de 50 años: 0,3 por cada 100.000 habitantes.
- Casos graves entre vacunados de más de 50 años: 13,6 por cada 100.000 habitantes.
De todo eso que, sí, claro, haya bastante gente mayor vacunada que esté muriendo de covid, pero es mucha menos a nivel porcentual que con el grupo con el que sí debería compararse. Y de ahí pasamos a lo que habíamos dicho: si bien la eficacia de la vacuna para prevenir cuadros graves es actualmente (y de forma temporal hasta que se vacune todo el mundo) de un 67% para la población general israelí, cogiendo tanto a ese 80% vacunado como al que no lo está, la eficacia para prevenir cuadros graves sube al 91,8% de los menores de 50 años y al 85,2% para los mayores de 50 cuando tenemos en cuenta esta variable por edad.
Y, por supuesto, también es esencial pensar que para intentar hacer un análisis certero hemos tenido en cuenta apenas dos variables: si se habían vacunado y qué edad tenían. Dos de las variables más importantes, cierto, pero no las únicas que influyen. Como bien contó el periodista Sergio Efe, no tenemos en cuenta si tenían o no patologías previas u obesidad, el nivel de movilidad del individuo, si incurre o no en comportamientos de riesgo, en qué momento de la enfermedad solicitó ayuda médica, etc.
Recordatorio de que mirar la edad solo es una parte de la historia, el mínimo exigible a la hora de analizar datos. Hay más factores en juego. https://t.co/jEfdXrPsRi- SergioEfe (@SergioEfe) August 19, 2021
Toda esta confusión se ha propagado estas semanas también con un informe del Public Health England (PHE), institución británica, publicado el pasado 9 julio de 2021. En él se veía que el 36% de las muertes analizadas eran de personas sin vacunar, ergo, un 64% entre las vacunadas. Pero ya hemos explicado por qué ese dato por sí solo no es suficiente. En sus intentos por tergiversar los datos, los antivacunas habían compartido la idea de que el 1% de los vacunados contagiados morían frente al 0,13% de los no vacunados, o que "las personas totalmente vacunadas tienen un 885% más de probabilidades de morir por COVID-19 que las no vacunadas, según datos oficiales". Ya se ha demostrado por qué esas conclusiones son erróneas aquí y aquí.
Valorar las vacunas a partir de dos o tres datos aislados no va a ayudarnos bien a comprender la eficacia de las mismas.