A menudo es difícil conseguir que la gente responda de una forma veraz en las encuestas. Afortunadamente, hay métodos matemáticos que nos permiten salvar la reticencia de las personas a contestar ciertas preguntas incómodas.
(Esta entrada participa en la Edición 6.4 Pseudoprimos del Carnaval de Matemáticas, cuyo anfitrión es el blog PiMedios)
PRIMERA PARTE
Fabio Cannavaro, entrenador del equipo chino, ha notado que en las últimas semanas ha descendido bastante el nivel de juego de su equipo.
Hay quien asegura que los jugadores del Guangzhou salen a divertirse por las noches, y que por eso no rinden en los entrenamientos ni en los partidos. Pero nadie ha podido probar que sea cierto.
El club ha contratado unos investigadores privados para que les sigan, pero hasta la fecha los jugadores han conseguido librarse de la persecución de los detectives.
Fabio está preocupado, y no sabe muy bien qué hacer. Les ha llamado de uno a uno a su despacho, y les ha preguntado directamente a cada uno de ellos si son verdad los rumores que corren. Pero ninguno de ellos ha admitido que sale por las noches. Y tampoco han querido decir cuántos de sus compañeros lo hacen.
Está claro que le han mentido, y que son un grupo muy unido, que no quieren traicionarse entre ellos. Pero Fabio necesita saber si el problema de las salidas nocturnas está muy extendido o no entre la plantilla.
Esta noche, mientras cenaba en un restaurante de Hong Kong, ha coincidido con Pepe Vitruvio, que ha acudido a la ciudad para participar en un congreso de Matemáticas. Le ha comentado el problema que tiene, y Pepe piensa que quizás debería volver a citarles en su despacho.
- Pero me volverán a responder otra vez lo mismo, Pepe.
- No necesariamente. Puedes conseguir que algunos de ellos te contesten la verdad.
- Pues no veo cómo. No me gustaría amenazarles, ni tampoco ofrecerles ningún tipo de recompensa para que traicionen a sus compañeros.
- Bueno, hay una forma de hacer que te digan la verdad, sin necesidad de coaccionarles ni premiarles...
¿Se te ocurre de qué forma conseguirán que los jugadores les cuenten la verdad de lo que está pasando?
SEGUNDA PARTE
- A ver, Fabio, cuéntame qué preguntas les has hecho.
- En primer lugar, les he consultado: ¿Tú sales por las noches? Y todos ellos me han contestado que no.
Y después les he preguntado: ¿Sabes cuántos compañeros del equipo salen a divertirse por las noches? Y me han contestado que ninguno.
- Bueno, las preguntas son correctas, así que creo que deberías llamarles nuevamente de uno en uno y volver a formulárselas.
- No lo entiendo, Pepe. Si vuelvo a preguntarles lo mismo, sus respuestas serán las mismas.
- No, porque ahora tenemos una moneda mágica.
- Estoy seguro que con ella averiguaremos qué está pasando en el equipo.
- Pues no entiendo de qué manera.
- Ya lo verás, es muy sencillo. Les llamaremos de uno en uno al despacho, y les propondremos lo siguiente: les daremos esta moneda, y les diremos que la lancen al aire sin que nosotros lo veamos.
Si sale el panda, deberán contarnos la verdad respecto a si salen de juerga o no.
Sin embargo, si sale la serpiente, deberán contestarnos en todo caso que sí salen por las noches.
Cogerán la moneda, y la tirarán otra vez. Si sale panda, deberán decirnos el número de jugadores que conocen que salen de marcha, mientras que si sale serpiente, podrán inventarse la cifra que quieran entre el 0 y el 20.
Nosotros, en ningún momento, sabremos si a cada jugador particular le ha salido panda o serpiente, es decir, no sabremos si está mintiéndonos o no, así que a los que les salga el panda no tendrán ningún miedo de decirnos la verdad. ¿Crees que aceptarán este trato?
- Yo creo que sí. En un principio parece que el método no les compromete.
- Pues vamos allá. Dile al primer jugador que pase...
- ...por fin hemos terminado la encuesta, Pepe!
- Bueno, ahora ya podemos obtener una idea bastante clara de lo que pasa en tu equipo.
- Ah, ¿sí? Pues ya me lo explicarás, si no sabemos si han dicho la verdad o si han mentido...
La probabilidad de que salga panda o serpiente en la moneda es del 50%, así que lo más normal es que la mitad de los jugadores con los que hemos hablado nos habrán dicho la verdad, y la otra mitad nos habrán respondido obligatoriamente que sí salen de fiesta.
Esto quiere decir que aproximadamente 10 jugadores han dicho que salen de fiesta porque les ha salido la serpiente (independientemente de que sea verdad o no). Y de los otros 10 jugadores a los que les ha salido el panda, y que por ello tenían que decir la verdad, 2 han contestado que sí salen, y 8 han dicho que no salen.
Son 2 respecto de 10, esto es, un 20%, así que en el total de 20 jugadores de la plantilla podemos pensar que habrá sólo 4 que salen de fiesta por las noches.
- Sí, pero, si por casualidad han salido 20 pandas, entonces todos habrán dicho la verdad, y serían 12 jugadores los que tienen ese problema.
Y, en segundo lugar, que la probabilidad de que salgan 20 pandas es del 0,0001%, es decir, una vez de cada millón de veces que hiciésemos la prueba. De hecho, hay una probabilidad de casi un 98% de que puedan salir como máximo 14 pandas.
De todas formas, resulta un poco arriesgado extraer conclusiones de una muestra de sólo 10 jugadores. Así que nos van a venir muy bien las contestaciones que nos han dado a la segunda pregunta, para así contrastar si nuestras suposiciones son correctas.
- Algo podremos hacer, Fabio. Así, si hallamos la media de las respuestas que hemos obtenido, nos da que habría 5,25 personas a las que les gusta salir. Aunque el coeficiente de variación, que mide la dispersión de los datos de la muestra, es enorme. Habrá que trabajar con los datos para obtener unos valores estadísticos más aceptables.
Sabemos que aproximadamente la mitad de las respuestas son inventadas, y que por tanto tan sólo la mitad de los datos son fiables. Así que deberíamos tratar de eliminar determinados datos, con el fin de que la media fuese más ajustada a la realidad.
- Y, ¿cómo separaremos los datos correctos de los inventados? Si sólo hubiesen tirado la moneda una vez, conoceríamos algunos datos correctos: los de aquellos jugadores a los que les tocó el panda, y que contestaron que no salen por las noches. Pero al lanzar nuevamente la moneda para contestar esta segunda pregunta, no sabemos a qué atenernos.
- Es cierto. Les he hecho tirar nuevamente la moneda precisamente para evitar que nos mientan al contestar la segunda pregunta todos aquellos que nos han respondido que no salen, ya que esa contestación sólo la pueden dar si les ha tocado el panda, y por tanto están obligados a decir la verdad.
Afortunadamente, en estadística existen distintos métodos para eliminar ciertos datos incorrectos que pueden desvirtuar bastante las medias.
En otros casos, se pueden ordenar los datos de menor a mayor, y eliminar el primer y el cuarto cuartil, quedándonos sólo con los datos de los dos cuartiles centrales, más próximos a la mediana.
Con cualquiera de estas dos opciones, podemos comprobar cómo la desviación típica baja considerablemente hasta unos valores algo más aceptables.
Aunque en nuestro caso concreto, y dado que apenas si disponemos de 20 datos, debemos ser cautos a la hora de eliminar algunos de ellos. En todo caso, tenemos 3 valores que podemos considerar como imposibles.
- Y, ¿cuáles son?
- Si hay 8 personas que aseguran que no salen, no puede haber ni 17 ni 20 juerguistas. Y tampoco puede haber 0 jugadores que no salgan, porque entonces todos los jugadores a los que les ha salido el panda deberían haber contestado que no conocen a nadie que salga, esto es, debería haber varios ceros y no uno sólo, salvo en el muy improbable caso de que hayan salido 20 serpientes.
- Ya, una vez de cada millón de veces que hiciésemos la encuesta, ¿verdad?
Ya sabes que no todos son amigos entre sí, ni se divierten todos juntos. Por ejemplo, si eliminamos el dato del 2, quizás este dato lo ha proporcionado una persona que ha dicho la verdad, pero que a la vez es incorrecto, ya que el jugador sólo conoce a 2 de los jugadores que salen, y no sabe nada de los otros que también lo hacen.
Como la muestra que tenemos es muy reducida, quizás el sesgo que generemos realizando una criba de los datos restantes puede ser más perjudicial que beneficioso, así que nos conformaremos con hacer la media de los datos que nos quedan.
- Entonces, al final, ¿cuál de los métodos de depuración de datos elegiremos?
- Pues en un principio, el método que nos da un coeficiente de variación más pequeño es el de los cuartiles centrales. En todo caso, la media de todos los métodos en los que hemos eliminado datos está muy próxima al valor de 4. Y este dato coincide con el que obtuvimos con la primera pregunta, así que podemos dar por bueno que cerca de un 20% de tus jugadores salen por las noches.
Por tanto, puedes estar contento, Fabio. Existe una alta probabilidad de que sólo sean 4 los jugadores a los que les gusta la juerga!
- Pues sí, ya que ello significa que el bajo rendimiento podemos corregirlo con más entrenamientos o más sesiones tácticas. Ahora sólo hace falta convencer a los 4 jugadores que salen de marcha de que se controlen hasta después de que ganemos el campeonato...
- Sin duda. Se atribuye este ingenioso método a Eduardo Cattani, profesor argentino de Matemáticas y Estadística de la Universidad de Massachusetts, según nos refiere Adrián Paenza en su libro “Matemática... ¿estás ahí?". Por otra parte, Stanley L. Warner, matemático estadounidense, publicó en marzo de 1965 un artículo sobre técnicas de respuesta aleatoria para eliminar respuestas evasivas en el Journal of the American Statistical Association.
Está claro que hay ciertas preguntas sobre temas sensibles como consumo de drogas, comportamiento sexual, temas ilegales o prohibidos, violencia, acoso, conductas no bien vistas socialmente, etc. en las que los entrevistados suelen responder con respuestas incorrectas.
La única forma de garantizar el anonimato y la confidencialidad, y ganarse la confianza del sujeto entrevistado es a través de estos sistemas de respuestas aleatorias, aunque no siempre funcionan, unas veces porque los consultados no terminan de entender la mecánica, porque no acaban de fiarse del todo del procedimiento, o porque a pesar de todo, no responden de forma veraz.
- Fenomenal, Pepe. Muchas gracias por todo. ¡Que lo pases bien en tu congreso en China!
- Sí, pero antes voy a dar una vuelta por el centro de Guangzhou (Cantón), a ver si me encuentro con alguno de mis amigos chinos, o tal vez con alguno de tus jugadores.
Espero que tengáis suerte en los próximos partidos, Fabio. ¡Hasta la vista!
Si te apetece profundizar más sobre los temas tratados en esta historia, puedes visitar cualquiera de estas estupendas páginas: Encuesta con pregunta prohibida, Muestreo de respuestas aleatorizadas en poblaciones finitas: un enfoque unificador, Respuesta aleatoria y técnicas de preguntas indirectas, El anonimato, la respuesta aleatoria e Internet como control de la deseabilidad social en contenidos sexuales.
Y no os olvidéis de dar una vuelta por el Carnaval de Matemáticas y votar la historia que más os guste. Allí encontraréis unos excelentes artículos matemáticos de los que disfrutaréis con su lectura.