Preguntas en formularios: preguntar sobre la tendencia

Publicado el 08 octubre 2018 por Daniel Rodríguez @analyticslane

Se dice que para obtener una buena respuesta es necesario realizar buenas preguntas. Una mala pregunta puede crear confusión en la mente de interlocutor, consiguiendo que su respuesta no sea la deseada. Obviamente, cuando se diseñan formularios para obtener datos estadísticos es necesario tener en cuenta la forma en la que se plantean las preguntas. La forma en la que se plateen estas pueden dar lugar a resultados completamente diferentes en el mismo grupo de personas. Esta entrada inicia una serie en las que se van a cómo puede afectar la forma de preguntar a las repuesta. En esta primera entrada se explican cómo preguntar sobre la tendencia.

Es necesario tener en cuenta que muchos modelos estadísticos se basan en las opiniones de los usuarios o expertos. Cuando no existen datos para la implementación de un modelo, porque los eventos son poco habituales o no se han producido nunca, solamente se dispone de las opiniones que han de ser recogidas y tratadas correctamente. Para ello se han de diseñar cuestionarios en los que se pregunte de forma estructurada.

¿Qué se entiende al preguntar sobre la tendencia?

En estadística existen tres conceptos básicos para medir la tendencia central de los conjuntos de datos o distribuciones, estos conceptos son la media, la mediana y la moda. La media es el promedio del conjunto de datos o distribución. La mediana es el valor de la variable de posición central de un conjunto de datos o distribución. Es decir, es el valor por encima del cual se sitúa la mitad de la muestra de datos y por debajo la otra mitad. Finalmente, la moda es el valor con una mayor frecuencia en la muestra de datos o distribución, pudiendo ser cualquier valor dentro del intervalo.

En una distribución normal estos tres estadísticos tienen el mismo valor, pero en el resto de las familias de distribuciones no es así. Pudiendo llegar a ser muy diferentes los valores observados en cada una de las medidas. El hecho de existir esta equivalencia en la distribución normal, la más utilizada en múltiples áreas, puede llevar a que la personas sin una formación estadística pueda confundir estos conceptos. De modo que utilizan los tres de forma indistinta. A causa de esto es aconsejable aclarar el concepto por el que se está preguntando (media, mediana o moda) cuando se espera una respuesta concreta.

Interpretación de las preguntas

A pesar de las posibles aclaraciones, e incluso para personas con bastante formación en estadísticas, es complicado estimar el valor concreto de una media, mediana o moda de forma intuitiva a partir de la experiencia. El primer efecto a tener en cuenta es lo mal que los humanos estimamos el promedio de los patrones cuando las series de datos presentan valores externos. Generalmente ignoramos estos valores para centrarnos únicamente en los valores centrales de la muestra. Así cuando se pregunta por la media a una persona es habitual que responda con un valor más cercano a la moda, ya que este valor es el que observa de forma habitual.

Adicionalmente existen otros sesgos cognitivos que, especialmente cuando los datos consultados están basados en la experiencia, juegan en contra de las evaluaciones que se podrían considerar "objetivas". Por ejemplo, el sesgo por el cual se le da más peso a los eventos recientes que a los pasados desviando el centro de atención hacia el último evento observado. Este sesgo es difícil de controlar y provocando cambios en las respuestas que solamente se pueden gestionar estadísticamente.

Conclusiones

En esta primera entrada se ha visto uno de los problemas habituales a la hora de preguntar en formularios. La confusión que se produce entre la media, la mediana y la desviación estándar. Al preguntar se ha de tener en cuenta estos efectos para saber que se responde en cada caso para adaptar los modelos utilizados. Ignorar los efectos no puede hacer otra cosa que llevar a una interpretación errónea de los datos.

En la próxima entrada de la serie se abordará el problema de la precisión y el entorno en las respuestas.

Imágenes: Pixabay (rawpixel)