Reflexiones sobre la medición de la «escucha social».

Publicado el 07 mayo 2023 por Paul

En los últimos años, con la consolidación de las redes sociales como espacios de opinión y los grandes avances en IA y Big Data, se han multiplicado exponencialmente las investigaciones de los comentarios y contenidos publicados por los usuarios en las redes sociales. Estos estudios han sido denominados habitualmente como escucha social (o social listening, en inglés), y se los utiliza para medir y evaluar muchos aspectos claves del impacto de la gestión de comunicación de las marcas o entidades (opinión, reputación, recomendación, etc.).

No me refiero a las encuestas por internet (hechas con los formularios de Google/Microsoft o con plataformas especializadas en encuestas), que son nuevos formatos para implementar los cuestionarios «de toda la vida». Estamos hablando de medir la reputación, la opinión, la valoración, etc., que tienen las personas sobre de las marcas o entidades, en función de las publicaciones (posts/tweets) de esas personas en las redes sociales, blogs, etc. Es decir, aquellos estudios que suelen comenzar diciendo:

«Hemos analizado 100 millones de posts…«.

Estos estudios, en muchos casos, han sido considerados por algunos expertos y consultoras como alternativas muy adecuadas (fiables, completas, etc.) para sustituir o reemplazar a las tradicionales encuestas de opinión (ya sean offline y online). Aunque dichos análisis pueden tomarse como herramientas muy útiles para medir y evaluar la opinión y la valoración hacia las marcas o entidades, es conveniente diseñar bien estas investigaciones, ya que muchas de ellas tienen importantes errores metodológicos.

Los tradicionales estudios de opinión con encuestas (online y offline), como también las investigaciones sustentadas en el análisis de las publicaciones de los usuarios en las redes sociales, parten de 2 presuposiciones asumidas como válidas en la investigación de opinión/mercado:

  • Los comentarios/posts (en redes sociales) o las respuestas (en una encuesta) se consideran representativos del pensamiento/opinión de las personas que los dicen o publican. Entonces, tomando «Hemos analizado 100 millones de posts…«, se puede considerar que esos posts representan el pensamiento/opinión de las personas que lo manifiestan.
  • Las opiniones publicadas en las redes sociales, así como las vertidas en una encuesta, por un conjunto limitado de personas (una muestra) son consideradas como representativas del grupo/público completo al que pertenecen (con diverso margen de error, según el muestreo). Así, si tomamos «Hemos analizado 100 millones de posts…«, se considera que los posts de esas personas son representativos del conjunto de personas con las mismas características sociodemográficas, psicográficas y/o con similares intereses en un público.

Por lo tanto, el punto de partida sería adecuado: es posible analizar las publicaciones de los usuarios en las redes sociales (la escucha social) para investigar la opinión (reputación, valoración, etc.) de esas personas sobre diversos aspectos de las marcas o entidades. Sin embargo, en muchos estudios se suelen cometer algunos errores importantes en la investigación de las publicaciones (posts/tweets) en plataformas o redes sociales a la hora de medir y evaluar la opinión (reputación, confianza, recomendación, preferencia, etc.) hacia las marcas o entidades.

(Posible) error 1. Mitificación del volumen de publicaciones.

Medir las opiniones de las publicaciones en lugar de medir las opiniones de las personas.

«Hemos analizado 100 millones de posts…» indica la cantidad de publicaciones (posts) y no la cantidad de personas que opinan.

¿De cuántas personas? Podría darse el caso (extremo e improbable) de que esos 100 millones sean publicaciones hechas por solo 50 personas, lo cual implica que solamente se están analizando las opiniones de 50 personas, no de 100 millones de personas. Por ejemplo: un equipo de investigación (del que formo parte) analizó 100.000 posts en redes sociales… de 100 universidades. Así pues, tenemos la opinión de 100 sujetos sobre un tema, no 100 mil opiniones. Lo que cuenta son las opiniones de los sujetos, no las de cada publicación. Cuando se hacen encuestas, no se le pueden hacer 20 cuestionarios a la misma persona. Se hace solo 1. Una persona, una opinión.

Por lo tanto, todas las publicaciones (posts/tweets) de la misma persona o sujeto deberían agruparse, ser procesadas y combinarse para generar 1 sola opinión de esa única persona (o seleccionarse solo 1 publicación por persona), antes de analizarla junto con las opiniones de otras personas.

Pero habitualmente eso no se hace, con lo cual, la opinión de una persona que publica 200 posts sobre un tema termina teniendo 200 veces más peso y relevancia que la persona que publica 1 post sobre la cuestión. Esto genera una desviación grave de los resultados.

(Posible) error 2. Falsa suposición de representatividad.

Procesar muchos millones de datos no implica que el estudio sea representativo.

«Hemos analizado 100 millones de posts…» plantea 3 cuestiones sobre la representatividad de la investigación, ya que toda muestra es representativa de la población o grupo de personas con características similares.

  • Representatividad geográfica: ¿de qué países, regiones, ciudades? Es decir, la ubicación geográfica de las personas que opinan, para tener validez geográfica de los resultados. Lo que puede ser representativo a nivel mundial o continental, puede no ser representativo a nivel nacional, regional o local, y viceversa. Si los 100 millones de posts son de personas de Asia, el estudio es solo representativo de Asia y/o de los países donde hayan realizado los posteos.
  • Representatividad sociodemográfica/psicográfica: ¿de qué perfiles de personas (edad, sexo, clase social, intereses, gustos, etc.)? O sea, las características sociodemográficas y/o psicográficas que comparten las personas que opinan, que permite su identificación y segmentación. Si el 90% de los posts son hechos por personas jóvenes de clase media/alta de entornos urbanos, los resultados son representativos solo de ese perfil de personas.
  • Representatividad por público: ¿de qué públicos concretos son los posts (empleados, distribuidores, clientes, consumidores, ciudadanos en general, etc.)? Esto es, los grupos de personas con intereses o vinculaciones similares en relación con una marca o entidad. Si no podemos identificar si las personas son empleados, distribuidores, consumidores, etc., entonces solo podemos asumir que es un estudio representativo del público «opinión pública general» (los ciudadanos o la sociedad general).

Muchos estudios no detallan estas cuestiones, que son muy relevantes para la confiabilidad de la investigación. Este genera una presuposición incorrecta del alcance de los resultados.

(Posible) error 3. Confundir opinión con influencia.

Una cosa es opinión y otra cosa es influencia.

«Hemos analizado 100 millones de posts…» conlleva darle el mismo peso o importancia a cada persona y/o a cada post.

Si queremos conocer la opinión de un grupo de personas sobre nuestra marca o entidad, su capacidad de influencia no es una variable para estudiar. Y si pretendemos analizar la opinión de los influencers, su capacidad de viralización solo es importante para la selección de la muestra (los influencers que vamos a investigar).

Medir la opinión de las personas (reputación, opinión, valoración, etc.), no está relacionado con la capacidad de viralización o alcance de sus opiniones. No es malo medir la influencia o viralización de las opiniones de las personas, pero eso no es medir su opinión. Es otro estudio. Medir la opinión de las personas no tiene nada que ver con el grado de viralización o la capacidad de influencia que puede tener cada persona. Son 2 estudios diferentes, que miden cosas diferentes.

Algunas investigaciones toman la capacidad de viralización de las personas analizadas (cantidad de seguidores, engagement de los posts, alcance de las publicaciones, tasa de viralización, etc.) como una dimensión o variable del análisis, estableciendo categorías de influencia (mega-macro-meso-micro-nano, etc.). En otros casos, se ponderan los posts (se les da mayor o menor peso) en función de los seguidores que tiene la persona o de la viralización que han alcanzado los posts. De esta manera, se le asigna mayor peso/impacto a determinados posts porque la persona tiene una gran red de seguidores o una alta capacidad de viralización de sus posts. Así, podría darse el caso de que la opinión positiva/negativa de 100 personas muy influyentes (mega-influencers) tuviera muchísimo más peso que la opinión negativa/positiva de las otras 9.900 personas (muy poco influyentes) de una muestra.

Ello implica que los resultados saldrán condicionados (y tergiversados) por el mayor peso o importancia asignada a la opinión de un pequeño grupo de las personas analizadas. Esto genera una alteración importante de los resultados.

Reflexión para considerar

«Hemos analizado 100 millones de post…» puede ser un estudio fantástico (si se han solventado estos problemas), o puede ser un trabajo desastroso (si se han cometido estos errores). Sería conveniente tener en cuenta todas estas cuestiones cuando vayamos a hacer o encargar nuestra próxima investigación de escucha social.

P.D.1: Neutralidad. El análisis automatizado de datos masivos mediante algoritmos ha supuesto la (equivocada) creencia de que se han eliminado o minimizado los errores o sesgos humanos en el procesamiento y análisis de los datos. Analizar un volumen masivo de datos (100 millones) mediante un algoritmo, en lugar de una muestra pequeña (1.000 o 10.000) realizada por analistas «humanos», no garantiza la neutralidad del análisis ni la confiabilidad de los resultados. Los algoritmos han sido diseñados y entrenados por personas, quienes les han enseñado a interpretar los datos. Por lo tanto, los algoritmos comenten los mismos errores que aquellos humanos que los entrenaron. La neutralidad del análisis se sustenta en un equipo de analistas formados y entrenados en las técnicas de análisis. Y estos equipos son los que analizan la información o los que enseñan y entrenan adecuadamente a los algoritmos. O sea, la ecuación es sencilla: buen equipo de analistas = buen algoritmo.

P.D.2: Fiabilidad. Estadísticamente hablando, tiene tanta fiabilidad un estudio de 100.000 posts como uno de 100 millones de posts. Solo varía el margen de error (0,27% en el primer caso, 0,01% en el segundo caso). Y son diferencias muy poco significativas en relación con la cantidad de datos a analizar y procesar. Si un estudio está correctamente desarrollado, desde la perspectiva estadística, la diferencia es muy pequeña entre muestras de 10.000, 100.000, 10 millones o 100 millones. Así pues, lo realmente relevante es bien hecho o mal hecho y no 100 mil o 100 millones. Es mejor un estudio de 1.000 o 10.000 de posts (bien hecho y sin errores metodológicos) que un estudio de 10 millones o 100 millones de posts (mal hecho y con errores metodológicos).

EXTRAS

Libro DircomMAP (descargar aquí).