Correlación vs Causa-Efecto: ¡cuidado en OSINT!

Publicado el 14 abril 2021 por Eva Moya @EvaMoya_co

 Correlación vs Causa-Efecto:

¡cuidado en OSINT!


Problemática que aborda este post

Mis palabras mágicas para el primer post de la nueva temporada del blog van orientadas a reflexionar sobre la calidad de los análisis en relación al vector "tiempo".
La precisión temporal que nos permiten las herramientas que utilizamos en la disciplina están generando un "sesgo digital" muy sutil que pueden dificultar la evaluación adecuada de eventos correlacionados y eventos cuya causa, verdaderamente genera un efecto.
Las implicaciones de la confusión entre ambas son muy importantes dado que impactan sobre:
  • una comprensión real del hecho o suceso histórico o pasado sobre el que estamos construyendo nuestro argumento.
  • una identificación real de aquellos eventos útiles a nuestro análisis y aquellos que generan ruido y distorsión para llegar a las conclusiones.
  • la identificación de eventos que se deseen utilizar en la corriente prospectiva, con la intención de generar escenarios futuros.

¿El "tiempo" como un concepto lineal?

Estoy segura de que esta pregunta puede parecer un tanto extraña a estas alturas de la vida, pues desde hace ya unos cuantos cientos de años nos enseñan que sí, que es lineal; por supuesto siempre desde el punto de vista del reloj y el calendario. 
Los años, los días, horas y minutos que hemos acordado como "universales" nos ayudan a fijar acontecimientos en una especie de línea temporal que nos permite ubicar de manera espacial (normalmente en dos dimensiones) lo que ha ocurrido en el pasado
De esta manera, somos capaces de intuir un relato de sucesos que pueden haber estado más o menos relacionados entre sí, teniendo en cuenta, eso sí, cuestiones ya muy analizadas como "el efecto mariposa", los "cisnes negros", o el reconocimiento de líneas que interconectan diferentes eventos muy lejanos espacial y temporalmente entre sí, que finalmente demuestran disponer de una conexión de mayor peso al que habíamos asignado inicialmente.
Posiblemente el lector no sepa que en la época pre-moderna, en diferentes culturas y momentos históricos se consideró que el tiempo era cíclico, no lineal. 
De hecho, en la antigüedad se introducía el concepto del "eterno retorno" de vida cotidiana y el mundo (retomado posteriormente por Nietzsche); mientras que en otras culturas, como las nacidas en la base de los Himalayas, consideraban la existencia de un "karma" que condenaba a repetir una y otra vez lo mismo hasta una supuesta liberación derivada de la elevación del alma.
Nuestra concepción lineal (de origen antiguo), parte especialmente de la aparición de la concepción del tiempo tiempo escatológico en la Edad Media cristiana: una línea temporal donde se van fijando acontecimientos que son causa de los siguientes. Sin embargo, en esta visión inicial, los sucesos no se repetían, de hecho, terminaban en el mito del juicio final narrado en La Biblia.
Hoy en día, historiadores como Noa Harari, plantean la convivencia entre los dos modelos, cíclico y lineal, para concluir que, si bien ningún acontecimiento se repite exactamente igual, sí hay una serie de tendencias cíclicas que se pueden observar a lo largo del acontecer humano. Sería por tanto, una visión más cercana a una espiral, donde el giro de 360º incluye algunas consecuencias diferentes que son las que conforman el nuevo presente.

Así, si concebimos la representación histórica como una espiral, se parecería al monumento de Gisselfeld Kloster en Copenhague. Las sociedades van ascendiendo, o avanzando, por una espiral en la cuál ningún evento se repite exactamente tal cual, pero donde al finalizar el giro se encuentran en el mismo punto que en los giros anteriores, pudiendo reconocer parte del "paisaje" como algo familiar.
Algunos de esos "paisajes" familiares son los siguientes:
  • Cambios climáticos (acelerados o no por el hombre).
  • Pandemias (estamos muy sensibles con este tema ahora).
  • Crisis y épocas de bonanza.
  • Grandes avances tecnológicos que generan un gran salto frente a la etapa anterior.
  • Guerra y paz (como no podía ser menos).
  • Rupturas y regresos a la tradición.
  • Las tendencias en la moda, que siempre vuelven (por bromear un poco).
Esta concepción, nos permite una reflexión más profunda y seria del concepto de causa-efecto, así como permite un análisis prospectivo mejor enfocado. . 

OSINT y el timestamp

Las líneas de tiempo o "Timeline" en inglés, son uno de los elementos más relevantes en el análisis de inteligencia. Raro es el informe que no los incluya por una simple razón: nos permite ubicar visualmente los sucesos descubiertos en nuestra investigación. Y al hacerlo, iniciamos un proceso de análisis por el cuál podemos identificar que unos fueron anteriores o posteriores a otros.
A partir de ahí, la mirada de un analista puede interpretar que los eventos registrados anteriormente pueden resultar la causa de los eventos que tuvieron lugar después. 
Este tipo de análisis, es especialmente útil cuando se manejan fuentes humanas, pues hay eventos que es imposible que tengan lugar antes que otros. Pongamos un ejemplo drástico para que no haya dudas:
Una persona no puede haber robado un banco, si cuando sucedió el robo no había nacido.

El problema surge cuando lo que estamos analizando son múltiples piezas OSINT digitales, pues el timestamp que manejan las diferentes plataformas que consultamos, normalmente son distintas.
Muchas herramientas de BigData estampan la fecha exacta cuando procesan la información, y no cuando se produce realmente el evento. Otro ejemplo drástico para entenderlo bien:
Puedo elaborar un mensaje de Twitter una semana antes de que se inicie una campaña de desinformación, sin embargo puedo programarlo para que salga a la mitad de la campaña.
Resulta que estoy involucrada en la campaña, pero para despistar, lo que lleva mi nombre real, los diluyo entre los miles de tuits que están sucediendo. Al hacerlo así, Twitter realiza la marca del timestamp a mitad de la campaña, tal y como quiero.
Además, en el caso de esta red social, el timestamp que añade es el del "lector" del tuit, y no la hora real del autor. Debido a los diferentes husos horarios hay un gran caos al respecto de esto. 

Por eso es imprescindible conocer cómo gestiona el timestamp cada herramienta, para poder situar correctamente el evento en la línea de tiempo. Porque en el ámbito digital, unos breve segundos de diferencia puede cambiar completamente las conclusiones de un análisis.

OSINT y la confusión con la correlación de eventos

Por si fuera poco, además de tener que desconfiar del timestamp (salvo que esté certificado), aparece otro sesgo digital que puede empujarnos a interpretar incorrectamente la línea temporal de los eventos OSINT que estamos estudiando.
Sucede que, especialmente derivado de los análisis forenses digitales y eventos BigData que correlados coinciden también con un análisis de causa-efecto,  se empieza a inferir lo mismo para todas las piezas OSINT. Y esto es un verdadero problema... 
Porque el hecho de que una pieza OSINT haya ocurrido una hora antes que otra pieza que has encontrado, no significa inmediatamente que ambas piezas lleguen a estar conectadas entre sí...

Desgraciadamente, estoy leyendo por ahí algunos análisis basados en OSINT que caen en este sesgo, porque al dibujarlos en una línea recta, el modelo puede inducir a que hay una relación de causa-efecto.
Cuando un profesionales del OSINT analiza estos informes, le genera mucha desconfianza respecto a las conclusiones, ya que se muestran sin una base realmente sólida.

Recomendaciones para evitar la confusión

Aquí van algunas recomendaciones para que no te despistes cuando montes líneas de tiempo basadas en piezas OSINT:
  • Lo más importante, reflexiona muy bien sobre las líneas temporales automáticas que te muestran tus herramientas BigData o que procesan grandes volúmenes de información. No te dejes llevar a la primera ;-)
  • Para empezar, monta tu línea de tiempo sin miedo; ya que te permitirá identificar rápidamente algunas piezas clave que has encontrados.
  • Una vez que esté montada, empieza lo más difícil. Busca relaciones reales de causalidad entre los eventos que aparentan tenerlas. Y si no las encuentras, anota un porcentaje de probabilidad en la relación de ambos eventos bajo.
  • Deja siempre claro en tus informes las relaciones temporales que no has podido demostrar, de las cuales se podría llegar a inferir un escenario, pero que no dispones de las evidencias. Esto ayudará a que el lector tampoco caiga en el sesgo al leerlo, y además generarás una gran confianza.
  • Si las relaciones de causalidad son realmente relevantes y no has podido encontrar evidencias, siempre puedes convertirlas en proyectos de investigación a parte y ver con qué otras técnicas (siempre legales) podrías llegar a obtenerlas.
  • Algunos tips digitales que te pueden ayudar para Twitter: