Se trata de un método innovador que codifica en secuencias de ADN los registros de identificación de personas, permitiendo así que se interconecte la información existente en diversos bancos, aunque la misma contenga errores o inconsistencias.
Investigadores brasileños crearon una herramienta capaz de vincular y analizar diferentes bases de datos de salud con millones de informaciones. Tucuxi-BLAST codifica los diferentes registros contenidos en un banco -por ejemplo, el nombre del individuo, el nombre de la madre y el lugar de origen- mediante letras que representan los nucleótidos de una secuencia de ADN (A, T, C o G). Al “transformar” a la persona en un ADN, permite vincular información de varios bancos aunque contengan errores o inconsistencias.
Con el método, es posible por ejemplo cruzar la base de personas vacunadas por el Sistema Único de Salud (SUS) con datos de otros bancos para encontrar pacientes vacunados que contrajeron una determinada enfermedad. Incluso si estos registros contienen errores de tipeo, cambio de letras, o falta de algún dato (inexistente o campo no llenado), Tucuxi-BLAST puede identificar que son los mismos individuos provenientes de distintas bases de datos.
De esta forma, las diferencias en los registros de un mismo individuo son entendidas por el sistema como si fueran “mutaciones” en el ADN, ya que las herramientas genómicas pueden mostrar los fragmentos similares entre sí y, con eso, hacer la conexión de las bases.
“El SUS puede ser una valiosa fuente de información para estudios médicos y epidemiológicos, ya que almacena datos de salud de millones de personas. Sin embargo, cada enfermedad o tipo de dato se almacena en bases diferentes, que no siempre se comunican entre sí. Con el método que hemos desarrollado es posible vincularlos”, explica el inmunólogo Helder Nakaya, autor del artículo Tucuxi-BLAST: Enabling fast and accurate record linkage of large-scale health-related administrative databases through a DNA-encoded approach, publicado en la revista científica PeerJ.
Como funciona Tucuxi – Blast
Para desarrollar el método, los científicos tradujeron los datos de individuos en secuencias de ADN empleando una rueda de codones, una serie de bases nitrogenadas de ARN mensajero responsables de la codificación de un determinado aminoácido o que indican el punto de comienzo o fin de la cadena de ARNm. Esas ruedas cambian en distintas ejecuciones sin perjudicar la eficiencia del proceso.
El esquema de codificación permite la criptografía de datos en tiempo real, lo que asegura la privacidad durante la vinculación. “Trabajando con ADN es posible encriptar los datos, con una seguridad mayor al respecto de la privacidad de la información”, explica Nakaya.
La comparación de los campos de identificación codificados por ADN se efectúa utilizando el BLAST y algoritmos de aprendizaje de la computadora, que automáticamente clasifican los resultados finales.
Similar a la genómica comparativa, en la cual se comparan genes de distintos genomas para determinar secuencias comunes y únicas, Tucuxi-BLAST hace posible la integración simultánea de múltiplos bancos administrativos, sin necesidad de datos complejos procesados previamente.
Durante el estudio, el grupo testeó y comparó información de un banco simulado con registros de 300 millones de individuos, aparte de cuatro grandes bases de datos administrativos con información real de pacientes brasileños.
La conclusión indicó que el método logró superar errores ortográficos y tipográficos en un lapso de tiempo cinco veces más rápido: mientras que el procesamiento en enlaces de registros (RL, las siglas en inglés para record linkage) del mayor conjunto de datos (200 mil registros) tardó 127 horas (cinco días y siete horas), Tucuxi-BLAST lo hizo en 23 horas (menos de un día).
La plataforma puede utilizarse para realizar análisis epidemiológicos y en la formulación de políticas públicas
Fuentes:
· Peerj
· https://tucuxi-translator.csbiology.org/
Leído en eHealth Reporter