Científicos del Centro de Astrobiología y el Centro Nacional de Biotecnología han creado un algoritmo que permite filtrar las secuencias erróneas en la secuenciación masiva de ácidos nucleicos, como el ADN y ARN, y lo han aplicado al caso de los microorganismos. De esta forma se evita que aparezcan ‘especies fantasmas’, que en realidad no están presentes en los resultados de la secuenciación.
La secuenciación permite leer la información contenida en las moléculas de ADN o ARN, es decir, obtener la lista de bases (adenina, citosina, guanina, y timina o uracilo) que compone el segmento leído. Gracias a las actuales plataformas de secuenciación masiva, se pueden producir millones de lecturas en poco tiempo y por un bajo coste, toda una revolución en diversos campos de la biología.
Sin embargo, algunas de estas lecturas pueden contener errores de secuenciación que comprometerían los resultados obtenidos en estas plataformas, lo cual llevaría a interpretaciones imprecisas. Para solucionarlo, científicos del Centro de Astrobiología (CSIC-INTA) y del Centro Nacional de Biotecnología (CSIC) han desarrollado un nuevo algoritmo que permite filtrar, con mucha precisión, las secuencias erróneas en los estudios de secuenciación masiva de ADN y ARN.
El algoritmo Poisson Binomial Filtering (PBF), llamado así porque utiliza la distribución binomial de Poisson para detectar y filtrar los datos inexactos en la secuenciación, minimiza el problema en las lecturas de nucleótidos mediante el cálculo de la distribución de probabilidad de errores de una secuencia a partir de sus parámetros de calidad.
Los errores, que son frecuentes en estos estudios, repercuten en mayor medida en los referidos a poblaciones microbianas. Cuando los errores alcanzan, al menos, el tres por ciento en toda una secuencia leída, que se suponía de una misma especie, aparecen lo que el investigador principal, Fernando Puente Sánchez, llama “especies fantasmas”.
Por tanto, se produce una sobreestimación muy acusada de la diversidad microbiana presente en la muestra. “Se trata de un problema que se aprecia sobre todo en la secuenciación masiva, porque al haber muchas más secuencias, el número total de errores también es mayor”, comenta el científico.
Puente Sánchez necesitaba analizar poblaciones microbianas para su tesis y los errores que surgían de la secuenciación lo llevaron a desarrollar este estudio, que comenzó hace dos años, para identificarlos.
“Al hacer el análisis, el secuenciador te indica cuánto ‘se fía’ de cada base analizada. El algoritmo utiliza esa información para descartar las secuencias que tengan más probabilidad de contener errores, y obtener así un resultado más preciso”, asegura el investigador.
Validación del método con microorganismos
El método se validó con 37 conjuntos de datos públicos de secuenciación masiva de comunidades microbianas artificiales y ambientales, con las plataformas de secuenciación denominadas 454-Roche, Illumina MiSeq y IonTorrent PGM.
Los resultados obtenidos con este nuevo algoritmo se compararon con los obtenidos con otros métodos al uso, como los incluidos en las distribuciones de software mothur, QIIME y USEARCH, tres referentes en el campo de la ecología microbiana.
El algoritmo PBF descarta sustancialmente menos lecturas que sus predecesores, pero produce representaciones más fidedignas, tanto cuantitativa como cualitativamente, de la verdadera diversidad microbiana presente en las muestras estudiadas. Además, ofrece resultados óptimos para todas las plataformas de secuenciación existentes y requiere de poca potencia de cálculo, siendo posible ejecutarlo en ordenadores de sobremesa, incluso sobre conjuntos de datos de gran tamaño.