La teoría matemática de la comunicación de Shannon aplicada al secuenciado de ADN

Publicado el 07 abril 2012 por Barzana @UMUbarzana

Nadie sabe qué tecnología de secuenciado es más rápida debido a que nunca ha habido una forma justa de comparar las tasas a las que se extrae información del ADN. Hasta ahora.

Uno de los grandes héroes desconocidos de la ciencia del siglo XX es Claude Shannon, ingeniero de los famosos Laboratorios Bell durante su auge en la mitad del siglo XX. La más perdurable contribución a la ciencia por parte de Shannon es su teoría de la información: la idea que apuntala toda la comunicación digital.

En un famoso artículo que data de finales de la década de 1940, Shannon fijó el problema fundamental de la comunicación: reproducir en un punto del espacio un mensaje que se había creado en otro punto. El mensaje se codificaba inicialmente de alguna manera, se transmitía, y luego se decodificaba.

Shannon demostró que un mensaje siempre puede reproducirse en otro punto del espacio con una precisión arbitraria siempre que el ruido esté por debajo de un nivel umbral. Pasó luego a calcular cuánta información podría enviarse de esta forma, una propiedad conocida como capacidad del canal de información.

Las ideas de Shannon se han aplicado ampliamente a todas las formas de transmisión de información con gran éxito. Una vía particularmente interesante ha sido la aplicación de la teoría de la información a la biología – la idea de que la propia vida es la transmisión de información de una generación a la siguiente.

Este tipo de pensamiento revolucionario está en proceso y aún en sus primeras etapas. Queda mucho por llegar.

Hoy revisamos un interesante corolario en el área de la transmisión de información biológica. Abolfazl Motahari y sus colegas de la Universidad de California en Berkeley, usan la aproximación de Shannon para examinar cómo de rápidamente puede extraerse la información del ADN usando el proceso del secuenciado de escopeta.

El problema aquí es determinar la secuencia de nucleótidos (A,G,C y T) en un genoma. Esto requiere tiempo debido a que los genomas tienden a ser largos – por ejemplo, el genoma humano consta de unos 3000 millones de nucleótidos o pares de bases. Secuenciar esta cantidad en serie llevaría una infinidad de tiempo.

La aproximación de escopeta implica cortar el genoma en trozos aleatorios, que constan de entre 100 y 1000 bases, y secuenciarlas en paralelo. La información se vuelve a pegar in silico mediante un algoritmo conocido como de re-ensamblado.

Por supuesto, no hay forma de saber cómo re-ensamblar la información procedente de una única ‘lectura’ del genoma. Por lo que en la aproximación de escopeta, este proceso se repite muchas veces. Dado que cada lectura divide el genoma de una forma distinta, los otros inevitablemente se solapan con segmentos de la ejecución anterior. Estas áreas de solapamiento hacen posible el re-ensamblado de todo el genoma, como un rompecabezas.

Esto tiene el aspecto del problema clásico de la teoría de la información y, efectivamente, distintas personas han pensado en ello de esta forma. Sin embargo, Motahari y compañía van un paso más allá cambiando su enunciado más o menos exactamente a un análogo de la famosa aproximación de Shannon.

Dicen que el problema del secuenciado del genoma es esencialmente la reproducción de un mensaje escrito en el ADN a un formato electrónico digital. Según esta forma de abordarlo, el mensaje original está en el ADN, se codifica para su transmisión mediante el proceso de lectura y luego se decodifica por el algoritmo de re-ensamblado para producir una versión electrónica.

Lo que demuestran es que hay una capacidad del canal que define una tasa máxima para el flujo de información durante el proceso de secuenciado. “Ofrece el número máximo de pares de bases de ADN que pueden resolverse en cada lectura, mediante cualquier algoritmo de ensamblaje, sin importar las limitaciones computacionales”, comentan.

Esto es un resultado significativo para cualquiera interesado en el secuenciado de genomas. Un tema importante es lo rápido que una tecnología concreta de secuenciado puede realizar esta tarea, y si es más rápida o lenta que otras aproximaciones.

Por el momento no es posible calcularlo debido a que muchos de los algoritmos usados para ensamblado están diseñados para tecnologías y aproximaciones específicas a la lectura. Motohari y sus colegas dicen que hay, al menos, 20 algoritmos distintos de re-ensamblado, por ejemplo. “Esto hace difícil comparar distintos algoritmos”, comentan.

Por consiguiente, nadie sabe realmente cuál es más rápido, o incluso cuál tiene el potencial de ser más rápido.

El nuevo trabajo cambia esto. Por primera vez debería ser posible calcular lo cerca que está una tecnología concreta de secuenciado del límite teórico.

Esto podría forzar una limpieza de la madera muerta en esta área y estimular un periodo de innovación rápida en la tecnología del secuenciado.


Artículo de Referencia: arxiv.org/abs/1203.6233: Information Theory of DNA Sequencing

Traducido en: Ciencia Kanija