Minería de datos e investigación médica (parte 3)

El artículo viene de Minería de datos e investigación médica (parte 2)

La minería de datos (bibliografía ver [1] y [2]) es un área que se encuentra en la intersección de diversas disciplinas: la inteligencia artificial, la estadística, las ciencias de la computación y las matemáticas. El objetivo de la minería de datos es obtener conocimiento mediante la construcción de modelos computacionales a partir de datos. Este objetivo involucra diferentes tareas: desde el descubrimiento de patrones en conjuntos de datos, pasando por la estructuración de un dominio hasta la creación de modelos predictivo-descriptivos.

La minería de datos ha sido objeto de gran investigación en las dos últimas décadas, y éste interés tiene dos bases:

El incremento en la capacidad de proceso y almacenamiento de los computadores personales actuales
La gran cantidad de aplicaciones prácticas exitosas de las técnicas que se manejan dentro de la disciplina.

La Biología ha sufrido un gran cambio en los últimos años. Ha pasado de ser una disciplina con escasez de datos a un campo donde existe una gran abundancia de ellos. Este cambio ha sido el producto de la aparición de nuevas tecnologías que permiten recoger gran cantidad de información.

Una de estas tecnologías, por ejemplo, permite medir la expresión de miles de genes al mismo tiempo. A partir de estos datos es posible tratar de buscar qué genes están asociados con una enfermedad concreta. Para ello se parte de un conjunto de datos donde existen personas afectadas por la enfermedad y personas que no lo están. Utilizando dicho conjunto de datos y un conjunto de técnicas matemático-computacionales es posible establecer qué genes están relacionados con la enfermedad.

En el campo de la Medicina existe gran cantidad de situaciones donde establecer un diagnóstico puede resultar complicado. Sirva de ejemplo el determinar cuándo una persona padece apendicitis o no. Una de las aplicaciones de la minería de datos es la construcción de un sistema donde, a partir de datos del paciente (temperatura corporal, presión sanguínea, etc...) se pueda predecir con gran probabilidad si el paciente la padece o no.

La minería de datos en entornos médicos o cómo dedicar el tiempo a analizar conclusiones y no datos, podría ser el resumen de lo que se espera de esta disciplina, acuñando el nombre quizá de una nueva profesión, los "medichackers". Minería de datos e investigación médica (parte 3)

La Minería de Datos, básicamente, trata de dejar a las máquinas el arduo trabajo de analizar los datos en bruto, buscar correlaciones entre los distintos campos, descubrir qué indicadores tienen correlación unos con otros, y en definitiva, descargar a los expertos de la tarea de realizar análisis manuales, para centrar dicho tiempo de análisis en algo con mucho más valor añadido: comprender qué es lo que realmente está ocurriendo, e intentar mejorar la vida de los enfermos.

Los análisis médicos clásicos tienen un fuerte componente causalidad-efecto: lo que se está proponiendo, desde esta nueva visión, es completamente diferente: los datos, por estar registrados en una secuencia temporal, y tener multitud de variables que pueden alterar los resultados, intrínsecamente, tienen una historia que contar, que va desde los resultados hasta los condicionantes, justo al revés que el análisis clásico.

Sin embargo, la Minería de Datos tiene un pequeño inconveniente: las conclusiones obtenidas se basan, principalmente, en un análisis estadístico de repeticiones de eventos, y por lo tanto, necesitamos muchos datos, o series históricas muy largas, para obtener resultados concluyentes. Y necesitamos tanto volumen de "filas" (historiales), como de indicadores, porque de esta forma, evitaremos mezclar "peras con manzanas". Y no nos debemos preocupar por el volumen, es el sistema el que selecciona los mejores campos para obtener las conclusiones, y por ende, cada conclusión no tiene porqué tener relacionados los mismos indicadores, con lo cual, el análisis es, matemáticamente, completo.

Otro factor que influye notablemente en el éxito de estos proyectos es el cambio de visión entre evidencias e indicios. En el mundo médico, lo usual es que en los análisis de resultados se busquen siempre "evidencias", es decir, hechos soportados por los datos cuyas relaciones entre causa y efecto tengan un soporte estadístico muy alto. Para ello, debemos tener en cuenta dos conceptos, la sensibilidad y la especificidad:

La sensibilidad nos indica la capacidad de nuestro estimador para dar como casos positivos los casos realmente enfermos; proporción de enfermos correctamente identificados. Es decir, la sensibilidad caracteriza la capacidad de la prueba para detectar la enfermedad en sujetos enfermos.
La especificidad nos indica la capacidad de nuestro estimador para dar como casos negativos los casos realmente sanos; proporción de sanos correctamente identificados. Es decir, la especificidad caracteriza la capacidad de la prueba para detectar la ausencia de la enfermedad en sujetos sanos.

Es importante tener en cuenta que en todo clasificador hay un error. Es decir, no existe una línea clara que separe los indicios de un diagnóstico y concluya la enfermedad de forma unívoca, sino que, aunque dicha regla pueda darse en la mayoría de los casos, puede que en un porcentaje mínimo, diagnostiquemos una enfermedad a un sano, o diagnosticar una enfermedad diferente con los mismo síntomas. Todo depende del nivel de exigencia que pidamos al clasificador, pero cuanto más exigentes seamos, más probabilidades tendremos de dejarnos enfermos sin detectar. Dicho punto de corte es lo que se llama " bias " y se suelen utilizar técnicas visuales de corte, como las curvas ROC.

En definitiva, en los diagnósticos clínicos, cuando el valor de especificidad supera el 80%, se considera buena.

La confianza de la regla y el soporte de la misma

Por otro lado, existen otros dos conceptos que entran en juego, que son la confianza de la regla y el soporte de la misma.

La confianza de la regla es el porcentaje de que dicha regla se cumpla, cuando se dan los antecedentes. Es decir, si tenemos una regla del tipo "Estornuda + Fiebre= Gripe", y decimos que la confianza es de un 75% (valor inventado), indicamos que cuando se da el conjunto de Estornudar y Fiebre, hay un 75% de posibilidades de que sea Fiebre .
Por otro lado, el soporte es el número relativo de veces que aparecen los antecedentes (Estornuda + Fiebre) y en conjunto de todos los datos. Así, si tenemos un conjunto de historiales clínicos y la combinación de "Estornuda + Fiebre" aparece 50 veces de 120,el soporte será 50/120= 0,41.

Cuanto más generales son las reglas, éstas tienen mayor soporte y menor confianza, y cuanto más específicas son, más personalización existirá en las mismas, con una mayor confianza y un menor soporte.

Existe el peligro de que, si llegamos a un nivel muy detallista en las reglas, éstas servirán para modelar un comportamiento puntal de una manera muy efectiva, pero el modelo no sabrá clasificar eventos que no estén categorizados a tanto detalle, con lo que no podremos generalizar. Es lo que se denomina " sobreentrenamiento ", y a veces, puede confundir, pudiendo dar unos resultados de un modelo que "aciertan" en un porcentaje muy alto para los datos de muestra, pero luego, cotejándolos con la realidad, no clasifican correctamente por que son demasiado "específicos" para el modelo de entrenamiento.

En medicina se desean conclusiones con una confianza alta (>80%), y un soporte también alto (>0.65), pero cuanto más generalicemos las conclusiones, menos soporte tendremos para las mismas. Y aquí es donde entra el concepto de indicio, extraño en este mundo.

Cuando la confianza es alta, pero el soporte pequeño, la Minería de Datos lo que nos está ofreciendo son indicios de que esas reglas que nos está presentando ocurren en la realidad, pero en casos muy "específicos", que quizás no sean relevantes con respecto al conjunto de datos en su totalidad, pero que están ocurriendo, y que habría que analizarlos.

Resulta de vital importancia que los expertos médicos se sienten con los expertos analistas de datos, para que vayan analizando las conclusiones obtenidas por los sistemas, desde dos puntos de vista:

Desde el punto de vista médico, que es el que sabe interpretar las reglas obtenidas, y valorar los descubrimientos, confirmar su validez, o detectar la necesidad de nuevos indicadores no contemplados.
Desde el punto de vista del analista de datos, que sea capaz de normalizar, estandarizar, completar, y desechar aquellos indicadores multivalores, nulos, vacíos, sin relevancia, muy correlacionados con los objetivos, etc... antes de mostrar los resultados a los expertos médicos.

Se forma, por lo tanto, un "tándem" de trabajo, que podemos denominar "medichackers", al estilo de lo que ya se ha formado en el mundo periodístico, con respecto a la aplicación de las mismas técnicas sobre el llamado "periodismo de datos", y que se denomina "hashhackers".

Continuará...

Bibliografía
[1] J. Hernandez, M.J. Ramírez y C. Ferri: Introducción a la minería de
datos, Pearson Educación, 2008.
[2] B. Sierra: Aprendizaje Automático: Conceptos Básicos y Avanzados, Pearson

Más info sobre medichackers y fuente de la imagen

Revista Salud y Bienestar

Minería de datos e investigación médica (parte 3)

La confianza de la regla y el soporte de la misma

Sobre el autor

Sus últimos artículos

Revistas

LOS MÁS LEÍDOS SALUD Y BIENESTAR

LA COMUNIDAD SALUD Y BIENESTAR

JUEGOS EN ES.PAPERBLOG.COM