Minería de datos e investigación médica (parte 4)

Por Smartherapy @InfoSmartherapy
El artículo viene de Minería de datos e investigación médica (parte 3)

Actividades a realizar en un proyecto de minería de datos

Aunque el objetivo de la minería de datos es la construcción de los modelos descriptivo-predictivos que hemos comentado anteriormente, existen muchas tareas que hay que realizar antes y después de la construcción de dichos modelos. Así, el conjunto de actividades a realizar cuando nos referimos a un proyecto de minería de datos se agrupa principalmente en tres familias de actividades:

1. El preproceso, que trata de preparar los datos para la posterior construcción del modelo. Esta limpieza implica ciertas actividades como pueden ser:

  • Limpieza de datos.
  • Tratamiento de datos perdidos.
  • Selección de variables.

2. La construcción del modelo

Existen diferentes tipos de modelos, Habitualmente la construcción del modelo se lleva a cabo de forma automática mediante la utilización de un algoritmo que, partiendo de los datos, obtiene el modelo descriptivo-predictivo.

3. La evaluación del modelo

La precisión del modelo

Supongamos que hemos creado un modelo predictivo a partir de un conjunto de datos, la pregunta ahora es, ¿cuál es la probabilidad de que el modelo acierte el valor de la clase de un nuevo caso que nunca ha visto?. Dicha probabilidad es lo que se conoce como la precisión del modelo.

El cálculo de la precisión del modelo es un problema complicado, ya que queremos calcular cómo se va a comportar el modelo en situaciones no vistas anteriormente. Desde un punto de vista matemático es un problema de estimación. Existen diferentes técnicas para realizar dicha estimación.

Tipos de modelos de minería de datos

Existe una gran cantidad de modelos de minería de datos. Basados en la probabilidad, en lógica difusa (fuzzy), en reglas ... Veamos alguno de los más reconocidos:

1. Los k vecinos más cercanos:

Uno de los modelos de clasificación más comunes es el de los k vecinos más cercanos. De hecho, no se llega a construir un modelo sino que existe una regla de clasificación: dado un nuevo caso se busca, dentro del conjunto de entrenamiento, los k casos más cercanos al actual (la medida para evaluar la cercanía entre dos casos depende del tipo de datos que se esté utilizando).

2. Árboles de clasificación

Los árboles de clasificación construyen un modelo de árbol a partir de los datos. En cada nodo del árbol se toma una decisión en relación a una de las variables involucradas en los datos:

Por ejemplo, a partir de un nodo es posible crear dos ramas: una se corresponde con temperatura 38 y la otra con temperatura < 38. Cada hoja del árbol se corresponde con una de las posibles clases en las que cada dato puede ser clasificado. Puede existir más de una hoja que se corresponde con la misma clase.

Dado un nuevo caso, éste recorre el árbol comenzando por la raíz hasta que llega hasta una de las hojas. La clase asociada a la hoja es la que le corresponde al nuevo caso.

Este modelo es muy diferente al anterior ya que en este caso se tiene un modelo explícito que puede proporcionar información acerca de cómo está estructurado el dominio. Es decir, en este caso, no sólo se consigue un modelo predictivo sino que el modelo describe y proporciona información acerca del dominio en el que se está trabajando.

La construcción del modelo se realiza mediante un algoritmo de aprendizaje.
Dicho algoritmo, a partir del conjunto de datos, va construyendo el árbol determinando cuál es el atributo a seleccionar en cada nodo y qué ramas crear en relación a los valores del atributo.

Como "anécdota" señalar, que ya la Medicina Tibetana utiliza en la construcción de su cuerpo de doctrina el árbol como elemento de organización. Tanto para la explicación de las causas de la enfermedad y las consecuencias de su desequilibrio, la descripción de las enfermedades y la correlación con los tratamientos a aplicar.

La medicina tibetana surgió en el siglo VII integrando en una síntesis original otras medicinas tradicionales, sobre la base de un sistema médico desarrollado en la región del Shang-Shung en el segundo milenio a.C. ( leer más sobre la medicina tibetana)

3. El modelo naive-Bayes

El modelo naive-Bayes es un modelo probabilístico. En este caso se supone que todos los casos de los que se dispone (y los que puedan venir) provienen de una distribución de probabilidad que involucra a todas las variables del modelo , incluida la variable a clasificar. El modelo naive-Bayes construye una distribución de probabilidad a partir del conjunto de datos y posteriormente utiliza dicha distribución de probabilidad para clasificar nuevos casos.

Por lo tanto, el modelo naive-Bayes realiza suposiciones sobre la dependencia probabilística de los datos de cara a simplificar la distribución de probabilidad de los mismos. Particularmente, este modelo asume que cualquier par de variables predictoras son condicionalmente independientes dada la variable clase. De esta forma, el número de parámetros a estimar es proporcional al número de variables.
En este caso el aprendizaje del modelo consiste en el aprendizaje de los parámetros de la distribución de probabilidad. La forma más común de aprender dichos parámetros es utilizando el método de máxima verosimilitud.

4. Redes neuronales

Las redes neuronales son otro modelo de clasificación ampliamente utilizado en aplicaciones prácticas de minería de datos. En este caso el modelo trata de imitar el comportamiento de las neuronas humanas. El modelo está compuesto de un conjunto de unidades de cómputo muy sencillas, las neuronas, que están unidas entre sí formando una estructura de red. Habitualmente las neuronas se dividen en tres conjuntos, neuronas de entrada (existe una por cada variable predictora en el conjunto), variables ocultas (no es posible acceder a ellas de forma directa) y variables de salida (donde se obtiene la clasificación).

Dado un nuevo caso, la neuronas de entrada toman el valor del caso y estos valores se propagan a través de la red hasta que las variables de salida toman un valor. Dicho valor es el valor de clasificación del caso.

Smartherapy con esta entrada pretende estimular a los profesionales, tanto de la Salud, como los aparentemente alejados, a investigar nuevas vías de estudio, que abran vías de comprensión a tantos y tantos desequilibrios de la salud que crean sufrimiento en los seres vivos.

Bibliografía

[1] J. Hernandez, M.J. Ramírez y C. Ferri: Introducción a la minería de
datos, Pearson Educación, 2008.
[2] B. Sierra: Aprendizaje Automático: Conceptos Básicos y Avanzados, Pearson
Educación, 2006.
Minería de datos Por José A. Lozano, Universidad del País Vasco
Facultad de Informática
Departamento de Ciencias de la Computación e Inteligencia Articial
Manuel de Lardizabal 1, 20018 San Sebastián