El proceso de la minería de datos

Publicado por en

La minería de datos hace referencia a los análisis utilizados para la identificación de patrones desconocidos en grandes conjuntos de datos. Pudiendo ser los análisis tanto automáticos como semiautomáticos. Para poder implementar los análisis de la minería de datos es necesario conocer diferentes técnicas procedentes de áreas tales como la gestión de bases de datos, la estadística, la inteligencia artificial y el aprendizaje automático.

¿Qué es la minería de datos?

La minería de datos es el proceso mediante el cual se busca identificar patrones en grandes conjuntos de datos. Siendo la palabra clave para hablar de minería de datos la identificación de patrones. El tipo de patrones que se pueden estudiar son múltiples, entre los que se pueden enumerar la identificación de:

relaciones entre conjuntos de variables (análisis de regresión),
grupos semejantes o detección de anomalías (análisis de clúster) o
hechos que suceden de forma conjunta (reglas de asociación).

Al ser un termino que esta de moda, el termino minería de datos se utiliza en muchas ocasiones incorrectamente para hacer referencia al manejo de datos. Especialmente cuando se habla de grandes volúmenes. Esto es, se emplea para situaciones en las que simplemente gestionan bases de datos, sin realizar un descubrimiento de patrones en el mismo. Por ejemplo, en la entrada de la Wikipedia sobre la minería de datos se hace referencia a esto:

La minería de datos o exploración de datos (es la etapa de análisis de "Knowledge Discovery in Databases" o KDD) es un campo de la estadística y las ciencias de la computación referido al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.

Minería de datos, En Wikipedia. Recuperado el 1 de julio 2018 .

El proceso de minería de datos se enmarca en el proceso que se conocen como KDD ("Knowlege Discovery in Databases", o Descubrimiento de Conocimiento en Bases de Datos). En la siguiente sección se hace un repaso de los seis fases en las que se divide el KDD.

La minería de datos dentro del proceso KDD

A grandes rasgos, se puede dividir en los siguientes pasos:

Selección: en el primer paso se han de seleccionar las variables que se utilizaran en el resto del proceso. Estas se pueden dividir en dependientes (aquellas para las que se desea predecir o inferir su valor) e independientes (aquellas que se utilizaran para realizar las predicciones). En algunos análisis no se utiliza variables dependientes, como en los modelos no supervisados.
mediante la utilización de diferentes técnicas estadísticas se obtiene información que describe los datos. Pudiéndose utilizar esta información para la identificación de valores atípicos ("outliers") o nulos. La identificación de estos valores es importante ya que pueden distorsionar las conclusiones.
Procesado y transformación: en este paso se utilizan diferentes técnicas para preparar los datos para los modelos.Por ejemplo, en este paso se pueden normalizar los valores o crear nuevas variables a partir de las originales.
Minería de datos: este es el paso en el que se construyen los modelos para explicar las observaciones.
Interpretación y evaluación: este es el paso en el que se interpretan los resultados de los modelos. Evaluando de esta manera si las conclusiones obtenidas son coherentes con las observaciones. En el caso de que el modelo final no supere esta evaluación el proceso se puede repetir desde cualquier punto anterior. Por otro lado, en el caso de superar la evaluación el modelo puede ser puesto en producción. Los resultados así obtenidos podrán ser utilizados en futuros análisis.
Producción: en esta fase los resultados de los modelos se pueden utilizar para solventar diferentes necesidades de negocio. En este paso es importante evaluar de forma continua los resultados. Verificando que las conclusiones obtenidas siguen siendo válidas con el paso del tiempo .

Algunas referencias pueden indicar que el KDD incluye también otros pasos como la limpieza e integración de los datos al comienzo del proceso y la visualización y representación final de los resultados.

Ciclo de vida de los modelos

Los modelos utilizados en minería de datos tienen un ciclo de vida. Inicialmente estos han de ser creados, validados y puestos en producción. Una vez puestos en producción su capacidad suele decaer con el tiempo debido a cambios en el entorno. Por ejemplo, en una tienda on-line los hábitos de los clientes, o la tecnología, pueden cambiar haciendo necesario que los modelos se actualicen para recoger estos cambios.

Generalmente el proceso de creación de los modelos suele ser costoso en recursos. Siendo necesario disponer de perfiles especializados y altamente cualificados para su generación. Por otro lado, la ejecución de los modelos en producción una vez creados no suele ser costosa. En la mayoría de los casos se ha de calcular una fórmula que suele ejecutarse rápidamente en los ordenadores actuales.

Conclusiones

En esta entrada se ha presentado en concepto de minería de datos y el papel que juega esta en KDD.