Revista Informática

Los mejores conjuntos de datos para Machine Learning

Publicado el 11 septiembre 2024 por Daniel Rodríguez @analyticslane
Los mejores conjuntos de datos para Machine Learning

Disponer de conjuntos de datos de calidad es crucial para poder construir modelos de aprendizaje automático (Machine Learning) robustos, precisos y funcionales. Como se suele decir "Basura entra, basura sale" (Garbage In-Garbage Out). Esto es algo que se nota especialmente cuando se está aprendiendo a crear modelos de aprendizaje automático, cuando no se dispone de datos reales para un problema real. Afortunadamente, existen varias plataformas en las que se pueden descargar conjuntos de datos variados, de calidad y bien documentados. En esta entrada, se presentan cinco sitios con los mejores conjuntos de datos para Machine Learning.

1. UCI Machine Learning Repository

El UCI Machine Learning Repository, mantenido por la Universidad de California en Irvine, es uno de los recursos más antiguos donde se puede conseguir conjuntos de datos para Machine Learning. Creado en 1978 por David Aha como un repositorio FTP. Siendo ampliamente utilizado por estudiantes y académicos en innumerables investigaciones y proyectos de Machine Learning desde su creación hace casi 50 años. Actualmente, alberga cientos de conjuntos de datos que cubren diversas áreas como biología, medicina, finanzas y más.

Cada conjunto de datos en el repositorio de UCI está acompañado de una descripción detallada que incluye información sobre sus características, posibles aplicaciones y referencias a estudios académicos que los han utilizado. Facilitando a los estudiantes, investigadores y profesionales encontrar el conjunto de datos más adecuado. Además, los datos se encuentran en formatos independientes de la plataforma como CSV, lo que simplifica su uso en prácticamente cualquier plataforma de análisis.

2. Kaggle Datasets

Kaggle es una plataforma, propiedad de Alphabet (Google), conocida por sus competiciones de data science en la que también se pueden encontrar conjuntos de datos para Machine Learning. Existiendo una gran variedad de archivos aportados por la comunidad. Por lo que es fácil localizar muchos conjuntos de datos con descripciones detalladas y ejemplos de uso.

Los conjuntos de datos en Kaggle son diversos, cubriendo diferentes áreas como visión por computador, procesamiento de lenguaje natural, análisis de redes sociales y más. Además, Kaggle también ofrece notebooks con los que los usuarios pueden explorar y analizar los datos directamente en la plataforma, facilitando la experimentación y el desarrollo de prototipos. Otro punto a favor de esta plataforma es su comunidad, la cual proporciona soporte y recursos adicionales, como tutoriales y foros, que pueden ser muy útiles para principiantes.

3. Google Dataset Search

Google Dataset Search es una versión del buscador especializado en búsqueda de conjuntos de datos disponibles públicamente en la web. Siendo una mejor opción cuando sólo se desea buscar conjuntos de datos para Machine Learning. Este servicio, lanzado por Google en 2018, indexa conjuntos de datos de diversas fuentes, incluyendo repositorios institucionales, organizaciones gubernamentales y sitios web comerciales.

La interfaz de Google Dataset Search es similar a la del buscador estándar de Google, facilitando enormemente su uso. Los resultados incluyen metadatos sobre los conjuntos de datos, como la fuente, el formato y las condiciones de uso, permitiendo a los usuarios evaluar rápidamente la relevancia de los datos para sus proyectos. Además, la capacidad de filtrar resultados por atributos específicos, como el tipo de archivo y la licencia, ayuda a encontrar conjuntos de datos que se ajusten a necesidades particulares.

4. Data.gov

Data.gov es el portal oficial de datos abiertos del gobierno de los Estados Unidos. Lanzado el 30 de mayo de 2009, proporciona acceso a miles de conjuntos de datos de agencias federales, estatales y locales. Los conjuntos de datos cubren una amplia gama de temas, incluidos medio ambiente, salud, educación, transporte y más.

Una de las mayores ventajas de Data.gov es que los conjuntos de datos son generalmente de alta calidad y están bien documentados, ya que han sido proporcionados por agencias gubernamentales que siguen estándares estrictos de recopilación y mantenimiento de datos. Además, muchos de los conjuntos de datos son actualizados de forma regular. La plataforma también ofrece herramientas para explorar y visualizar los datos, facilitando la realización de análisis preliminares y la identificación de tendencias y patrones.

Quizás el único problema de esta plataforma, es que los datos son específicos de los Estados Unidos, por lo que pueden carecer de interés para algunos estudios.

5. Awesome Public Datasets

Awesome Public Datasets es una lista colaborativa mantenida en GitHub que recopila enlaces a conjuntos de datos públicos disponibles en la web. Siendo una lista actualizada y curada por la comunidad. Por lo que añaden nuevos recursos de forma continuada gracias a los colaboradores. En esta lista, los conjuntos de datos abarcan una amplia variedad de temas provenientes de diversas fuentes entre las que se incluyen universidades, organizaciones no gubernamentales y empresas.

Lo que hace especial a Awesome Public Datasets es su organización y categorización. Los conjuntos de datos están agrupados por temas específicos, como imágenes, texto, biología, economía y más, lo que facilita la búsqueda de datos relevantes para un campo particular. Además, cada entrada incluye una breve descripción del conjunto de datos y un enlace directo a la fuente, lo que simplifica el acceso y la descarga. Esta plataforma es especialmente útil para aquellos que buscan datos específicos o desean explorar nuevas áreas de investigación.

Conclusiones

El acceso a conjuntos de datos de calidad es imprescindible para la creación de modelos de aprendizaje automático robustos. Independientemente del modelo usado, si los datos no son de calidad, lo más probable es que las predicciones tampoco sean de calidad. Uno de los problemas más habituales al trabajar en aprendizaje automático. Las plataformas mencionadas anteriormente en esta entrada -UCI Machine Learning Repository, Kaggle Datasets, Google Dataset Search, Data.gov y Awesome Public Datasets- ofrecen una amplia variedad de datos que pueden ser utilizados en proyectos en múltiples áreas de investigación. Al acceder a estas plataformas no solo se puede obtener los conjuntos de datos, sino que también inspiración y conocimientos que pueden ayudar a mejorar significativamente los resultados de nuestros proyectos.

Imagen de Dimuth De Zoysa en Pixabay


Volver a la Portada de Logo Paperblog