Publicado por en
Microsoft Research acaba de publicar un nuevo conjunto de datos abiertos y los ha puesto a disposición para su descarga en Microsoft Research Open Data.
Los conjuntos de datos de Microsoft Research se encuentran categorizados por área de investigación, entre las que se encuentran: física, ciencias sociales, ciencias ambientales y ciencias de la información. La mayoría de los conjuntos de datos publicados no se encontraban disponibles públicamente previamente. Estos conjuntos de datos son útiles para la investigación en técnicas de inteligencia artificial y aprendizaje automático.
Entre los conjuntos de datos publicados se puede encontrar:
- 38 millones de tweets relacionados con las elecciones estadounidenses de 2012
- Datos de captura 3-D de personas que realizan diferentes gestos con las manos
- Infer.NET, un framework para inferencia bayesiana en modelos gráficos
- Un millón de imágenes de celebridades etiquetas
- MS MARCO, es un nuevo conjunto de datos a gran escala para comprensión de lectura y preguntas y respuestas
- Un corpus de 2,7 millones de palabras provenientes de búsquedas de Bing.
La mayoría de los conjuntos de datos se encuentran en archivos de texto sin formato, por lo que son adecuados para trabajar con cualquier herramienta de análisis de datos.