Revista Informática

Databricks adquiere MosaicML y se expande con IA generativa

Publicado el 05 julio 2023 por Ferranmunoz @ferran_munoz

Semana muy agitada para Databricks, que celebró su evento anual: además del anuncio de nuevos productos importantes orientados a la IA generativa, el editor también realizó una importante adquisición.

Pionero del análisis unificado en la nube, Databricks es un líder reconocido por Gartner en plataformas de ciencia de datos basadas en la nube. Por lo tanto, es uno de los pioneros de los conceptos de data lakehouse capaz de combinar las nociones de datalake y datawarehouse para gestionar la diversidad de datos (estructurados y no estructurados) y las necesidades de análisis desde BI hasta ML e IA.

El editor celebró su «Data + AI Summit 2023» esta semana en San Francisco. Un evento marcado por multitud de anuncios que demuestran el dinamismo de la editorial, cada vez más considerada como una de las principales competidoras de Snowflake, que -coincidencia de los calendarios- también celebró su «Summit 2023» a la misma hora del lado de Las Vegas.

Con en el menú para esta edición de 2023, IA generativa (obviamente, el tema es esencial en 2023), gobierno de datos, monitoreo de lagos, federación de consultas y formatos de mesa abierta.

MosaicML e IA generativa

Pero antes de discutir los anuncios que puntúan estos temas principales, Databricks inauguró su evento con el anuncio de una adquisición: la de MosaicML, una startup especializada en IA generativa y que a veces se presenta como uno de los principales competidores de OPEN AI. . Esta no es la primera adquisición de la editorial, que desde 2021 ha sumado Redash, 8080 Labs, Cortex Labs, DataJoy y Okera a su cartera. Por otro lado, es su mayor adquisición, ya que le costará a Databricks 1.300 millones de dólares. Esta operación tiene como objetivo facilitar la creación y ejecución de modelos ML dentro del entorno Databricks. Debería permitir que Databricks compita con ofertas equivalentes de Google (Vertex AI con sus nuevos modelos generativos), Microsoft (Azure Data Fabric y sus servicios OpenAI) o AWS (SageMaker y BedRock). MosaicML aboga por IA responsables que mantengan la privacidad de los datos de la empresa y no se comporten de manera impredecible. Al adquirir esta startup, Databricks espera fortalecer sus recursos de IA, atraer clientes tentados por la IA generativa, pero también reducir los costos de desarrollo de modelos para sus clientes.

IA de la casa del lago

Sobre la base de su adquisición de MosaicML, Databricks está lanzando una nueva versión de Lakehouse AI, un entorno de gestión del ciclo de vida de IA ahora mejorado para que los clientes desarrollen sus propias IA generativas a partir de modelos base (modelos fundamentales) entregados en modo SaaS que se pueden configurar, personalizar o reentrenado con datos de la empresa.
Al igual que las ofertas de ciclo de vida de proyectos de IA/ML de Google, Azure o AWS, Databricks ofrece nuevas características con Lakehouse AI para facilitar el desarrollo de aplicaciones de IA generativa, como Vector Search (enriquecimiento de la investigación de integración de IA generativa), una colección de modelos de código abierto. (incluidos MPT-7B y Falcon-7B), funciones «AutoML» y «Model Serving» optimizadas para LLM, una herramienta de optimización de avisos sin código (MLflow Prompt), etc.

CI de la casa del lago

Sigamos con la IA generativa. Si Lakehouse AI tiene como objetivo ayudar a las empresas a crear su propia IA generativa, Lakehouse IQ más bien permite popularizar el uso de la IA generativa dentro de la empresa al proponer poner el análisis de datos al alcance de todos gracias a una interfaz conversacional de lenguaje natural. Promocionado como un motor de conocimiento, Lakehouse IQ utiliza inteligencia artificial generativa para aprender qué hace que los datos de una organización sean únicos (jerga del equipo, acrónimos de la empresa, estructuras comerciales) y proporciona respuestas útiles y contextuales a preguntas en lenguaje natural. Permite que cualquier persona de la organización interactúe con los datos respetando las normas de seguridad y gobernanza.

Lago Delta 3.0

Delta Lake es un marco de código abierto que le permite crear una arquitectura Lakehouse basada en motores como Spark, PrestoDB, Flink, Trino, Hive y API para Scala, Java, Rust, Rubi y Python. Delta Lake admite transacciones, actualizaciones, esquemas y auditorías.
La versión 3.0 presentada esta semana introduce un formato de datos universal llamado UniForm que debería resolver problemas de compatibilidad y simplificar las integraciones. Este formato es compatible con Apache Iceberg y Apache Hudi. Según DataBricks, Delta Lake es el único formato abierto con soporte integrado para Delta Sharing (un formato abierto de intercambio de datos).

Catálogo Lakehouse Federation en Unity

Esta nueva característica centraliza dentro de Databricks el descubrimiento, la consulta y el control de los datos dondequiera que residan sin tener que mover o copiar primero los datos en Databricks. Lakehouse Federation, la última herramienta de eliminación de silos de datos, proporciona a los clientes una capa uniforme de servicio de datos y gobernanza para su arquitectura de malla de datos. Reduce las tareas de integración, los costos relacionados con el almacenamiento de copias al tiempo que mejora la seguridad de los datos y la postura de gobierno.

Aplicaciones de la casa del lago

La última característica importante, Lakehouse Apps, es una nueva forma de crear y ejecutar datos y aplicaciones de IA dentro de la plataforma Databricks Lakehouse. Lakehouse Apps permite a los clientes aprovechar los servicios nativos de Databricks y acceder a aplicaciones innovadoras de forma segura. Lakehouse Apps permite a los desarrolladores integrar sus aplicaciones más cerca de los datos y la IA.

Lea también:

Microsoft Build 2023: los 33 anuncios que no debes perderte…

Google I/O 2023: lo que los CIO deben recordar

Con Amazon BedRock y sus modelos Titan, AWS también se embarca en la IA generativa

«Dar a las empresas la capacidad de un mismo ecosistema para trabajar juntas»

Databricks simplifica la producción de modelos ML

¡Dataiku, Databricks y Alteryx dominan a IBM, Google y Microsoft!

¡Felicitaciones, se ha suscrito con éxito a nuestro boletín de noticias!

[


Volver a la Portada de Logo Paperblog