La startup china de inteligencia artificial, DeepSeek, ha presentado DeepSeek Coder V2, un modelo de lenguaje de código abierto basado en la arquitectura Mixture of Experts (MoE). Este nuevo modelo no solo soporta más de 300 lenguajes de programación sino que también supera a modelos de código cerrado como GPT-4 Turbo, Claude 3 Opus y Gemini 1.5 Pro en tareas de codificación y matemáticas.
La empresa china de inteligencia artificial, DeepSeek, conocida por su competidor de ChatGPT entrenado en 2 billones de tokens en inglés y chino, ha anunciado el lanzamiento de DeepSeek Coder V2. Este modelo, basado en la arquitectura MoE y construido sobre DeepSeek-V2, lanzado el mes pasado, destaca en tareas de codificación y matemáticas, y soporta más de 300 lenguajes de programación.
DeepSeek Coder V2 no solo supera a los modelos de código cerrado en tareas específicas sino que también muestra un rendimiento comparable en tareas de razonamiento general y comprensión del lenguaje. La empresa afirma que es la primera vez que un modelo abierto logra tal hazaña, situándose por delante de modelos como Llama 3-70B.
El modelo original DeepSeek Coder, con hasta 33 mil millones de parámetros, ya mostraba capacidades decentes en tareas como la finalización de código a nivel de proyecto y la inflexión, pero solo soportaba 86 lenguajes de programación y una ventana de contexto de 16K. La nueva versión V2 amplía este soporte a 338 lenguajes y aumenta la ventana de contexto a 128K, permitiéndole manejar tareas de codificación más complejas y extensas.
Cuando se probó en benchmarks como MBPP+, HumanEval y Aider, diseñados para evaluar la generación de código, edición y capacidades de resolución de problemas de los LLMs, DeepSeek Coder V2 obtuvo puntajes de 76.2, 90.2 y 73.7, respectivamente, situándose por delante de la mayoría de modelos de código cerrado y abierto.
DeepSeek logró estos avances técnicos y de rendimiento utilizando DeepSeek V2, basado en su marco Mixture of Experts, y pre-entrenando el modelo base V2 en un conjunto de datos adicional de 6 billones de tokens, mayormente compuesto por datos relacionados con código y matemáticas de GitHub y CommonCrawl.
Además de sobresalir en tareas relacionadas con la codificación y las matemáticas, DeepSeek Coder V2 también ofrece un buen rendimiento en tareas de razonamiento general y comprensión del lenguaje. Actualmente, DeepSeek Coder V2 se ofrece bajo una licencia MIT, lo que permite su uso tanto para investigación como para uso comercial no restringido.
El lanzamiento de DeepSeek Coder V2 marca un hito en el campo de los modelos de lenguaje de código abierto, demostrando que estos pueden competir y superar a los modelos de código cerrado en una variedad de tareas, no solo en sus casos de uso centrales.