¿En qué se diferencia el modelo chino de inteligencia artificial del resto? Lo explicaban el otro día los de BBVA. Le pido a perplexity que me resuma las dos ideas principales:
1. Optimización: DeepSeek utiliza el algoritmo GRPO (Group Relative Policy Optimization), una variante más eficiente de los métodos tradicionales como el PPO (Proximal Policy Optimization). A diferencia de ajustar resultados individualmente, el GRPO evalúa grupos de respuestas similares, lo que reduce el tiempo de entrenamiento, mejora la flexibilidad y consume menos recursos computacionales. Este enfoque permite al modelo igualar o superar el rendimiento de modelos como GPT-4 en tareas de razonamiento matemático y programación, según pruebas internas
2. Eficiencia. El entrenamiento de DeepSeek R1 requirió solo 2.000 GPUs y un costo de 5,6 millones de dólares, cifras muy inferiores a las de competidores como GPT-4 (78 millones) o Gemini Ultra (191 millones) Esta eficiencia se logra mediante técnicas como la arquitectura modular MoE (Mixture of Experts), que reduce la latencia, y la curación rigurosa de datos para eliminar redundancias antes del entrenamiento. Aunque algunos analistas cuestionan la transparencia de estos datos, el modelo ha demostrado que es posible desarrollar IA avanzada con inversiones significativamente menores