El Instituto de Innovación Tecnológica de los Emiratos Árabes Unidos ha lanzado el Falcon 180B, presentándolo como el modelo de lenguaje más grande y poderoso del mundo que es de código abierto. Esta herramienta cuenta con 180 mil millones de parámetros y ha sido entrenada con 3,5 billones de tokens. ¡Impresionante!
¿Qué hace especial al Falcon 180B?
Este modelo no es simplemente otro modelo de lenguaje en el mercado. Actualmente, lidera la tabla de clasificación de Hugging Face para los Grandes Modelos de Lenguaje Abierto Preentrenados. Destaca en diversas tareas como razonamiento, codificación y pruebas de conocimiento, superando a competidores prominentes como el LLaMa 2 de Meta.
En comparación con modelos de código cerrado, Falcon 180B se sitúa justamente detrás del GPT-4 de OpenAI y realiza tareas al mismo nivel que el PaLM 2 Large de Google, que impulsa a Bard, a pesar de ser la mitad de su tamaño.
Del Falcon 40B al 180B
Después de asombrar al mundo con el Falcon-40B, que en su momento fue uno de los modelos base más potentes jamás entrenados, el Instituto lo ha vuelto a hacer. Esta vez, han liberado el modelo de código abierto más potente hasta la fecha.
El Falcon-180B es un modelo de decodificador causal con 180B parámetros y ha sido entrenado con 3,500B tokens del RefinedWeb, mejorado con corpora curado. Está disponible bajo la Licencia y Política de Uso Aceptable Falcon-180B TII.
¿Por qué optar por Falcon-180B?
Es el mejor modelo de acceso abierto actualmente disponible y se encuentra entre los mejores en general. Además, tiene una arquitectura optimizada para inferencia y está disponible bajo una licencia permisiva que permite su uso comercial.
Aunque es un modelo preentrenado en bruto, existe una versión más adecuada para instrucciones genéricas en formato de chat, el Falcon-180B-Chat. Si necesitas un modelo más pequeño y económico, también puedes echar un vistazo al Falcon-7B y Falcon-40B, ¡los hermanos menores del Falcon-180B!
Para aquellos interesados en usar Falcon 180B, es esencial tener en cuenta que necesitarán al menos 400GB de memoria para ejecutar inferencias rápidamente.
Detalles del Modelo
- Descripción: Es un modelo de decodificador causal que funciona principalmente en inglés, alemán, español y francés, aunque tiene capacidades limitadas en otros idiomas como italiano y portugués.
- Licencia: Falcon-180B TII License y Política de Uso Aceptable.
- Uso Directo: Investigación sobre grandes modelos de lenguaje, sirve como base para la especialización y el ajuste fino en casos de uso específicos.
Se espera que el papel sobre Falcon-180B se publique pronto, lo que proporcionará más detalles y hallazgos sobre este revolucionario modelo. Mientras tanto, el Instituto recomienda finetunear el Falcon-180B para tareas específicas y tomar precauciones adecuadas para cualquier uso en producción.
Más información en blog de EAU y también podréis probar en un ChatDemo.
Fuente: Noticias AI