Revista Informática

SantaCoder, la IA que programa sin violar derechos de autor

Publicado el 20 enero 2023 por Ferranmunoz @ferran_munoz

Se llaman OpenAI Codex, GitHub CoPilot, DeepMind (Google) Alphacode, Meta InCoder, Salesforce CodeGen… una simple petición expresada en palabras.

Pero también plantearon delicadas cuestiones en torno al respeto de los derechos de autor y las licencias de los códigos fuente con los que fueron formados.

Así, desarrolladores como Matthew Butterick denuncian las IA que “se aprovechan del trabajo de otros ignorando las licencias de código abierto subyacentes”. ¡Él demandó a Microsoft por GitHub CoPilot y reclama $ 9 mil millones!

Para evitar ese escollo, varios científicos (especialmente de ServiceNow y Hugging Face) comenzaron una iniciativa hace unos meses llamada Código grande. Esta colaboración tiene como objetivo producir modelos de lenguaje de generación de código que sean abiertos y responsables.

Y los primeros trabajos de esta iniciativa empiezan a ver la luz. Comenzó en noviembre de 2022 con la publicación de La pila, una compilación de códigos fuente cuidadosamente seleccionados y todo ello con una licencia ultrapermisiva que autoriza la explotación por parte de IA como la licencia MIT, la licencia Apache 2.0, la licencia BSD3-Clause o MPL 2.0. En total, BigCode ha identificado 193 licencias suficientemente permisivas y ha agrupado los códigos fuente adjuntos a estas licencias en una enorme base de datos de 6,4 TB. En otras palabras, The Stack es un conjunto de códigos fuente, deduplicados y escritos en 358 lenguajes informáticos, que representan 6,4 TB de datos disponibles gratuitamente para capacitar a programadores de IA que no violen derechos de autor ni licencias.

Tenga en cuenta que BigCode proporciona un motor de búsqueda en su sitio que permite a los desarrolladores verificar si uno de sus códigos fuente está integrado en The Stack y posiblemente solicitar que se elimine.

Esta semana, BigCode hizo público su primer trabajo en torno a modelos capaces de generar código a partir del entrenamiento realizado con el conjunto de datos «The Stack». llamado SantaCodereste modelo es un «Transformador» lingüístico, al igual que GPT 3, el modelo detrás Códice et Copiloto de GitHub – que tiene 1.1 mil millones de parámetros (GPT 3 se basaría en 450 mil millones de parámetros según nuestra información) y 24 capas. Puede generar código en Python, Java y JavaScript. Cada entrenamiento lleva más de 3 días en un HPC con 96 GPU NVidia Tesla V100.

Según los investigadores de BigCode, su IA ya supera a InCoder y desafía seriamente a IA como CodeGen y Codex tanto en tareas que consisten en generar código a partir de una descripción como en tareas como la finalización automática de código. Esto es prometedor y nos recuerda que en esta área, la de la IA codificada y los modelos generativos, el año 2023 promete ser muy animado.

Lea también:

¡OpenAI, GitHub y Microsoft acusados ​​de violar licencias de código abierto con AI CoPilot!

Microsoft quiere fortalecer su asociación con OpenAI e integrar ChatGPT en Microsoft 365

En Build 2022, Microsoft demuestra cómo la IA revolucionará el desarrollo

La increíble IA «ChatGPT»: lo que los CIO absolutamente necesitan saber en 10 puntos

[


Volver a la Portada de Logo Paperblog