Recientemente, OpenAI ha presentado su última innovación en inteligencia artificial: GPT-4o. Este nuevo modelo, que combina texto, visión y audio en una única entidad cognitiva, promete cambiar fundamentalmente la forma en que interactuamos con la tecnología. Anunciado por la CTO de OpenAI, Mira Murati, en un evento de transmisión en vivo, GPT-4o ha generado un entusiasmo sin precedentes entre los entusiastas de la IA y los usuarios de ChatGPT por igual.
GPT-4o: la evolución de la IA multimodal
Rodeado de rumores y especulaciones, este lanzamiento marca un hito significativo en el desarrollo de la inteligencia artificial. Sam Altman, CEO de OpenAI, describe este avance como «nativamente multimodal», fusionando de manera fluida capacidades de texto, audio y visión en un único modelo. Este enfoque innovador no solo reduce el retraso en la comunicación, sino que también permite una interacción en tiempo real, donde el usuario puede interrumpir el modelo en cualquier momento. Además, GPT-4o tiene la capacidad de reconocer y expresar emociones y tonos, lo que agrega una dimensión humana a sus interacciones, desde lo dramático hasta lo musical.
Una de las características más importantes de GPT-4o es su disponibilidad gratuita para todos los usuarios de ChatGPT. Esta decisión estratégica de OpenAI democratiza el acceso a la inteligencia artificial avanzada, abriendo nuevas posibilidades para una variedad de aplicaciones en la vida diaria y profesional. Además, se presenta como una opción más eficiente y rentable, con una velocidad de procesamiento el doble de rápida que su predecesor, GPT-4 Turbo, y a la mitad del costo.
Explorando nuevas fronteras de la interacción humano-máquina
Cabe mencionar que con GPT-4o, la frontera entre humanos y máquinas se desdibuja aún más. La demostración en vivo reveló una voz suave y cautivadora, reminiscente del icónico asistente de voz de Scarlett Johansson en la película «Her». Esta capacidad para entablar conversaciones naturales y expresivas tiene el potencial de transformar la forma en que interactuamos con la tecnología en nuestra vida diaria. Desde ayudar con tareas matemáticas hasta entonar canciones, GPT-4o representa un salto cuántico en la evolución de la inteligencia artificial.
Asimismo, el lanzamiento de GPT-4o marca el comienzo de una nueva era en la IA multimodal. Con su capacidad para procesar texto, audio y visión de manera integrada, este modelo allana el camino para una mayor personalización y adaptabilidad en nuestras interacciones con la tecnología.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
Capacidades del modelo GPT-4o
Cabe recordar que antes de la llegada de GPT-4o, la comunicación a través del modo de voz en ChatGPT estaba marcada por latencias significativas. Con GPT-3.5 y GPT-4, los tiempos de respuesta promedio oscilaban entre 2.8 y 5.4 segundos respectivamente. Esto se debía a la canalización de tres modelos separados, cada uno encargado de una tarea específica: transcribir audio a texto, generar texto y convertirlo nuevamente en audio. Sin embargo, este proceso fragmentado limitaba la capacidad del modelo para captar el tono, la presencia de múltiples interlocutores o los matices emocionales, resultando en respuestas menos naturales y expresivas.
Pero con la llegada de GPT-4o, OpenAI ha dado un salto cualitativo al entrenar un solo modelo capaz de procesar texto, visión y audio de manera integrada. Esto significa que todas las entradas y salidas son manejadas por una única red neuronal, eliminando así las latencias y permitiendo una interacción más fluida y natural en tiempo real. Además, GPT-4o tiene la capacidad de reconocer y expresar emociones, cantar e incluso adaptar su tono según el contexto, lo que agrega una capa de humanidad a sus interacciones.
Hay que decir que las evaluaciones de GPT-4o revelan un rendimiento excepcional en una variedad de áreas. En términos de comprensión de texto y razonamiento, alcanza niveles comparables a GPT-4 Turbo. Además, establece nuevos récords en capacidades multilingües, de audio y de visión. Por ejemplo, mejora drásticamente el reconocimiento de voz y establece un nuevo estándar en traducción de voz. Asimismo, en pruebas de comprensión visual, GPT-4o logra un rendimiento de última generación.
Seguridad y limitaciones del modelo
GPT-4o ha sido diseñado con seguridad incorporada en todas sus modalidades, mediante técnicas como el filtrado de datos de entrenamiento y el entrenamiento posterior para refinar su comportamiento. Sin embargo, se reconoce que existen ciertas limitaciones, especialmente en las modalidades de audio, que requieren una atención continua para mitigar posibles riesgos.
La entrada GPT-4o: la revolución multimodal de la IA para todos los usuarios de ChatGPT se publicó primero en El Tecnoilogico.