OpenAI ha dado a conocer un informe de investigación, conocido como «System Card», que analiza los resultados de las pruebas de seguridad realizadas a su último modelo de inteligencia artificial, el GPT-4o. El informe revela que el modelo fue evaluado por un equipo externo de expertos en seguridad, denominados «red teamers», y se determinó que presenta un «riesgo medio».
Para identificar posibles debilidades y riesgos, los red teamers sometieron al GPT-4o a cuatro categorías de pruebas: Ciberseguridad, Amenazas Biológicas, Persuasión y Autonomía del Modelo. Según el informe, el modelo se consideró de «bajo riesgo» en todas estas categorías, excepto en la de Persuasión.
Aunque se determinó que la función de voz del GPT-4o es de «bajo riesgo», los red teamers hallaron que tres de las doce muestras escritas generadas por el modelo eran más efectivas para influir en la opinión de los lectores en comparación con contenidos redactados por humanos. Aunque el GPT-4o fue más persuasivo que el contenido humano solo en un cuarto de las pruebas, esta capacidad se examinó especialmente en el contexto de la persuasión de opiniones políticas, justo antes de las elecciones en Estados Unidos.
La publicación de esta «System Card» por parte de OpenAI busca demostrar su compromiso con la seguridad, especialmente tras una creciente crítica sobre su enfoque en nuevos productos en lugar de en la seguridad, que ha llevado a la salida de miembros clave del equipo y a reportes de ex-empleados confirmando estas preocupaciones. Además, recientemente, la senadora Elizabeth Warren ha exigido respuestas sobre cómo OpenAI maneja las revisiones de seguridad.
El informe plantea una inquietud relevante: ¿existe el riesgo de que el GPT-4o sea utilizado para difundir desinformación o influir en el voto público durante las elecciones? Este cuestionamiento subraya la necesidad de una vigilancia continua sobre el impacto y las capacidades de los modelos de IA avanzados.