Imagine una IA convincente "Joe Biden" hablando sobre recolección de votos o máquinas de votación pirateadas.
¿ Es el clip estúpido o aterrador? no puedo decidir Para ser honesto, es un poco de ambos.
"Creo que me encantaría que Ratatouille'd", comienza una voz que suena familiar.
"¿Ratatouille'd?" pregunta otra voz reconocible.
"Como, tener un tipo pequeño ahí arriba", responde la primera voz. "Ya sabes, haciéndome cocinar comidas deliciosas".
Parece que Joe Rogan y Ben Shapiro, dos de las voces más grandes y reconocibles de los podcasts, bromean sobre la posible ejecución en el mundo real de la premisa de la película de Pixar. Surge un argumento circular. ¿Qué constituye "conseguir Ratatouille'd" en primer lugar? ¿Los poderes de la rata se extienden más allá de la cocina?
Un amigo me envió recientemente el audio de este intercambio alucinante. Dejé escapar una carcajada y luego se lo envié por mensaje de texto a varias personas, incluido un tipo que una vez me dijo tímidamente que escucha regularmente The Joe Rogan Experience .
"¿Es esto real?" él envió un mensaje de texto.
Son voces de IA , le dije.
"¡Guau! Eso es una locura", dijo. "La política se va a volver loca".
No he dejado de pensar en la razón que tiene. Las voces en ese clip, aunque no son réplicas perfectas de sus sujetos, son profundamente convincentes en una especie de valle inquietante. "Rogan" tiene la inflexión familiar de Joe Rogan del mundo real, su curiosidad medio drogada. "Shapiro", por su parte, está ahí con respuestas rápidas y su burla característica.
La semana pasada, me comuniqué con Zach Silberberg, quien creó el clip utilizando una herramienta en línea de la empresa emergente ElevenLabs de Silicon Valley. "Eleven trae las voces más convincentes, ricas y realistas a los creadores y editores que buscan las mejores herramientas para contar historias", se jacta el sitio web de la empresa. La palabra narración está haciendo mucho trabajo en esa oración. ¿Cuándo la narración pasa a la desinformación o la propaganda?
Le pregunté a Silberberg si podíamos sentarnos en persona para hablar sobre las implicaciones de su broma viral. Aunque él no diseñó el producto, ya parecía dominarlo de una manera que pocos lo habían hecho. ¿Los malos actores pronto seguirían su ejemplo? ¿Le importaba? ¿Era su responsabilidad el importarle?
Silberberg tiene poco más de 20 años y trabaja en televisión en la ciudad de Nueva York. En la mañana de nuestra reunión, entró arrastrando los pies en una cafetería TriBeCa con un suéter andrajoso con un Bart Simpson al revés cosido en el frente. Me contó cómo había estado ocupado haciendo otros, en sus palabras, clips "estúpidos". En uno, una versión de IA del presidente Joe Biden informa a sus compatriotas estadounidenses que, después de ver el fracaso de Cameron Crowe en 2011, Compramos un zoológico , él, Biden, también compró un zoológico. En otro, IA Biden dice que la razón por la que aún no ha visitado el sitio del descarrilamiento del tren en East Palestine, Ohio, es porque se perdió en la isla de Lost. Si bien ninguna de las piezas de audio presenta a Biden tartamudeando o cambiando de palabra, como suele hacer cuando habla en público, ambos clips tienen la cadencia distintiva de Biden, esos ascensos y descensos familiares. Los guiones también tienen una inconfundible campanilla de Biden.
"La razón por la que creo que estos son divertidos es porque sabes que son falsos", me dijo Silberberg. Dijo que la conversación entre Rogan y Shapiro le llevó aproximadamente una hora y media producirla; se suponía que era una broma, no un intento bien elaborado de engañar a la gente. Cuando le informé que mi amigo que escuchaba a Rogan inicialmente pensó que el clip de Ratatouille era auténtico, Silberberg se asustó: "¡No! ¡Dios no!" dijo con un escalofrío. "Eso, para mí, está jodido". Sacudió la cabeza. "Estoy tratando de no caer en eso, porque lo estoy haciendo muy extravagante", dijo. "Nunca quiero crear algo que pueda confundirse con la realidad". Como tantas cosas relacionadas con la IA en los últimos meses, parecía que ya era demasiado tarde.
¿Qué pasaría si, en lugar de un presidente en ejercicio hablando de cómo se arrepiente de haber comprado un zoológico, una voz que sonaba bastante parecida a la de Biden fuera "grabada" diciendo algo mucho más nefasto? Cualquier número de puntos de conversación de The Big Lie impulsaría instantáneamente un ciclo de noticias. Imagine una voz de IA convincente que hable sobre la recolección de votos o máquinas de votación pirateadas; los votantes que tienen mentalidad de conspiración serían validados, mientras que otros simplemente podrían estar confundidos. ¿Y si la figura pública acusada, Biden, o cualquiera, no pudiera probar de inmediato que un clip viral que podría poner fin a su carrera era falso?
Uno de los principales escándalos políticos del último cuarto de siglo involucró una grabación incompleta de una voz incorpórea. "Cuando eres una estrella, te dejan hacerlo", proclamó el futuro presidente Donald Trump. (Ya sabes el resto.) Ese clip era real. Trump, siendo Trump, sobrevivió al escándalo y pasó a la Casa Blanca.
Pero, dado el arsenal de herramientas de inteligencia artificial orientadas al público que se apoderan de Internet, incluido el generador de voz con el que Silberberg y otros carteles de mierda han estado jugando, ¿qué tan fácil sería para un mal actor crear una pieza de audio al estilo de Access Hollywood en el período previo a las próximas elecciones? ¿Y si dicho clip fuera creado con el toque de un guionista de televisión? Hace cinco años, Jordan Peele se volvió viral con un video de IA del entonces presidente Barack Obama diciendo "Killmonger tenía razón", "Ben Carson está en el lugar hundido" y "El presidente Trump es un idiota total y completo". La voz estaba cerca, pero no tanto. Y debido a que era un video, los extraños movimientos de la boca eran un claro indicio de que el clip era falso. Los clips de audio de IA son potencialmente mucho más amenazantes porque la audiencia tiene menos pistas de contexto con las que trabajar. "No se necesita mucho, que es lo que da miedo", dijo Silberberg.
Descubrió que la IA parece producir un trabajo más convincente cuando procesa solo unas pocas palabras de diálogo a la vez. El clip de Rogan-Shapiro fue un éxito debido al "¿Quién está primero?" aspecto de ida y vuelta. Descargó muestras de audio existentes del archivo en línea masivo de cada presentador de podcasts (tres de Shapiro, dos de Rogan), las cargó en el sitio web de ElevenLabs y luego ingresó su propio guión. Este es el punto donde la mayoría de los aficionados probablemente fallarán en su troleo. Para que un clip aterrice, incluso una clara pieza de sátira, la dicción del sujeto debe ser creíble y familiar. Necesitas clavar los Biden-ismos. Cuanto más cortas sean las oraciones, menos tiempo tiene el oyente para cuestionar la validez de la voz. Además, aprendió Silberberg, cuanto más escribes, más probable es que las voces de la IA encadenen frases con puntuación defectuosa u otras florituras vocales incómodas. Cumplir con fragmentos rápidos hace que sea más fácil volver a intentar ciertas líneas del guión para perfeccionar la inflexión específica, en lugar de tener que recorrer un párrafo completo de diálogo. Pero esto es justo donde estamos hoy, 21 meses antes de las próximas elecciones federales. Va a mejorar, y más aterrador, muy rápido.
Si parece que la IA está en todas partes a la vez en este momento, tragando nuestra atención e Internet, es porque lo está. Mientras transcribía mi entrevista con Silberberg en un documento de Google, la propia IA de Google comenzó a sugerir palabras próximas en nuestra conversación mientras escribía. Muchos de los rellenos estaban cerca, pero no del todo exactos; Los ignoré. El lunes, Mark Zuckerberg dijo que estaba creando "un nuevo grupo de productos de alto nivel en Meta centrado en la IA generativa para potenciar nuestro trabajo en esta área". Esta noticia llegó pocas semanas después de que Kevin Roose, de The New York Times , publicara una historia muy leída sobre cómo había provocado la herramienta Bing AI de Microsoft en decir una variedad de declaraciones inquietantes y cargadas de emociones. Un par de semanas antes de eso, el DJ David Guetta reveló que había usado una versión de IA de la voz de Eminem en una presentación en vivo, letras que el Eminem de la vida real nunca había rapeado. En otra parte, el mes pasado, el editor de la revista de ciencia ficción Clarkesworld dijo que había dejado de aceptar envíos porque muchos de ellos parecían ser textos generados por IA.
El domingo pasado, Sam Altman, CEO de OpenAI, la compañía detrás de la herramienta ChatGPT AI, tuiteó crípticamente: "Una nueva versión de la Ley de Moore podría comenzar pronto: la cantidad de inteligencia en el universo se duplica cada 18 meses". Altman tiene 37 años, lo que significa que pertenece a la generación que recuerda haber vivido algo de su vida diaria sin una computadora. La generación de Silberberg, la posterior a la de Altman, no lo hace, y esa cohorte ya está adoptando la IA más rápido que el resto de nosotros.
Como mucha GENTE , me encontré por primera vez con una voz de IA "naturalista" cuando vi el excelente documental de Anthony Bourdain del año pasado, Roadrunner. La noticia de la curiosa decisión de los cineastas de incluir una breve y falsa voz en off del difunto Bourdain dominó la cobertura mediática de la película y, para algunos espectadores, hizo que verla distrajera por completo. (Es posible que te hayas encontrado siempre escuchando "el momento"). Tenían mucho material con el que trabajar, incluidas horas de narración real de Bourdain. ¿Qué logró realmente fingir un breve momento? ¿Y por qué no se lo revelaron a los espectadores?
"Mi opinión es que, declaración general, el uso de la tecnología de inteligencia artificial es bastante sombrío", dijo Silberberg. "La forma en que se dirige da miedo. Y ya está reemplazando a los artistas, y ya está creando escenarios asquerosos realmente jodidos".
Una breve encuesta de esos escenarios que ya han surgido: una versión de IA de Emma Watson leyendo Mein Kampf , una IA de Bill Gates que "revela" que la vacuna contra el coronavirus causa el SIDA, una IA de Biden atacando a personas transgénero. Los reporteros de The Verge crearon su propia IA Biden para anunciar la invasión de Rusia y validar una de las teorías de conspiración más tóxicas de nuestro tiempo.
El problema, esencialmente, es que demasiadas personas encuentran los ejemplos crueles y nihilistas tan divertidos como el dominio absurdo y de bajo riesgo de la forma de Silberberg. Me dijo que cuando el clip de Ratatouille comenzó a volverse viral, silenció su propio tweet, por lo que todavía no sabe qué tan lejos y qué tan lejos ha llegado. Un bot le notificó que al propietario de Twitter, Elon Musk, le "gustó" el video. Shapiro, por su parte, publicó "LMFAO" y un emoji de risa y llanto sobre la copia al carbón del clip de Silberberg en otra cuenta de Twitter. Mientras él y yo hablábamos sobre las implicaciones de su trabajo esa mañana, parecía estar cada vez más preocupado.
"Ya estoy en aguas éticas extrañas, porque estoy usando las voces de las personas sin su consentimiento. Pero son figuras públicas, figuras políticas o comentaristas públicos", dijo. "Estas son preguntas con las que estoy lidiando, estas son cosas en las que no he pensado completamente hasta el final, donde estoy como, 'Oh, sí, tal vez ni siquiera debería haber hecho esto. Tal vez ni siquiera debería haber tocado estas herramientas, porque refuerza la idea de que son útiles. O tal vez alguien vio el video de Ratatouille y dijo: 'Oh, ¿puedo hacer esto? Déjame hacer esto.' Y he expuesto a un montón de fanáticos de derecha de Rogan la idea de que pueden falsificar a una figura pública. Y eso para mí da miedo. Ese no es mi objetivo. Mi objetivo es hacer reír a la gente. Mi objetivo es hacer que la gente se ría un poco".
Ni la Casa Blanca ni ElevenLabs respondieron a mi solicitud de comentarios sobre los posibles efectos de estos videos en la política estadounidense. Hace varias semanas, después de que la primera ronda de trolls usara la tecnología de Eleven para lo que la compañía describió como "propósitos maliciosos", Eleven respondió con un largo hilo de tuits sobre los pasos que estaba tomando para frenar el abuso. Aunque la mayor parte era repetitivo, un cambio notable fue restringir la creación de nuevos clones de voz solo a usuarios pagos, bajo el pensamiento de que una persona que proporciona un número de tarjeta de crédito tiene menos probabilidades de trollear.
Cerca del final de nuestra conversación, Silberberg hizo una punzada de optimismo. "A medida que estas herramientas progresen, las contramedidas también progresarán para poder detectar estas herramientas. ChatGPT comenzó a ganar popularidad y, en cuestión de días, alguien había escrito algo que podía detectar si algo era ChatGPT", dijo. Pero luego pensó más en el futuro: "Creo que tan pronto como intentas engañar a alguien, estás tratando de quitarle el trabajo a alguien, estás tratando de reforzar una agenda política, ya sabes, puedes satirizar algo, pero en el instante en que intentas convencer a alguien de que es real, me da escalofríos. Me sacude hasta la médula".
En su sitio web, Eleven todavía anuncia con orgullo su "calidad asombrosa", alardeando de que su modelo "está construido para captar la lógica y las emociones detrás de las palabras". Pronto, el inquietante elemento del valle inquietante puede ser reemplazado por algo indistinguible de la entonación humana. Y luego, incluso las cosas divertidas, como el trabajo de Silberberg, pueden dejar de hacernos reír.