Transcribe o traduce (al inglés) un audio utilizando Whisper de OpenAI

Publicado el 17 julio 2023 por Golpedegato

Si deseas transcribir y/o traducir archivos de audio de hasta media hora de duración puedes acceder al notebook que Jason Boog ha compartido en Google Colab mediante el cual se puede utilizar Whisper de OpenAI.

Recomendación: El audio debe estar lo más limpio posible, el sonido ambiental o de aparatos puede generar problemas en la transcripción o traducción en especial si se trata de un idioma diferente al inglés.

En el caso de las traducciones el ruido puede provocar que algunas palabras sean incorrectamente traducidas.

Para poder utilizar Whisper debes seguir estos pasos:

1. Acceder al notebook en Google Colab.

2. Ejecutar la celda que permite instalar Whisper (se hace click en el botón circular con el símbolo de play), a veces sale una advertencia indicando que el notebook no fue escrito por Google, si no por jasonboog@gmail.com, se puede omitir el mensaje presionando "Run anyway" (significa "Ejecutar de todas maneras").

Debes esperar un momento hasta que Google termine de ejecutar la celda, al lado izquierdo aparecerá un check acompañado del número de segundos que demoró.

3. Ejecutar la celda que instala la librería ffmpeg.

4. Subir los archivo de audio que se van a transcribir o traducir, en el lado izquierdo hay un ícono de un folder, se hace click allí y se despliega la ventana en donde se ven los archivos, para subir los archivos de audio se pueden arrastrar hacia esa ventana o se puede hacer click en el ícono con la flecha hacia arriba.

Recuerda que los archivos de audio no deben pasar de los 30 minutos, así que puede utilizar un programa como Audacity para cortarlos o editarlos.

Al seleccionar los archivos aparecerá un mensaje de advertencia indicando que los archivos serán eliminados cuando el tiempo de ejecución se termine hacer click en OK para seguir. Si actualizas la página vas a tener que comenzar de nuevo, así que se recomienda evitar que se cierre o se suspenda.

5. Para que Whisper transcriba el archivo de audio se ejecuta la celda en donde figura el comando !whisper colocando el nombre exacto del archivo entre comillas, tal como se ve en la figura. Whisper generará archivos de subtítulos con 5 tipos de extensiones (srt, vtt, txt, tsv, json.)

En la parte inferior irá apareciendo el texto que Whisper va reconociendo.

6. Puedes descargar los archivos de subtítulo generados por Whisper, haces click en los "3 puntos" que aparecen en el lado derecho del archivo, saldrá un menú en el que se debe seleccionar la opción "Download" o "Descargar" para descargarlos hacia la computadora.

7. En el caso de la traducción Whisper aún está limitado a traducir de cualquier idioma hacia el inglés, así que puedes aprovechar textos en idiomas como el japonés, chino o ruso para traducirlos a un idioma más fácil de trabajar.