Revista Informática

Como extraer imágenes desde un archivo PDF en Linux

Publicado el 16 septiembre 2015 por Oscar Oscar Meza @vidagnu
Como extraer imágenes desde un archivo PDF en Linux

Anteriormente hable de la herramienta "pdftotext" que extrae el texto de un archivo pdf creando una archivo editable, el problema es que si hay imágenes en el archivo pdf estas son ignoradas, si necesitas extraer las imágenes el comando que debes utilizar es pdfimages, este comando viene por defecto instalado en la mayoría de las distros de Linux, si no lo tienes instalado lo puedes hacer con el comando siguiente.

~ $ sudo apt-get install poppler-utils

El paquete "poppler-utils" contiene entre otras herramientas a "pdfimages", ahora que ya lo tienes instalado para extraer las imágenes utilizamos el siguiente comando.

~ $ pdfimages archivopdf.pdf imagen

El comando anterior extraerá todas las imágenes que encuentre en el archivo pdf, usando "imagen" como prefijo, de esta forma si encontró dos imágenes, las extraerá nombrándolas de la siguiente forma imagen-001.ppm, imagen-002.ppm e imagen-003.ppm. Si quieres las imágenes en formato jpg agrega la opción -j como se muestra en el ejemplo siguiente.

~ $ pdfimages -j archivopdf.pdf imagen

Acerca del Autor

Mas informacion sobre el autor de este Blog


Volver a la Portada de Logo Paperblog