Anteriormente hable de la herramienta "pdftotext" que extrae el texto de un archivo pdf creando una archivo editable, el problema es que si hay imágenes en el archivo pdf estas son ignoradas, si necesitas extraer las imágenes el comando que debes utilizar es pdfimages, este comando viene por defecto instalado en la mayoría de las distros de Linux, si no lo tienes instalado lo puedes hacer con el comando siguiente.
~ $ sudo apt-get install poppler-utils
El paquete "poppler-utils" contiene entre otras herramientas a "pdfimages", ahora que ya lo tienes instalado para extraer las imágenes utilizamos el siguiente comando.
~ $ pdfimages archivopdf.pdf imagen
El comando anterior extraerá todas las imágenes que encuentre en el archivo pdf, usando "imagen" como prefijo, de esta forma si encontró dos imágenes, las extraerá nombrándolas de la siguiente forma imagen-001.ppm, imagen-002.ppm e imagen-003.ppm. Si quieres las imágenes en formato jpg agrega la opción -j como se muestra en el ejemplo siguiente.
~ $ pdfimages -j archivopdf.pdf imagen
Acerca del Autor
Mas informacion sobre el autor de este Blog