Revista 100% Verde

Extracción de datos de un pdf desde Java

Por Soloelectronicos @soloelectronico

A veces necesitamos extraer información de texto procedente de ficheros en formato pdf por ejemplo para automatizar la extracción de determinada información relevante que contengan o simplemente porque deseamos guardar la información editable en otro formato mas amigable. En realidad es realmente interesante intentar automatizar esta tarea pues así nos evitamos manipulaciones manuales y tediosas lo cual seguramente nos hagan perder mucho tiempo con la gran escasez de este elemento de la vida moderna del que tampoco disponemos

Vamos a ver dos métodos para hacerlo usando el IDE de Eclipse y el lenguaje Java

Método 1; mediante un paso intermedio con conversión previa de los ficheros pdf a ficheros de texto

PDF to TXT Converter es una aplicación de Windows para convertir archivos pdf a archivos de formato de texto sin formato en modo batch. Este programa también admite la conversión de rango de páginas específicas a archivos txt de modo que después de la conversión, obtendrá el texto editable del documento PDF original

Extracción de datos de un pdf desde Java

Esta utilidad la podemos descargar desde aqui

Hay una pequeña pega con este programa, pues dado que es shareware en la versión gratuita tiene bastantes limitaciones , entre ellas que no se procesaran más de 200 documentos de un sola vez ( si se intenta con más de esa cantidad el programa pierde el control)

Un punto a su favor es que permite convertir automáticamente directorios enteros con contenido de ficheros pdf y de este modo no necesitamos seleccionar uno a uno cuál de ellos queremos convertir ( pero no olvide que, a no ser que compre la version completa, solo debería contener como máximo 200 ficheros)

Como vemos ,lo interesante de este programa es que permite convertir los ficheros pdf a texto l o cual nos facilitara procesar estos muy fácilmente desde java

Ahora vamos a ver un ejemplo cómo extraer los metadatos de un documento de tipo texto obtenido usando el programa anterior

La idea es que a partir de los pdf convertidos previamente a txt , es que iremos leyendo el contenidos de cada fichero txt e interpretando las cadenas extraidas de los pdf para buscar por ejemplo cuatro meta-datos que necesitamos , haciendo cuenta del orden en el que aparecen asi como las palabras justo anteriors:
-meta1,
-meta2
-meta3
-meta4:

En esta búsqueda tiene sentido el número de orden en el que aparecen las cadenas anteriores a la busqueda pues s egún el orden en que aparezca corresponderá a un meta-dato u otro.

En este caso meta2 hay que buscarlo dos veces , pero según este orden la cadena siguiente es meta2 o meta4

Veamos el ejemplo;

//lee el fichero palabra a palabra double d = in.nextDouble(); } // while (in.hasNext()) //resumen de datos capturados del pdf convertidos en txt y capturada en 4 campos que necesitamos

....

Método 2 directo usando la Liberia ItextPDF

iText es una biblioteca Open Source para crear y manipular archivos PDF, RTF, y HTML en Java. Fue escrita por Bruno Lowagie, Paulo Soares, y otros; está distribuida bajo la Affero General Public License.

El mismo documento puede ser exportado en múltiples formatos, o múltiples instancias del mismo formato. Los datos pueden ser escritos a un fichero o, por ejemplo, desde un servlet a un navegador web.

Más recientemente, ha sido extendida a una biblioteca PDF de propósito general, capaz de rellenar formularios, mover páginas de un PDF a otro, y otras cosas. Estas extensiones son a menudo mutuamente excluyentes. Una clase te permite rellenar en formularios, mientras una clase diferente e incompatible hace posible copiar páginas de un PDF a otro.

El soporte de PDF de iText es, sin embargo, bastante extensivo. Esto soporta firmas basadas en PKI de PDF, cifrado de 40-bit y 128-bit, corrección de colores, PDF/X, gestión de colores por perfiles ICC, y es anfitriona de otras característica

Podemos descargar el fichero itextpdf-5.1.0.jar desde el respositorio de Maven o de esta web http://www.java2s.com/Code/Jar/i/Downloaditextpdf510jar.htm

No debemos olvidar importar el jar desde el Ide del Eclipse en propiedades del proyecto-->Java Build Path->libraries ->Add External JARs

Extracción de datos de un pdf desde Java

Este es un ejemplo de captura sencilla de como procesar un pdf directaeente

i mport java.io.IOException;

public class prueba { PdfReader reader = new PdfReader("d:/ttttt.pdf");

System.out.println("This PDF has "+reader.getNumberOfPages()+" pages.");
String page = PdfTextExtractor.getTextFromPage(reader, 1);
System.out.println("Page Content:\n\n"+page+"\n\n");
System.out.println("Is this document tampered: "+reader.isTampered());
System.out.println("Is this document encrypted: "+reader.isEncrypted());

Es importante la sentencia String page = PdfTextExtractor.getTextFromPage(reader, 1); porque si ponemos 0 o un valor superior daría error

Como gracias a la librería podemos capturar la informacion del fichero pdf y aplicar la clase Sacanne para analizar las cadenas para buscar determinada informacion que queremos catalogar vamos a ver el ejemplo anterior usando los mismos campos y con la misma casuitica:

Este seria el mismo ejemplo de la primer parte , pero usando directamente los fichero pdf sin convertir a pdf:

import java.io.IOException; import java.io.StringReader; public class Main { public static void main(final String[] args) throws IOException { if (sub.matches(tipofichero)) System.out.println("Convertido salida del conversor a un String "); //in = new Scanner(new FileReader(nombreFichero));///AQUI ESTA EL PROBLEMA PUES SCANNER NO EST ACEPTADNO EL STRING Scanner in = new Scanner(nombreFichero); double d = in.nextDouble(); //resumen de datos capturados del pdf convertido en txt //fin de metatados de un documento INDIVIDUAL en el xml

Con esta librería como vemos podemos procesar de un modo relativamente sencilllo cualquier contenido de un fichero pdf de un modo muy potente como acabamos de ver .


Volver a la Portada de Logo Paperblog