Tabula, una herramienta para extraer datos de un PDF

El formato PDF es uno de los más populares del mundo para compartir investigaciones, artículos periodísticos y hasta libros. Pero no se trata de un formato muy amigable si deseamos extraer datos para, por ejemplo, pasarlos a Excel y luego trabajar con ellos.

Afortunadamente existen herramientas para ayudar en este caso. Una de ellas, y completamente gratuita, es Tabula. Esta herramienta nos permite extraer los datos del PDF, exportarlos y manipularlos de forma muy conveniente.

¿Cómo funciona? Lo primero que debemos hacer es subir el PDF al sitio. Luego hay que ir específicamente a los datos que queremos extraer, seleccionarlos y listo: la información ya queda disponible para exportarla a un fortmato CSV o XLS de Excel.

Tabula también tiene una opción «detectar automáticamente las tablas», por si acaso subimos un PDF muy largo, de 50 o 70 páginas y no queremos seleccionar todo manualmente, algo que llevaría mucho tiempo.

El único aspecto «negativo» de Tabula es que no es un sitio online: requiere que descarguemos archivos a nuestra computadora.

Como se ve, el PDF es un formato muy conveniente. Pero si se lo combina con estas herramientas online, la experiencia mejora muchísimo.