Saltar al contenido

Gnu/Linux Vagos usa cookies. Lea nuestra Política de privacidad para más información.    Acepto el uso de cookies

Foto
Libre

Manipulando pdf

Libre pdf

  • Por favor, loguéate para poder responder
2 respuestas a este tema

#1 DESCONECTADO   artiza

artiza

    Linuxero avanzado

  • Registrado: 20/07/2012
  • Mensajes: 481
  • Galletas: 2255

Género:






Escrito 06 August 2015 - 17:51

Para no hacerlo muy largo, lo trocearé en tres.

 

 

A muchos nos llegan documentos en formato pdf a los que a veces hay que meterles mano eliminando páginas, añadiéndolas y modificando algunos detalles para convertir uno o más documentos en otro que podamos mandar como «propio» con el contenido que deseamos. Son herramientas gráficas de uso habitual, en mi opinión, y que tienen habilidades o características que se pueden usar para conseguir alguna ventaja a la hora de manipular este tipo de documentos.

 

Nada más que dar a conocer las herramientas que están a disposición de cualquiera en la mayoría de las distribuciones. Por si queremos sacarle más partido a este tipo de documentos y darle un par de vueltas antes de renunciar a modificarlo a pesar de su rigidez para editarlo. Obviamente, es un análisis bastante subjetivo.

 

HERRAMIENTAS BÁSICAS

 

Okular (versión 0.20.2)

https://okular.kde.org/

 

Okular_kde4.png

 

Okular es el lector de pdf por defecto del escritorio KDE. En mi opinión, el mejor que he usado. Tiene dos habilidades que empleo habitualmente:

  • Impresión pdf del documento cargado. Si el documento contiene imágenes y no está «optimizado» es posible que al imprimirlo en formato pdf comprima las imágenes y reduzca el peso del archivo. Por ejemplo, después de escaneado un documento si queda muy pesado es posible que okular lo aligere un poco y lo haga más fácil de compartir.

  • Extraer texto a un archivo de texto. Obviamente, no funciona con archivos que solo contengan imágenes.

  • También puede eliminar las restricciones DRM de un documento pdf o respetarlas por defecto.

 

PDF-Shuffler (versión 0.6.0)

http://sourceforge.n...ts/pdfshuffler/

 

pdf-shuffler.png

 

 

Es una aplicación gtk+ que depende de python.

En repositorios de Debian.

Su principal característica es que es muy simple. Sus habilidades son:

  • Añadir a un documento pdf otro documento. Se añade al final de la última página del último documento.

  • Las páginas se muestran como miniaturas. La posibilidad de lectura es muy limitada pues su precisión gráfica es muy pobre. Las acciones posibles sobre el contenido del documento pdf son todas gráficas.

  • Se pueden eliminar páginas. Se pueden seleccionar varias páginas a la vez, pero solo por filas. Es más cómodo eliminar páginas una a una. Como ayuda, las páginas conservan la numeración del documento original.

  • Se pueden mover las páginas de posición una a una y solo de forma gráfica, lo que puede ser muy tedioso y dar lugar a errores.

Su mayor virtud es la de agregador de documentos pdf, y ocasionalmente sirve para corregir el documento eliminando alguna página, o girándola, o suprimiéndola.

No conserva el título del documento o nombre interno del pdf, ni permite editarlo o crearlo. Es decir, en la barra de la ventana del lector pdf aparecerá el nombre del archivo por defecto.

 

DiffPDF (versión 2.1.3)

http://soft.rubypdf....oftware/diffpdf

 

diffpdf.png

 

En la página del proyecto hay otras herramientas pdf.

Depende de las librerías Qt 4.8. Existe una versión para windows

Su principal característica es que compara el contenido de dos documentos pdf. La comparación es por la apariencia, por palabras o por caracteres.

Yo lo uso para los documentos que tienen varias versiones, bien porque los rehaces o te los rehacen, bien porque ha pasado el tiempo y necesitan una actualización y es posible que hayas olvidado cambiar algún detalle temporal, o un importe.

Su manejo es bastante básico y, aunque está en inglés, creo que no supone un obstáculo para su uso.

 

 

gPDFText (versión 0.1.6)

http://sourceforge.n...jects/gpdftext/

 

gPDFText-1.png

 

Depende de librerías gtk

Está pensado para extraer texto de documentos pdf, aunque está orientado a extraer texto de un pdf de un eBook. Permite unir líneas, unir palabras divididas con guión, y eliminar el número de página. Si el número de página es complejo y no un simple número en una línea, no lo eliminará.

El texto extraído se puede guardar en formato texto (ASCII) o formato pdf en tamaño A5, B5 ó A4.


  • portaro, Rafa, Fransis y 1 otro le gusta esto

#2 DESCONECTADO   artiza

artiza

    Linuxero avanzado

  • Registrado: 20/07/2012
  • Mensajes: 481
  • Galletas: 2255

Género:






Escrito 06 August 2015 - 18:10

EDITORES

 

LibreOffice Draw (versión 4.3.3.2)

 

Libre-Office-Draw-Simple.png

 

 

Debe estar instalado el complemento libreoffice-pdfimport para poder manipular documentos en pdf.

 

En mi opinión, es un editor bastante completo. No obstante, la mayoría de los problemas que he tenido al editar los pdf con Draw es que no tenía las fuentes ttf apropiadas y elegía unos tipos desproporcionados de forma que las cajas de texto quedaban en ocasiones fuera de margen. Se puede mejorar el aspecto de las fuentes instalando los paquetes de fuentes de LaTex (fonts-texgyre, texlive-fonts-utils, texlive-fonts-extra y texlive-fonts-recommended). Son un montón de fuentes, pero pueden ser útiles para acoplar fuentes extrañas del documento a nuestros márgenes sin tener que retocar las cajas afectadas, pero tampoco garantiza que mejore porque hay ocasiones en que no hay una fuente apropiada.

 

Otra ventaja de Draw es que es un programa para crear/editar gráficos. Se puede aprovechar su potencia para optimizar también la parte gráfica del documento reduciendo la resolución y el peso del documento mediante compresión.

 

Tiene la posibilidad de ponerle nombre a cada página de modo que la navegación posterior del documento puede agilizarse. También se le pueden añadir marcadores (encabezados, títulos) al texto y editarlo con bastante comodidad.

 

Carga documentos pesados con bastante facilidad.

 

No permite la inserción de otros documentos, ni de forma completa ni páginas independientes.

 

Se pueden insertar «diapositivas» (páginas) en blanco para ser editadas.

 

El documento se guarda en el formato nativo de LibreOffice. Obviamente, se puede exportar como pdf.

 

Permite agregar el título del documento (o nombre interno del pdf) editando las propiedades del documento añadiéndolo al campo «Título». Esta característica está disponible en todos los programas de la suite.

 

Draw no respeta el final de línea del párrafo: si el párrafo está justificado, en Draw se pierde esa característica al considerar cada línea de forma independiente aprovechando la proporcionalidad de las fuentes. Quizá exista la función que permite igualar los finales de línea, pero no he sabido encontrarla.

 

 

 

Master PDF Editor (versión 3.2.8)

https://code-industr...ree-pdf-editor/

 

 

Es un editor exclusivo de documentos pdf: es capaz de crearlos y editarlos de forma natural. Pero no es un programa libre.

  • Tiene un tratamiento de las fuentes más estricto que Draw y ajusta la forma y el tamaño de la fuente con más precisión.
  • Suele respetar el tipo de finalización del texto: si el párrafo está justificado, las cajas (una por cada línea, normalmente) respetan el ajuste.
  • Permite añadir o editar el nombre interno del documento pdf.
  • Al igual que LibreOffice, permite la creación/edición de documentos pdf con contraseña de apertura o contraseña de accesos permitidos.
  • Permite la inserción de otros documentos pdf completos en la posición elegida, o insertar en la posición elegida páginas previamente seleccionadas de otro documento.
  • Carece de compresor de imágenes.

En mi opinión, es un poco árido para crear documentos pdf.

La impresión en entornos gtk es un poco desconcertante. En ese caso, es preferible imprimir el pdf con cualquier visor en lugar de emplear master pdf.



OCR

 

El reconocimiento óptico de caracteres OCR es otra posibilidad dentro de la manipulación de documento pdf gráficos. En ocasiones, es posible que necesitemos el texto literal del contenido del documento. Para ello el mejor programa que he usado es gImageReader (gimagereader).

 

Otro programa OCR es YAGF (versión 0.9.3.2-1 https://code.google.com/p/yagf/)pero solo carga documentos gráficos aunque indique que también es capaz de cargar documentos pdf. Apenas lo he usado.

 

 

gImageReader (versión 2.93-2)

(http://sourceforge.n...s/gimagereader/)

 

gimagereader.jpg

 

Es un front-end o aplicación gráfica de tesseract-ocr (versión 3.03.03-1). Depende de librerías gtk.

 

Su principal habilidad es la de interpretar caracteres/palabras en un documento pdf gráfico. Para ello necesitaremos instalar también los diccionarios apropiados para que el texto reconocido sea más coherente y no solo letras agregadas.

 

Los diccionarios en español son tesseract-ocr-spa y tesseract-ocr-spa-old.

 

El área de trabajo se divide en tres paneles:

  • El de la izquierda permite elegir la fuente o el origen del documento a reconocer. Puede ser un documento que se escanee o uno ya creado. Yo prefiero trabajar con uno ya creado.

  • El panel central se reserva para la página del documento sobre la que está trabajando. Permite leer todo el documento o seleccionar páginas sueltas. Se puede elegir una lectura completa o por secciones de texto (autodetect). Por ejemplo, para el caso en que exista una cabecera, un cuerpo de texto, pies de foto...

  • En el panel de la derecha se mostrará el texto «interpretado» por tesseract. Desde ese panel podremos trasladarlo a otro documento (copiar-pegar) o guardarlo en un documento de texto plano.

  • También permite «agregar» otras lecturas OCR a la ya existente cargando otro documento o interpretando otra página del documento ya cargado.

 

El rendimiento del reconocimiento de los documentos dependerá de la potencia del pc, de la calidad gráfica del documento y de la nitidez de las imágenes. Un documento de 70 páginas (2,4 MB), con una calidad y precisión aceptable, con inserción de distintos tipos y tamaños de letra fue reconocido en unos veinte minutos por un pc de hace 8 años, con un procesador de doble núcleo xeon a 1,8 Mhz.

 

El programa está en inglés aunque, como en casos anteriores, creo que no es difícil de comprender para poder usarlo.

 

No hay tecla de pausa o interrupción del proceso de interpretación OCR.

 

No he probado texto manuscrito.


Editado por artiza, 06 August 2015 - 18:08 .

  • portaro, radon2, Rafa y 3 mas les gusta esto

#3 DESCONECTADO   Fransis

Fransis

    Pingüino

  • Registrado: 08/04/2013
  • Mensajes: 852
  • Galletas: 3177

Género:








Lugar:Madrid

Intereses:Despertar

Escrito 13 August 2015 - 13:59

pero que pedazo de aporte.

muchas gracias, ese indice va engordando con cosas tan utiles como esto!!!

salu2 y gracias


  • Rohlling le gusta esto

5g1v4-2f6h.jpg






También etiquetado con una o más de estas palabras: Libre, pdf