García Linux: marzo 2017

Para transformar un archivo pdf no editable en un archivo de texto:

1) Transformar el archivo pdf en texto:

Instalamos gscan2pdf tesseract-ocr tesseract-ocr-spa

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-spa

Abrimos el pdf que queremos editar con gscan2pdf – Herramientas OCR

y luego Archivo – Guardar – como Texto y también como hOCR

2) Pasar el resultado a LibreOffice:

Se abre el archivo de texto con gedit - Editar – Seleccionar todo y copiar el contenido a LibreOffice

Si es el archivo hOCR se abre con Firefox – Editar – Seleccionar todo y copiar el contenido a LibreOffice

Nos quedamos con el que se haya exportado mejor, a veces es el archivo de texto y otras el hOCR.

3) Editar el resultado con LibreOffice Writer:

Hay varias herramientas de Writer que tendremos que utilizar:

- Corrector ortográfico

- Buscar y remplazar, muy útil entre otras cosas para eliminar los posibles saltos de párrafo:

Editar – Buscar y reemplazar – En el cuadro Buscar ponemos el símbolo $ y en cuadro Reemplazar por se deja vacío – Otras opciones - Expresiones regulares activado

García Linux

04 marzo 2017

OCR en Ubuntu