Para transformar un
archivo pdf no editable en un archivo de texto:
1) Transformar el
archivo pdf en texto:
Instalamos gscan2pdf
tesseract-ocr tesseract-ocr-spa
sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-spa
Abrimos el pdf que
queremos editar con gscan2pdf – Herramientas OCR
y luego Archivo –
Guardar – como Texto y también como hOCR
2) Pasar el
resultado a LibreOffice:
Se abre el archivo
de texto con gedit - Editar – Seleccionar todo y copiar el
contenido a LibreOffice
Si es el archivo
hOCR se abre con Firefox – Editar – Seleccionar todo y copiar el
contenido a LibreOffice
Nos quedamos con el
que se haya exportado mejor, a veces es el archivo de texto y otras
el hOCR.
3) Editar el
resultado con LibreOffice Writer:
Hay varias
herramientas de Writer que tendremos que utilizar:
- Corrector
ortográfico
- Buscar y
remplazar, muy útil entre otras cosas para eliminar los posibles
saltos de párrafo:
Editar – Buscar y
reemplazar – En el cuadro Buscar ponemos el símbolo $ y en cuadro
Reemplazar por se deja vacío – Otras opciones - Expresiones
regulares activado
No hay comentarios:
Publicar un comentario