04 marzo 2017

OCR en Ubuntu


Para transformar un archivo pdf no editable en un archivo de texto:
1) Transformar el archivo pdf en texto:
Instalamos gscan2pdf tesseract-ocr tesseract-ocr-spa
sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-spa
Abrimos el pdf que queremos editar con gscan2pdf – Herramientas OCR
y luego Archivo – Guardar – como Texto y también como hOCR
2) Pasar el resultado a LibreOffice:
Se abre el archivo de texto con gedit - Editar – Seleccionar todo y copiar el contenido a LibreOffice
Si es el archivo hOCR se abre con Firefox – Editar – Seleccionar todo y copiar el contenido a LibreOffice
Nos quedamos con el que se haya exportado mejor, a veces es el archivo de texto y otras el hOCR.
3) Editar el resultado con LibreOffice Writer:
Hay varias herramientas de Writer que tendremos que utilizar:
- Corrector ortográfico
- Buscar y remplazar, muy útil entre otras cosas para eliminar los posibles saltos de párrafo:
Editar – Buscar y reemplazar – En el cuadro Buscar ponemos el símbolo $ y en cuadro Reemplazar por se deja vacío – Otras opciones - Expresiones regulares activado