Agregar información de OCR a un PDF

23

Tengo un escaneo de buena calidad de un documento; dicho escaneo está en formato pdf.

¿Cómo puedo agregar información de OCR al pdf, para que se pueda buscar? Al buscar me refiero a que el objetivo es que al visualizar el pdf con la marca, CTRL-F en realidad me permite buscar en el contenido del pdf.

    
pregunta fdierre 07.06.2012 - 08:56

5 respuestas

14

pdfsandwich

Hace lo que quiere y proporciona paquetes Deb de Ubuntu. Utiliza tesseract como motor OCR. La siguiente llamada agrega la capa de texto a su PDF escaneado:

pdfsandwich scanned.pdf

Following hace lo mismo pero con otro idioma (código ISO 639-2, descarga del paquete tesseract-ocr-LANGCODE ) y configura el diseño:

pdfsandwich  -verbose -lang spa -layout single scanned.pdf

Si obtiene algún error, descargue la última versión deb de Sourceforge .

Descargo de responsabilidad: soy desarrollador de pdfsandwich y, por lo tanto, obviamente parcial.

    
respondido por el Tobias Elze 25.07.2014 - 13:27
7

Hay dos proyectos que hacen el truco: GScan2PDF y OCRFeeder

    
respondido por el Aldi 07.06.2012 - 21:24
3

Encontré una solución no ideal, pero muy efectiva.

Utilizo PDF X-Change Viewer a través de Wine. Tiene una función de OCR que agrega una capa de texto al pdf existente basado en imágenes.

Así puede buscar y copiar texto de esta capa invisible.

    
respondido por el To Do 19.02.2013 - 10:31
2

Para una solución de línea de comando, puede usar pdfocr .

En resumen, instale el software:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:gezakovacs/pdfocr
$ sudo apt-get update
$ sudo apt-get install pdfocr

Luego ejecuta pdfocr:

$ pdfocr -i scanned.pdf -o scanned.with.search.pdf

Eso funcionó para mí en Ubuntu 12.04 LTS.

    
respondido por el Robert Citek 23.03.2014 - 20:23
1

Una solución que es fácilmente implementable y proporciona un PDF de salida con la misma calidad de archivo de entrada más un tamaño razonable es OCRmyPDF:

enlace

    
respondido por el user127022 08.11.2017 - 16:47

Lea otras preguntas en las etiquetas