Sonntag, 21. Dezember 2014

vom gebundenen Buch zum epub - Teil 5: das Extrahieren des Textes

bei diesem Schritt zeigt sich schnell, wieviel Zeit noch in eine Nacharbeit gesteckt werden muss. Die OCR kann nur wirklich gute Vorlagen mit geringer Fehlerquote verarbeiten. Ist die Auflösung zu klein oder zu viele Verschmutzungen auf der Seite, wird der Text falsch erkannt und man muss entweder nachabeiten oder nochmal einscannen. Ich habe feststellen müssen, dass ich manche Seiten nicht scharf abgelichtet hatte. Die OCR mühte sich redlich, erkannte aber beinahe die Hälfte des Textes dieser Seite nicht.
Ich habe übrigens eine alte, mal in einem PC-Magazin veröffentlichte ReadIris-Version benutzt. Da ich nur maximal 50 Seiten in einem Rutsch durchlaufen lassen konnte, musste ich mehrere Ausgangsdateien erzeugen 1-50, 51-100,...
Das Ergebnis ist übrigens eine RTF-Datei, die mit gängiger Textverarbeitung geöffnet werden kann.

Die erste Runde hatte ich mit der Option "volle Formatierung behalten" erkennen lassen. Das führte jedoch dazu, dass jede Seite in einen Textkasten, zum Teil sogar in mehrere eingebettet war. Das Layout ist zwar weitgehend zu dem im Buch identisch, wir wollen aber lieber einen Fließtext, den ich ja noch weiterbearbeiten muss. Hier bietet sich die Option "Wort und Paragraph-Formatierung beibehalten" an.

Keine Kommentare:

Kommentar veröffentlichen