Sonntag, 21. Dezember 2014

vom gebundenen Buch zum epub - Teil 4: Vorbereitungen für das Extrahieren des Textes

nun sind alle Seiten fotografiert und liegen, nach gerade/ungerade sortiert, in getrennten Ordnern. Die Bilder haben allerdings fortlaufende Nummern in den Dateinamen. Das passt natürlich nicht zu den Seitennummern. Ich habe hier das Bulk Renaming Utility benutzt, um die ungeraden Seiten 1.jpg, 3.jpg, 5.jpg, usw., sowie die geraden Seiten 2.jpg, 4.jpg, usw. umzubennen. Anschließend kann man nochmal - zur Kontrolle - die Bilder mit deren Dateinamen vergleichen.



Man könnte jetzt direkt die OCR drüber laufen lassen, würde aber reichlich viel Kram um das Buch herum mit verarbeiten müssen. Deswegen habe ich den Scan Tailor benutzt, um nochmal etwas bessere Vorlagen zu bekommen. Das Tool macht folgendes:

  • Drehen der Seiten (deswegen die zwei Verzeichnisse für gerade/ungerade, weil so alle Bilder in einem Rutsch gedreht werden können)
  • Zerschneiden der Buchseiten (ist zwar eigentlich für Doppelseiten gedacht, hilft aber hier ebenfalls, um die Ränder wegzuscheinden)
  • Geraderücken der Seiten (falls das Buch oder die Kamera etwas verdreht war)
  • Lokalisieren der Bereiche mit Text
  • Entzerren von schräg abfotografierten Seiten (funktioniert aber nur in Grenzen)
  • Umwandeln in schwarz-weiße Bilder. Alles drumrum ist jetzt weg
Die Automatik ist ganz gut, manche Seiten werden allerdings total vermurkst. Hier lohnt es sich, während des Prozesses ggf. die Automatik auszuschalten und manuell auszuwählen.
Wenn man sich die Ergebnisbilder nochmal in der Vorschau von Scan Tailor oder einer externen Bildbearbeitung ansieht, erkennt man schnell, welche Seiten nicht gut sind und evtl. sogar noch einmal eingescannt werden sollten. Lieber einmal mehr draufschauen und in den ersten Schritten Sorfalt walten lassen, sonst hängt man nachher dran und verbrät die Zeit...
Passt das soweit, kopiert man alles zusammen in einen Ordner und hat eine fortlaufend nummerierte Sammlung an Bildern.



Keine Kommentare:

Kommentar veröffentlichen