Anwendungs-Software und Apps 14.494 Themen, 73.660 Beiträge

Buchseiten digitalisieren

Winfried8 / 29 Antworten / Flachansicht Nickles

Hallo Freunde,
für einen Bekannten möchte ich einen Reiseführer von 1892 digitalisieren.Soll heißen: Seite für Seite einscannen und in ein Format bringen,womit man dann,ähnlich einer Diashow, Seite für Seite öffnen kann.Noch besser wäre,wenn man gezielt die Seite z.B. Nr.127 öffnen könnte.Ich verwende Windows 7 Home Premium 64 Bit.Man bräuchte dazu ein Text-Erkennungsprogramm? Habe ich aber nicht.
Bitte auch dazu einen Hinweis.
Besten Dank im voraus.
Gruß Winfried8

bei Antwort benachrichtigen
Winfried8 Winfried8
BSG1981 Winfried8 „Buchseiten digitalisieren“
Optionen

Hallo Winfried8!
Ich habe selber schon einige Bücher mit 200 und mehr Seiten eingeskannt. Ich schreibe einfach mal meine Meinung dazu auf.

1) Was genau ist dein Ziel? Soll die fertige Datei ein PDF Dolument sein, welches aus zusammengefügten Bildern (und somit nicht durchsuchbar) besteht oder soll sie eben durchsuchbar sein?
Anmerkung: Durchsuchbar bedeutet, daß ein Buch als Textdatei erkannt wird und nach Wörtern darin gesucht werden kann. Ist diese PDF-Datei jedoch als Bild hinterlegt, weiss der PC nicht, das er einen Text vor sich hat und somit ist keine Wörtersuche möglich.

Womit wir bei Frage 0) angekommen wären: Wie will/ kann dein Freund diese Datei denn nutzen? Hat er einen PC/ Notebook zu Verfügung oder einen E-Reader oder ein Tablet?
Anmerkung: Selbst wenn er im Moment keinen E-Reader hat, wie sieht es in einem Jahr aus?

2) Welche Voraussetzungen hast du um dieses Ziel zu erreichen?
Dazu: Wenn man der Brother-Seite glauben darf (http://www.brother.de/g3.cfm/s_page/65190/s_level/24390/s_product/DCP130CG1/s_detailType/specs) sind die Voraussetzungen sehr gut, denn dein Drucker
a) hat eine OCR Software dabei (sieht man daran, dass er Scan-to-text unterstützt)
b) er unterstützt die Ausgabe-Formate PDF/ TIFF/ JPEG.

Mein Vorschlag:

Schritt 0: Anlegen des Ordners "Reisefuehrer"

Schritt 1: Skanne die Seiten ein (nicht einzeln, sondern als Doppelseiten, spart viel Zeit!). ---- Dabei sollte die Auflösung mindestens 300 DPI betragen. Sollte die Schrift kleiner sein sind 400 DPI besser. Warum? OCR-Software ist für 300 DPI bei Schriftgrößen von circa 12 optimiert, Eine Erhöhung der DPI bringt Qualitätsmäßig recht wenig, erhöht aber die Skanzeit erheblich. Die Dateigröße würde auch erheblich anwachsen und alle nachgeordneten Schritte würden infolgedessen langsamer ablaufen. Man könnte an dieser Stelle auch z.B. mit 175 DPI skannen. Das hätte aber den Nachteil, das ein späteres OCR mit diesem Ausgangsmaterial nicht möglich ist.
---- Das Programm des Druckers bietet häufig die Möglichkeit, die Skaneinstellung Kontrast, etc zu verändern. Ich nutze diese Möglichkeit nicht und bearbeite die Dateien im Nachhinein mit Irfanview. Nimm hier also einfach die vom Programm vorgegeben Einstellungen.
---- Ausgabeformat: Um sich alle Optionen für eine spätere Nutzung der eingeskannten Dateien offenzuhalten, wäre hier das TIFF Format am besten. Da sich das TIFF-Format sehr gut als Ausgangsformat für eine eventuelle Texterkennung, Umwandlung in PDF oder JPEG eignet.
---- Wenn dein Programm dir die Wahlmöglichkeit lässt: Speichern als einzelne Seiten auswählen.
---- Normalerweise hat man die Möglichkeit den Namen der Datei anzugeben. Diese werden dann vom Programm automatisch durchnummeriert. Du hast also dann z.B. die Dateien Reisefuehrer1 bis Reisefuehrer200. Hier lauert ein Problem und zwar: Die nachfolgenden Programme arbeiten mit der Batchfunktion, d.h. eine Stapelverarbeitung. Die funktioniert so, dass du die Erste Datei auswählst und angibts, welche Veränderungen an dieser Datei ausgeführt werden sollen und an allen anderen ausgewählten Dateien ebenfalls. Jetzt kann es sein, dass ein Programm nicht die Dateien in der Reihenfolge 1, 2, 3 etc öffnet und verarbeitet, sondern in der Reihenfolge 1, 11, 12, ..., 2, 21, 22, etc.. Sobald die Reihenfolge der Dateien wichtig wird, muss der Name der also Dateien angepasst werde (z.B. Reisefuehrer001, Reisefuehrer002).
---- Abspeichern: im Unterordner "Skannergebnisse"
---- Dauer der Aktion: nicht ganz eine Stunde. Hängt von Skannermodell, der Geschwindigkeit der Datenübertragung und eventuell von der Geschwindigkeit des Rechners ab. Anmerkung: Dein Drucker kann auch direkt auf eine Speicherkarte abspeichern, da kann der PC auch aus bleiben.

Schritt 2: Anlegen des Unterordners "Seiten getrennt"
---- Trenne die Doppelseiten mit Hilfe dieser Software (http://scantailor.sourceforge.net/). Die Seiten könne hier auch gerade gerichtet und Ränder enfernt werden.
----- Speicher die Ergebnisse im Unterordner "Seiten getrennt"
----- Ausgabefromat; weiterhin TIFF

Schritt 3: Anlegen des Unterordners "getrennte Seiten bearbeitet"
---- Bearbeiten der Dateien mit "Irfanview". Hier hilft nur ausprobieren. Sollte der Reiseführer zur Gänze aus Text bestehen, wäre ein Umwandlung in schwarz/ weiß emfehlendswert.
---- das Ziel dieses Schrittes ist die Verbesserung der Lesbarkeit und die Entfernung von Punkten auf den Skanns. Im gleichen Arbeitsschritt kann man auch Anmerkungen, etc, entfernen. Dazu sei gesagt, dass die geschickte Umwandlung in s/w bereits eine Menge der vorhandenen Punkte entfernt, der Rest muss dann leider von Hand und Seite für Seite gesucht und entfernt werden. Sorry!
---- Hier trennen sich die Bearbeitungsschritte von OCR und nicht-OCR.
---- Bei nicht-OCR Verarbeitung kann die Auflösung der Dateien gesenkt und somit auch die Dateigröße verringert werden.
---- Abspeichern der Ergebnisse im Unterordner "getrennte Seiten bearbeitet" Eventuell mit den Unterordner "OCR" und "nicht-OCR".
---- Für das Umwandeln in s/w kann sehr gut die Batchfunktion angewender werden.

Schritt 4.1: Anlegen des Unterordners "Zusammmenfuegen"
---- Ich verwende für diesen Arbeitsschritt die OCR Software. Bei mir ist es nämlich so, dass die OCR-Software, die im Druckerprogramm integriert ist, auch einzeln eingesetzt werden kann.
---- Man wählt als Datenquelle den Ordner "getrennte Seiten bearbeitet" aus.
---- Man gibt das Ausgabeformat (hier pdf) und den Speicherort an. Und drückt Start.
---- Anmerkung OCR-Software: Die beiden Großen sind die bereits genannten Nuance und Abbyy. Etwas kleiner ist I.R.I.S.. Es stehen zwar Testversionen zum Download bereit, diese sind aber in ihrem Funktionsumfang stark eingeschränkt und aus diesem Grund für deine Zwecke nicht sonderlich geeignet. Ganz großer Nachteil bei I.R.I.S.: auch die gekaufte Professional- Version hat eine maximale Seitenanzahl von 50.

Schritt 4.2 Anlegen des Unterordners "OCR"
---- Öffnen der OCR-Software.
---- Datenquelle: der Unterordner "OCR" aus Schritt 3.
---- Wichtig: Einstellung der richtigen Sprache.
---- Wenn vorhanden die Lernfunktion der Software verwenden. Spart viel Zeit bei der Nachbearbeitung.
---- Ausgabeformat festlegen. Liegt ganz bei dir. Ich verwende das txt. Format.
---- Start! Das kann durchaus etwas dauern. Sollte aber im Bereich wenige Minuten bleiben.

Schritt 5: Fehler und Fehlerquellen suchen! ;-)
---- Anmerkung: OCR: die Hersteller versprechen zwar eine super Erkennungsfunktion und versprechen ein niedrige Fehlerquote und das stimmt! Aaaber: das gilt für Einzelseiten, im Schriftformat 12 Punkte, einer heutigen Standardschrift ohne Knicke im Papier, ohne Verfärbungen (Vergilben wegen schlechter Papierqualität), ohne Kaffeekleckse, ohne ... uswusf. Solltest du also den Reiseführer in ein Textformat umwandeln wollen, kannst du dich auf Stunden der Nachbearbeitung freuen. Das Problem ist hierbei, dass der Text durchgelesen werden muss, da einige Fehler zwar keine Falschschreibung sind, aber trotzdem falsch erkannt wurden. Ein beliebter Fehler ist das Verwechseln von e/s/c, h/b und nr/m. Sehr beliebt in englischen Texten ist das Verwechseln von he und be. Und wenn dann noch sowas blödes wie ß dazu kommt, in Kombination mit einer schlechteren Papierqualität - du glaubst nicht wie kreativ OCR-Programme werden können;-) Kandinsky ist nichts dagegen. Hier wäre ein Beispiel: http://www.archive.org/stream/nasa_techdoc_19640006154/19640006154_djvu.txt

Schritt 6: Die Ordner mit den Zwischenergebnissen können nach einiger Zeit gelöscht werden. Die Ausgangsordner und die Ergebnisse würde ich aber behalten (Speicherplatz kostet ja heute nischt mehr).
mfg Monika

P.S.: Vielleicht kann man dir ja hier helfen? http://www.pgdp.net/phpBB2/ Da müsste man sich aber anmelden. Ist aber kostenlos.

bei Antwort benachrichtigen
Winfried8 Winfried8