Hallo Freunde,
für einen Bekannten möchte ich einen Reiseführer von 1892 digitalisieren.Soll heißen: Seite für Seite einscannen und in ein Format bringen,womit man dann,ähnlich einer Diashow, Seite für Seite öffnen kann.Noch besser wäre,wenn man gezielt die Seite z.B. Nr.127 öffnen könnte.Ich verwende Windows 7 Home Premium 64 Bit.Man bräuchte dazu ein Text-Erkennungsprogramm? Habe ich aber nicht.
Bitte auch dazu einen Hinweis.
Besten Dank im voraus.
Gruß Winfried8
Anwendungs-Software und Apps 14.494 Themen, 73.660 Beiträge
@mehrere meiner Vorschreiber/-inen
Hallo alle miteinander!
1.) Welche Dateinformate kann Scan Tailor berarbeiten? Scan Tailor kann Dateien der Formate tif, tiff, jpeg, jpg und png bearbeiten.
[http://sourceforge.net/apps/mediawiki/scantailor/index.php?title=User_Guide]
2.) Die OCR Software wird nicht extra installiert. Die versteckt sich im Druckerprogramm der Herstellersoftware. Für deinen Drucker steht ein Update auf der Herstellerseite, vielleicht liegt es ja daran?
3.) Die Ausgabe als Word-Datei kann schwierig werden. Das liegt an der Formatierung des Textes und der Seite. Z.B. liegen die Seiten älterer Bücher nicht mehr ganz plan auf. Das führt z.B. dazu das Schrift als kursiv erkannt wird, obwohl sie es eigentlich nicht ist. Das Word-Format (bzw. andere Textformate, welche mehr als nur den reinen Text und einen Absatz speichern können) sind in der OCR Verarbeitung komplizierter bzw. älterer Vorlagen einfach zu problematisch. Deshalb wähle ich immer die Ausgabe als .txt.
4.) Ich an deiner Stelle würde den Reiseführer nicht doppelseitig einskannen bzw. es kommt auch hier drauf an, was das Endergebnis können muss. Bei Direktumwandlung würde ich die Seiten einzeln einskannen, doppelseitig nur wenn das Ausgabeformat des Skanns TIFF ist und ich diese Dateien dann weiterbearbeite. In diesem Fall würde ich auch die Ausgabe in einzelnen Dateien wählen. Also: die Seiten einzeln einskannen und in pdf kapitelweise Abspeichern ODER doppelseitig einskannen und im TIFF-Format und in einzelnen (Doppel-)Seiten abspeichern, dann per ScanTailor trennen.
5.) Ganz wichtig für die Auswahl der Bearbeitungsschritte ist die gewünschte Qualität und Eigenschaften des Ergebnisses.
a) wenn das Ergebnis lediglich auf einem Notebook oder einem PC-Bildschirm ausgegeben werden soll, dann reicht die direkte Umwandlung des Skanns in eine PDF-Datei. Das könntest du dann auch mit deinem jetzigen Druckerprogramm machen. Dann wird die Ausgabedatei aber sehr wahrscheinlich als (Bild)-PDF abgespeichert, d.h. die Datei wird entsprechend groß. Hier wäre ein Kapitelweises einskannen besser, weil die einzelne Datei dann kleiner bleibt.
b) Wenn die Datei später auch auf einem e-Reader ausgegeben oder durchsuchbar sein soll, dann ist der direkte Weg über dein jetziges
Druckerprogramm leider nichts. In diesem Fall hilft nur der Weg den ich in meinem ersten Posting beschrieben habe.
Gründe: das mit dem Bild bzw. Text PDF ist klar. Auch wenn das menschliche Auge einen Text in einer (Bild-) PDF Datei sieht, ist es für den Computer nur ein Bild. Weshalb aber benötigt man für einen e-Reader eine bessere Dateiqualität als für ein(en) PC/ Notebook? Das ist schwer zu erklären, da bin ich schonmal bei einem Vortrag mit gescheitert. Das PDF-Format ist von Hause aus ein Druckformat, d.h. es wurde entwickelt um den Datenaustausch im Druckbereich zu vereinfachen. In diesem Bereich darf es auf keinen Fall zu Veränderungen im Druckbild kommen. Diese können z.B. schon durch unterschiedliche Gerätekonfigurationen bei Verlag und Drucker herrühren. Im Klartext heißt das: einmal in pdf "gesetzt" kann am "Druckbild" nichts mehr geändert werden und die Datei wird auf allen Ausgabegeräten (egal ob Drucker oder Bildschrim) gleich aussehen. Nehmen wird also einmal an, du würdest deinen Reiseführer von 189x einskannen und den direkten Weg nach PDF wählen. Die Bildqualität wird schon nicht die beste sein. Du sagst, dass das Buch ein Format von circa DIN A 5 hat. Jetzt ist DIN A 5 ein gutes Stück größer als jeder E-Reader. Um deine PDF Datei lesen zu können hast du nur zwei Möglichkeiten
ba) das Bild wird runterskaliert und eine ganze Dateiseite wird auf dem Bildschirm des Readers ausgegeben. Die Schrift wird entsprechend klein und vermutlich nicht mehr zu lesen sein. Möglichkeit
bb) das Bild wird nicht runterskaliert und die Schrift bleibt lesbar. Dann wird die Darstellung aber zu groß für den Bildschirm und es muss gescrollt werden - und zwar nicht nur hoch - runter, sondern auch links - rechts. Ich stelle es mir sehr ungemütlich vor, ein Buch mit 200 Seiten, hoch-runter und links-rechts scollend zu lesen.
6.) Nein, Ich mache das nicht beruflich, aber ich beschäftige mich schon etwas länger privat damit.
7.) Ich benutzte Read I.R.I.S. und dort hat man die Möglichkeit zwischen Bild-, Bild und Text- oder Text-PDF als Ausgabeformat zu wählen. Das gilt allerdings nur für die einzeln gekaufte variante, ob die Variante aus der Druckersoftware auch diese Auswahlmöglichkeit unterstützt, ist mir nicht bekannt.
8.) Das Problem mit der Umwandlung in Text, dem eigentlichen OCR, ist folgendes: Das geskannte Bild wird mit einem Algorithmus x in einen Text umgewandelt. Unterstützt wird dieser Vorgang noch von Algorithmen die z.B. schräge oder nicht plan liegende Vorlagen korrigieren. Dieser Text wird noch einmal mit einem Rechtschreibprogramm bearbeitet. (Aus diesem Grund ist es sehr wichtig, die korrekte Sprache einzustellen. Wenn es denn möglich ist.) So, und diese Rechtschreibprüfung ist nicht so dolle. Und Jeder dieser Umwandlungsschritte kann neue Fehler produzieren bzw. vorhandene potenzieren. Beispiel: Nehmen wir einmal an, ein älteres Buch wird eingeskannt. Gewählt wird der direkte Weg in das PDF Format, Ausgabe also in eine PDF-Datei mit, sagen wir mal, 100 Seiten. Nehmen wir weiter an es wurde durchsuchbare Text-PDF als Ausgabeformat gewählt. Dann hat der Bearbeiter keinen Zugriff mehr auf die Datei bis sie fertig vor ihm auf dem Desktop liegt. Und genau in dieser Zeit laufen die Vorgange ab, die ich am Anfang dieses Absatzes erklärt habe. Das kann z.B. bedeuten, du hast eine Text-PDF-Datei in der massenweise die kreativsten Fehler drin sind. Beispiel: In deinem Buch kommt 20mal das Wort Sommer vor. Du suchst ganz genau die --eine-- Stelle. Jetzt hat blöderweise die Software gerade diesen Sommer als Somrner erkannt und als Text abgespeichert. Du darfst jetzt also deine 100 Seiten Buch durchsuchen oder kreativ werden und dir Varianten "Sommer" ausdenken und nach diesen suchen. Und schon ist der Vorteil von Text-PDF als Ziel einer direkten Umwandlung dahin. Oder wenn du wissen willst ob das Wort "Wirkstruktur" in deinem Buch vorkommt. Du kannst einem Suchergebnis nicht vertrauen. Das gleiche Problem ergibt sich auch bei falsch interpretierten Absatzformatierungen, Seitenformatierungen etc.
9.) PDF Split and Merge - kenn ich und habe ich auch schon benutzt. Soweit ich weiss kann dieses Programm aber nur einzelne Seiten aus einer mehrseitigen Datei herauslösen bzw. zu einer mehrseitige Datei zusammenführen, aber nicht eine eingeskannte Doppelseite trennen. Denn eine eingeskannte Doppelseite wird von dem Programm als --eine-- Dateiseite erkannt und nicht als zwei einzelne Seiten.
So. Gute Nacht!
Monika