Hallo Freunde,
für einen Bekannten möchte ich einen Reiseführer von 1892 digitalisieren.Soll heißen: Seite für Seite einscannen und in ein Format bringen,womit man dann,ähnlich einer Diashow, Seite für Seite öffnen kann.Noch besser wäre,wenn man gezielt die Seite z.B. Nr.127 öffnen könnte.Ich verwende Windows 7 Home Premium 64 Bit.Man bräuchte dazu ein Text-Erkennungsprogramm? Habe ich aber nicht.
Bitte auch dazu einen Hinweis.
Besten Dank im voraus.
Gruß Winfried8
Anwendungs-Software und Apps 14.494 Themen, 73.660 Beiträge
Das BSDG1981 einmal eine nur mit einem Scanner erstellte Bilddatei im PDF Format, richtig als nicht für durchsuchbar angibt, aber andererseits das TIFF Format als geeignetes Ausgabeformat erklärt, erschließt sich mir nicht.
Egal, ob man den Text als BILD oder (mittels OCR) als TEXT haben möchte: TIFF ist immer das bevorzugte, qualitativ hochwertige und universell anwendbare Dateiformat für Scanergebnisse. (Ob man später eine PDF, JPG oder sonst was draus macht, ist eine andere Frage.)
TIFF gibt es sowohl komprimiert (mit verschiedenen Kompressionalgorithmen) als auch unkomprimiert.
JPG ist definitiv kein gutes Dateiformat für Scanergebnisse, da es einfach zu schlecht ist... Die Art und Weise, wie JPG Bildinhalte komprimiert, führt zu Artefakten, die insbesondere die glatten, nicht horizontal oder vertikal verlaufenden Kanten zerstört. Damit ist es inbesondere für Scans, die anschließend mit OCR in Text umgewandelt werden sollen, eine schlechte Wahl.
Grundlage für ausgelesenen Text aus einm Scanvorgang ist eine OCR Software, deren Ausgabeformate sind.: JPG, TIFF, PDF, WORD, und andere.
Ein OCR-Programm gibt wohl kaum TIFF oder JPG aus! Das sind Bildformate, die man ja mit OCR gerade vermeiden will. PDF und WORD kommen für eine Ausgabe aus einem OCR-Programm schon eher in Frage.
Aber vielleicht macht die ein oder andere OCR Software beim Erstellen einer PDF Datei nicht anderes, als ein PDF Druckertreiber. in Word. Der Text wird innerhalb einer PDF Datei nicht als Pixel, sondern als Text behandelt.
Das ist ja gerade der Sinn von OCR!
Gruß, mawe2
Egal, ob man den Text als BILD oder (mittels OCR) als TEXT haben möchte: TIFF ist immer das bevorzugte, qualitativ hochwertige und universell anwendbare Dateiformat für Scanergebnisse. (Ob man später eine PDF, JPG oder sonst was draus macht, ist eine andere Frage.)
TIFF gibt es sowohl komprimiert (mit verschiedenen Kompressionalgorithmen) als auch unkomprimiert.
JPG ist definitiv kein gutes Dateiformat für Scanergebnisse, da es einfach zu schlecht ist... Die Art und Weise, wie JPG Bildinhalte komprimiert, führt zu Artefakten, die insbesondere die glatten, nicht horizontal oder vertikal verlaufenden Kanten zerstört. Damit ist es inbesondere für Scans, die anschließend mit OCR in Text umgewandelt werden sollen, eine schlechte Wahl.
Grundlage für ausgelesenen Text aus einm Scanvorgang ist eine OCR Software, deren Ausgabeformate sind.: JPG, TIFF, PDF, WORD, und andere.
Ein OCR-Programm gibt wohl kaum TIFF oder JPG aus! Das sind Bildformate, die man ja mit OCR gerade vermeiden will. PDF und WORD kommen für eine Ausgabe aus einem OCR-Programm schon eher in Frage.
Aber vielleicht macht die ein oder andere OCR Software beim Erstellen einer PDF Datei nicht anderes, als ein PDF Druckertreiber. in Word. Der Text wird innerhalb einer PDF Datei nicht als Pixel, sondern als Text behandelt.
Das ist ja gerade der Sinn von OCR!
Gruß, mawe2