Bei einem Fotokopierer wird eigentlich angenommen, dass er Dinge dupliziert. Kopien sind vielleicht nicht so gut lesbar wie Originale, aber generell sollte das, was inhaltlich lesbar ist, auch mit dem vom Original übereinstimmen. Gleichermaßen ist es bei "Scan-Kopieren", die Papiervorlagen in PDF-Dokumenten speichern. Auch hier geht man davon aus, dass der Inhalt solcher "PDF-Kopien" den Papieroriginalen entspricht.
Und das soll ein fataler Irrtum sein. Aus einem Bericht des Informatikers David Kriesel aus Bonn geht hervor, dass bei professionellen Scan-/Kopierern des bekannten Herstellers Xerox "falsche" Dokumente entstehen können, weil die Geräte Ziffern eventuell verfälschen.
Laut seinen Untersuchungen kann es zu falschen Ziffern, vertauschten Zahlenreihen oder Bildfragmenten kommen. Falsche Abrechnungen oder Baupläne mit falschen Quadratmeterangaben sind dann vielleicht noch das geringere Übel. Fataler wird es, bei verfälschten Architektur-Konstruktionsplänen oder Angaben zu Arzneimitteldosierungen.
Laut Kriesel tritt das Fehlverhalten bei weit verbreiteten Scanner-/Kopierer-Geräten des Weltherstellers Xerox auf und auch die neueste Softwareversion beseitigt es nicht. Als Beispiele werden Geräte der Xerox-WorkCentre-Modellreihe (WorkCentre 7535 und 7556) genannt.
In seinem Bericht nennt der Informatiker mehrere Fallbeispiele, wie der Fehler entdeckt wurde. Unter anderem wurde vor einigen Tagen in einem Bauplan entdeckt, dass ein eingezeichneter Raum der nur mit 14 Quadratmetern angegeben war, deutlich größer war, als ein danebenliegender mit 22 Quadratmetern. Beim Xeroc WorkCentre 7535 war der Fehler reproduzierbar, es machte immer den gleichen Kopierfehler. Das WorkCentre 7556 produzierte bei jedem Durchlauf andere Fehler.
Bei weiteren Experimenten stellt der Informatiker fest, dass die betroffenen Geräte wohl auch mit eigentlich deutlich lesbaren 6ern und 8ern Probleme haben. Kriesel erklärt zu diesem Bild, dass klar erkennbar ist, dass es sich nicht einfach um Pixelfehler handelt. Die charakteristische Eindellung eines echten 8ers ist auch beim falschen 8er deutlich erkennbar.Wichtig zu wissen: es handelt sich hier nicht um ein OCR-Texterkennungsproblem, die OCR-Funktion der Geräte wurde extra ausgeschaltet. Bei Einsatz der Xerox-Geräte als OCR-Scanner, gab es keine Probleme. Auch dann nicht, wenn Vorlagen gescannt und als TIFF-Datei gespeichert werden. Das Problem tritt nur beim Einscannen und Speichern als PDF-Dokumente (ohne OCR) auf.
Kriesel vermutet, dass es sich um ein Kompressionsproblem handelt. In den Geräten wird wohl die JBIG-Kompression verwendet, die Bilddaten in PDF-Dokumenten komprimiert. JBIG analysiert wohl ähnliche Blöcke in Bildern und speichert sie dann in einer "Tabelle" um sie mehrfach zu verwenden. Kriesel befüchtet, dass Xerox den Kompressionsfaktor bei JBIG zu "radikal" eingestellt hat.
Das Problem tritt wohlgemerkt nur dann auf, wenn Dokumente von Papier ins PDF-Dokument übertragen werden - wohlgemerkt ohne OCR-Texterkennung. In vielen Büros ist es heute gängige Praxis, Dokumente auf diese Art zu archivieren.
Das Schlimme am jetzt entdeckten Problem ist, dass unabschätzbar ist, wie viele und wie wichtige Dokumente falsch archiviert wurden. Und: welche bislang unentdeckten Folgen das bereits hatte oder noch haben will. Die Geschichte dürfte in den kommenden Tagen gewiss für viel Wirbel sorgen. Denn im Fall von Xerox handelt es schließlich um ein Schwergewicht im professionellen Scan-/Kopierer-/Drucker-Bereich.
Auch wird es - so das Problem offiziell bestätigt wird - eine brauchbare Lösung zu finden. Was sollen Unternehmen tun, die Papierzeugs als PDF archiviert und die Papieroriginale nicht mehr haben? Die einzige Chance festzustellen, ob ein PDF richtig ist, besteht darin, sie mit dem Original zu vergleichen - dieser Aufwand ist selbsterklärend verdammt müheselig.
Blöd dran sind auch Unternehmen, die wichtige PDF-Dokumente von anderen Unternehmen/Abteilungen gekriegt haben und gar nicht wissen, ob sie mit einem problematischen Scanner erfasst wurden. Auf jeden Fall ist PDF-Dokumenten - insbesondere dann, wenn sie "Zahlenmaterial" enthalten - dringend zu misstrauen. Es sollte geprüft werden, ob sie von einem der potentiell betroffenen Xerox-Scanner stammen.
Wie das gemacht wird und wie man auch große Mengen an PDF-Dokumenten automatisiert prüft, wird hier erklärt:
TIPP: Vertrauenswürdigkeit von PDF-Dokumenten überprüfen