Fehlerhafte Zeichen beim Kopieren von Text aus PDF-Dateien

Problem:

In Agenturen oder Redaktionen kommt es häufig vor, daß Texte von Kunden oder Presseabteilungen nicht in Form von Textdateien, sondern als PDFs angeliefert werden. Um den Text weiterverwenden und bearbeiten zu können, muß er also zunächst aus dem PDF herauskopiert und in Word oder einem Grafikprogramm wie InDesign, Illustrator oder QuarkXPress wieder eingefügt werden. Meist wird zum Kopieren der Adobe Reader oder das Auswahl-Werkzeug von Acrobat Pro verwendet.

Der eingefügte Text sieht dann aber nicht immer so aus wie erwartet. Manchmal sind Umlaute oder Sonderzeichen nicht mehr korrekt und werden durch ein anderes, falsches Zeichen ersetzt, oder ganze Textabschnitte sind nicht mehr lesbar – eine gefährliche Fehlerquelle.

Lösungswege und Beispiele:

Das Ergebnis hängt davon ab, mit welchem Programm und mit welchem Werkzeug der Text aus dem PDF herauskopiert wird und welche Software für die Weiterbearbeitung verwendet wird. Wer nur den Adobe Reader zur Verfügung hat, bekommt häufig Probleme: In Adobes kostenlosem PDF-Reader steht zum Auswählen von Text nämlich nur das normale Auswahl-Werkzeug zur Verfügung – und das reagiert sehr empfindlich, wenn es mit Unicode-Zeichen oder nicht eingebetteten Schriften zu tun bekommt. Das TouchUp-Textwerkzeug für die erweiterte PDF-Bearbeitung ist zwar leistungsfähiger, ist aber nur in der Professional-Version von Acrobat enthalten.

Beim Kopieren von Text aus PDF-Dateien muß man also höllisch aufpassen – die Kopie entspricht hier nicht immer dem Original. Eine häufige Fehlerquelle ist dabei die Verwechslung des Auswahl-Werzeugs und des TouchUp-Textwerkzeugs in Acrobat Pro.

Auswahl-Werkzeug vs. TouchUp-Textwerkzeug

So kopiert man Text mit dem Auswahl-Werkzeug im Adobe Reader oder mit Acrobat Pro:

– Im Adobe Reader ist das Auswahl-Werkzeug normalerweise voreingestellt. Texte im PDF lassen sich damit direkt markieren und kopieren.
– In Acrobat Pro ist das Auswahl-Werkzeug über die normale Werkzeugleiste anwählbar. Die Funktionalität ist dieselbe wie im Reader – der Text kann mit dem Auswahl-Werkzeug nur markiert und kopiert, aber nicht bearbeitet werden.
Beim Kopieren von Text mit dem Auswahl-Werkzeug kommt es häufig zu Fehlern.

So kopiert man Text mit dem TouchUp-Textwerkzeug in Acrobat Pro:

– Im Menü „Werkzeuge – Erweiterte Bearbeitung“ das TouchUp-Textwerkzeug auswählen oder die Werkzeugleiste für die Erweiterte Bearbeitung einblenden und das Werkzeug dort auswählen. Mit diesem Werkzeug kann der Text nicht nur markiert und kopiert, sondern auch bearbeitet werden.
Sobald zum ersten Mal Text mit dem TouchUp-Werkzeug ausgewählt wird, lädt Acrobat die zur Verfügung stehenden Systemschriften. Beim Kopieren von Text mit diesem Werkzeug entstehen weniger Fehler.

Zwei Beispiele aus unserer Praxis:

Beispiel 1: QuarkXPress und das kleine „ü“

In einer Zeitungsredaktion werden Texte aus angelieferten PDFs herauskopiert, in Word eingefügt und dort bearbeitet. Der fertige Text wird anschließend in QuarkXPress 6.5 übernommen.
Nach einem Update von einer sehr alten auf eine aktuelle Acrobat-Version wurden plötzlich in QuarkXPress 6.5 die kleinen üs nicht mehr dargestellt. In Word sah noch alles ganz normal aus – XPress machte aber aus den üs ein kleines u und ein Fragezeichen. Zum Kopieren wurde das Auswahl-Werkzeug in Acrobat Pro 9 verwendet.

Wir haben einige Tests gemacht – verschiedene Programme interpretieren das Zeichen ganz unterschiedlich:

1. In Word sehen die eingefügten üs zwar optisch ganz normal aus, unterscheiden sich aber von dem „normalen“ Zeichen. Tippt man auf der Tastatur selbst ein ü ein und stellt dann beide Zeichen auf eine Symbolschrift ein (z.B. Zapf Dingbats), ist der Unterschied deutlich zu erkennen.

2. XPress 6.5 macht aus dem kopierten ü ein u und ein Fragezeichen. XPress 7.5 stellt ein ü mit nach rechts verschobenen Punkten dar. XPress 8 konnten wir an dieser Stelle leider nicht testen.

3. Fügt man den kopierten Text nicht in Word, sondern in InDesign oder Illustrator CS3 ein, werden die „falschen“ üs in „richtige“ umgewandelt – der Zapf Dingbats-Test zeigt, daß beide Zeichen (also das kopierte und das selbst eingetippte ü) dort identisch sind.

Lösung:
Kopiert man den Text mit Apples Vorschau, werden die üs in allen Programmen korrekt dargestellt. Die Vorschau unterscheidet allerdings keine einzelnen Textspalten, sondern markiert immer den gesamten Text über die ganze Seitenbreite.
Kopiert man den Text mit dem TouchUp-Textwerkzeug von Acrobat Pro, sind die üs ebenfalls in allen Programmen korrekt.

Beispiel 2: Das Auswahl-Werkzeug und nicht eingebettete Schriften

In einer Werbeagentur werden fremdsprachige Textkorrekturen vom Kunden direkt in einer PDF-Datei vorgenommen. Der korrigierte Text wird dann von der Agentur aus dem PDF herauskopiert und in eine InDesign-Datei eingefügt.
Beim Kopieren der korrigierten Texte gab es große Probleme. Oft waren einzelne Zeichen oder ganze Zeichenketten nach dem Einfügen in InDesign fehlerhaft oder wurden gar nicht dargestellt. Gerade bei fremdsprachigem Text ist das natürlich besonders fatal.

Wir haben uns das Problem mal genauer angeschaut:

1. Kopiert man eine bestimmte Textpassage mit dem Auswahl-Werkzeug in Acrobat Pro, wird nach dem Einfügen in InDesign oder Word ein Teil des Textes durch rechteckige Symbole dargestellt.

2. Eine Prüfung mit der Acrobat Preflight-Funktion ergab, daß genau bei dieser Textpassage die verwendete Schrift (allerdings unerklärlicherweise) nicht in das PDF eingebettet war.

3. Wird der Text mit dem TouchUp-Textwerkzeug markiert, greift Acrobat auf die installierten Systemschriften zu und kopiert den Text korrekt. Hier wurden in der Hektik einfach nur die beiden Werkzeuge verwechselt.

Warum sind PDF-Dateien anders ?

PDF basiert auf der Seitenbeschreibungssprache PostScript. Das Format wurde ursprünglich einmal dafür konzipiert, fertige Dokumente zwischen verschiedenen Rechnern und Plattformen auszutauschen. Der Inhalt des Dokuments durfte sich dabei nicht mehr verändern, sondern sollte auf jedem Rechner genau gleich aussehen. Ein PDF ist also eigentlich immer ein Endprodukt – daß es einmal nötig sein würde, Inhalte aus einem PDF wieder herauszulösen und weiterzubearbeiten, haben sich die Erfinder wahrscheinlich nicht träumen lassen.

Mittlerweile gibt es einige gute Werkzeuge für die Bearbeitung von PDF-Inhalten. Hauptsächlich werden sie in der Druckvorstufe verwendet, um notfalls im letzten Moment noch Korrekturen an Druck-PDFs vornehmen zu können – also z.B. Tippfehler zu korrigieren oder ein RGB-Bild umzuwandeln. Der Infotext des TouchUp-Werkzeugs lautet: „Wählen Sie mit dem TouchUp-Textwerkzeug Text aus, um kleinere Korrekturen in der PDF-Datei vorzunehmen.“. Die Betonung liegt hier auf „kleinere“ – für umfangreiche Änderungen ist ein PDF nicht geeignet. Auch wenn die Oberfläche rein optisch eine gewisse Ähnlichkeit mit Text- oder Grafikprogrammen hat, ist die Bearbeitung eines PDFs (also gewissermaßen von PostScript-Code) etwas völlig anderes als die Bearbeitung eines „normalen“ Dokumentes in Word oder InDesign.

Die Bearbeitungsmöglichkeiten sind also schon vom Konzept her beschränkt, die nachträgliche Bearbeitung oder Weiterverwendung der Inhalte ist eigentlich nicht vorgesehen. Dazu kommt, daß einige Eigenschaften von Acrobat weitere Fehler verursachen können: Beispielsweise ist das TouchUp-Textwerkzeug bis einschließlich Acrobat 8 nicht Unicode-fähig. Wird ein Text mit dem TouchUp-Werkzeug bearbeitet, verwendet Acrobat nicht die eingebettete Schrift, sondern tauscht diese durch den auf dem System verfügbaren Zeichensatz aus.

Fazit

– Wer ein professionelles Tool wie Enfocus Pitstop zur Verfügung hat, sollte zum Kopieren von Text darauf zurückgreifen.
– Wenn Acrobat Professional im Einsatz ist, sollte man unbedingt darauf achten, den Text nicht mit dem Auswahl-Werkzeug, sondern mit dem TouchUp-Textwerkzeug zu kopieren.
– Wenn gar keine professionelle Software, sondern nur der Adobe Reader vorhanden ist, sollte man bei Problemen auf jeden Fall auch einmal Apples Programm „Vorschau“ ausprobieren.
– In jedem Fall alle kopierten Texte sorgfältig kontrollieren !
– Wer sehr oft Text aus PDF-Dateien weiterbearbeiten muß, sollte sich einmal das Tool PDF2Office von Recosoft anschauen. Es bietet eine Menge Möglichkeiten für die Umwandlung von PDFs in Office-Dokumente. Eine Demoversion läßt sich hier herunterladen – in unserem Test machte das Programm allerdings keinen sehr stabilen Eindruck und stürzte häufig ab. Die Professional-Version kostet 129 Dollar.

(f180/al)

Artikel und Links zum Thema:
Enfocus: PitStop Pro
Recosoft: PDF2Office
Download: PDF2Office Trial

Kommentar schreiben

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

© 2019 tiramigoof | dandelion GbR

Bitte melde Dich an:

Passwort vergessen ?