Portable Document Format
Das Portable Document Format (PDF) ist ein plattformübergreifendes Dateiformat für druckbare Dokumente, das von der Firma Adobe Systems entwickelt und 1993 mit Acrobat 1 veröffentlicht wurde. PDF ist ein proprietäres, aber offengelegtes Dateiformat, das im PDF Reference Manual von Adobe dokumentiert ist. Eine Teilmenge des Formats ist inzwischen als PDF/X und PDF/A von der ISO genormt worden.
In der Startphase war der Adobe Reader kostenpflichtig. Erst die kostenfreie Weitergabe der Software ermöglichte die Verbreitung im heutigen Ausmaß. Die aktuelle Version des PDF-Dateiformats ist 1.6 und kann mit Acrobat ab Version 7 verarbeitet werden. PDF-Dateien geben das mit dem Erstellungsprogramm erzeugte Layout in einer vom Drucker und von Voreinstellungen unabhängigen Auflösung originalgetreu wieder.
Ein häufig verwendetes Programm zur Erzeugung von PDF ist Adobe Acrobat Distiller, der aus PostScript-Dateien PDF erstellt. Der Distiller ist verfügbar für Windows und Mac. Diverse Office- und DTP-Anwendungen von Drittherstellern bieten einen direkten PDF-Export an und sind auf vielen Plattformen verfügbar. Mit weiteren Werkzeugen lassen sich – oft über den Druckbefehl, bei größeren Datenmengen aber meist mit einer Programmiersprache aus einer Datenbank heraus – PDF-Dateien einfach und schnell erstellen. Die Erzeugung von PDF-Dateien ist damit auf jeder Plattform möglich.
Durch Offenlegung und Normung von PDF können Drittentwicklern unabhängig von Adobe PDF-Werkzeuge bereitstellen. PDF basiert zu großen Teilen auf dem PostScript-Format, das ebenfalls offengelegt ist.
Verwendung und Vorteile
Eine PDF-Datei gibt die Dokumente des Ursprungsprogramms einschließlich aller Schriften, Farben, Raster- und Vektorgrafiken präzise wieder. Diese Dokumente können eine oder tausende Seiten Umfang haben, wobei jede auf eine maximale Seitengröße von 508 x 508 cm beschränkt ist.
Das PDF-Format basiert auf dem gleichen Grafikmodell wie PostScript. Im Gegensatz zu PostScript ist es aber keine Programmiersprache, sondern eine Dokumentenbeschreibungssprache. PDF erlaubt eine genauere Strukturierung von Dokumenten, als das mit Postscript möglich ist. Schriften jeglicher Art und Vektorgrafiken können dabei beliebig ohne Qualitätsverlust vergrößert werden. Große Netzwerkpläne und Datenmodelle lassen sich unter diesen Voraussetzungen auf einer PDF-Seite unterbringen.
Aus PDF-Dokumenten lassen sich Textpassagen, Tabellen und Grafiken (und auch Ausschnitte davon) leicht in anderen Anwendungsprogrammen durch Kopieren und Einfügen der jeweiligen Elemente weiterverarbeiten. Text kann nicht nur zur Weiterverarbeitung in anderen Anwendungen, sondern auch zum Durchsuchen oder zur Verwendung mit anderen Ausgabemedien wie beispielsweise Screenreadern extrahiert werden. Durch die Textsuche im einzelnen Dokument oder die Volltextrecherche innerhalb einer PDF-Dokumentensammlung lassen sich sehr einfach Fundstellen auffinden. Dies funktioniert selbst dann, wenn der Text rotiert oder etwa in Kreis- oder Kurvenform dargestellt ist.
Eine Besonderheit des PDF-Formats ist der optionale Dokumentenschutz mit 40- oder 128-Bit-Verschlüsselung. Der Ersteller eines Dokuments kann damit gezielt die Rechtevergabe des betreffenden Dokuments bestimmen. So kann verhindert werden, dass Benutzer das Dokument abändern, ausdrucken oder Inhalte über die Zwischenablage kopieren können. Zu diesem Zweck ist in jedem Fall ein Besitzerpasswort festzulegen. Soll das Dokument nur einem beschränken Personenkreis zugänglich sein, kann zusätzlich auch ein Benutzerpasswort vergeben werden.
Durch entsprechende PDF-Werkzeuge lassen sich aber auch Rechte vergeben, die es ermöglichen, PDF-Dokumente mit Notizen, Kommentaren und Dateianhängen zu versehen oder Formulareinträge abzuspeichern. Ursprünglich konnten diese Features nur mit Adobe Acrobat genutzt werden, seit Version 7 ist es jedoch auch mit dem kostenlosen Adobe Reader möglich, Notizen und Kommentare hinzuzufügen, sofern das entsprechende Dokument vom Verfasser mit den notwendigen Berechtigungen versehen wurde.
Das Format ist nicht mit den internen Dateiformaten von Textverarbeitungsprogrammen vergleichbar und eignet sich, abgesehen von der Notiz- und Kommentarfunktion, nur begrenzt zur Weiterverarbeitung von Dokumenten. Es ist allerdings innerhalb gewisser Grenzen möglich, beispielsweise Tippfehler zu entfernen. Vorteile im Desktop Publishing sind für Grafiker und Designer die Einbindung aller Elemente für die Druckerstellung.
PDF-Dokumente können abhängig vom Einzelfall sowohl größer als auch kleiner als die Dateien der Ursprungsanwendung sein. Die Größe eines Dokuments hängt von der Art der enthaltenen Daten, von der Effizienz des Erstellungsprogramms und davon ab, ob die Schriftarten eingebettet wurden. Schriften können entweder vollständig, als Untermenge der tatsächlich im Dokument verwendeten Zeichen oder aber überhaupt nicht eingebettet werden. Soll ein Dokument unabhängig davon, ob auf der Zielplattform die verwendeten Schriften installiert sind, zuverlässig darstellbar sein, müssen mindestens die tatsächlich verwendeten Zeichen eingebettet werden.
Das PDF-Format wurde im Laufe seiner Entwicklung mehrfach auf spezielle Anforderungen für die Verwendung im Internet angepasst. So musste ein Dokument ursprünglich vollständig lokal verfügbar sein, um dargestellt werden zu können. Inzwischen ist es möglich, PDF-Dokumente zu linearisieren, so dass diejenigen Teile eines Dokuments, die bereits heruntergeladen wurden, selbst dann dargestellt werden können, wenn das Dokument noch nicht vollständig lokal verfügbar ist. Seit der Version 1.5 der PDF-Spezifikation kann der größte Teil der Dokumentstruktur komprimiert werden.
PDF in Betriebssystemen
Das Einsatzgebiet von PDF ist vielfältig. So ist es nicht verwunderlich, dass mit dem Betriebssystem Mac OS X von Apple erstmals PDF als Standardformat für die Bildschirmausgabe verwendet wurde. Die Vorteile liegen auf der Hand: Mit Hilfe von PDF ist erstmals echtes WYSIWYG möglich. Weitere Features sind Textglättung in allen Anwendungen sowie die PDF-Erzeugung aus jeder Anwendung heraus, die einen Druckdialog besitzt. PDF wird auch zur Erzeugung der Druckdaten verwendet, damit ist es möglich, PostScript auf Nicht-Postscript-Druckern auszugeben.
Siehe auch: Display Postscript
Boxen im PDF
Die verschiedenen Boxen in einem PDF-Dokument sind vor allem in der Druckindustrie sehr wichtig, da fehlerhafte PDF-Dateien nicht gedruckt korrekt gedruckt werden können. In der Druckindustrie wird meist der Adobe Acrobat Distiller für die PDF-Erzeugung eingesetzt, da dieser ein standardkomformes PDF-Dokument erzeugt.
MediaBox
Sie definiert die Größe des Ausgabemediums und den Medienrahmen des PDF-Dokumentes. Das Dokument ist noch nicht beschnitten und enthält oft die im PDF-Generator eingestellte PostScript-Seitengröße. Die Media Box muß immer die größte aller Boxen sein, da sie alle andern (nachfolgend erläuterten) Boxen mit einschließen muss.
BleedBox
Eine Bleedbox beinhaltet Informationen über die Anschnittrahmen, die die Größe des Endformates mit einem Beschnitt definiert. In der Druckindustrie wird ein Beschnitt von minimal 3 mm pro Seite benötigt. Ein Anwendungsbeispiel sind Bilder, die angeschnitten werden sollen und somit aus dem Rand des Druckes laufen. Für eine A4 Seite, die an eine Druckerei geliefert werden sollen, ergibt sich somit Breite von 210 mm + 6 mm und eine Länge von 297 mm + 6 mm (A4 extra mit 216 x 303mm). Dieses muß zwingend eingehalten werde um keine Blitzer zu erzeugen, da die Druckmaschine etwas variieren kann.
TrimBox
Die TrimBox ist des Endformat einer PDF-Datei ohne Beschnitt. In der Software Adobe Acrobat wird diese als Trimbox bezeichnet, und beinhaltet ebenfalls das beschnittenes Format; bei der Trimbox sind jedoch noch die Informationen, die sich noch außerhalb der Box befinden, vorhanden, und werden lediglich ausgeblendet.
Art Box (auch Bounding Box)
Dies stellt den Objektrahmen dar, das heißt, diese Box ist die kleinstmögliche Box, die alle Objekte einschließt, die sich auf der PDF-Seite befinden. Sie gibt auch die Größe der Grafik beim Import einer Datei (beispielsweise EPS) an.
Ziel der Boxinformationen ist es, ein PDF in der Druckvorstufe besser weiterverarbeiten zu können. Heute müssen viele PDF noch manuell nachbearbeitet werden, um sie auch in einer Druckmaschine drucken zu können, da nur wenige Programme die Informationen gut einbinden (beispielsweise InDesign oder Quark X Press). Als Hilfsmittel in der Druckvorstufe sind unter anderem die Softwareprodukte Asura, Speedflow, PitStop Professional, Prinegy, Prinect Printready und Puzzleflow verbreitet, welche PDF-Dateien für den Druck aufbereiten können.
Programme zum Betrachten von PDF-Dateien
- Freeware-Programme
- Adobe Reader / Acrobat Reader (Windows, Mac OS, UNIX)
- Foxit PDF Reader (Windows)
- GSview (Windows, OS/2)
- eXPert PDF Reader (Windows)
- CAD-KAS PDF Reader (Windows)
- Brava! Reader
- Open-Source-Programme
- Xpdf (X11)
- evince und Gpdf (GNOME, basierend auf Xpdf)
- Kpdf (KDE, basierend auf Xpdf)
- Ghostview, gv (X11) in Zusammenarbeit mit Ghostscript
- GGv (GNOME, basierend auf Ghostscript)
- KGhostview (KDE, basierend auf Ghostscript)
- Systeminterne Dienstprogramme
- Online-Betrachtung (keinerlei Installation nötig)
- Online-Viewer für *.pdf, *.ps und *.doc
Programme zum Erstellen von PDF-Dateien
- Adobe Acrobat Distiller, Adobe Illustrator, Adobe Photoshop, Adobe InDesign, Adobe Elements, Freehand
- CorelDRAW, Corel WordPerfect
- StarOffice, OpenOffice.org
- QuarkXPress
- KOffice, Scribus
- pdfTeX, pdfLaTeX
- CATIA
- pdf-Office
- 602PC SUITE
- Abbyy FineReader
- Jaws PDF-Creator
- xfig
Programme, die wie ein Drucker benutzt werden
- PDFMAILER (Kostenfreier Printer der PDF- und Versendevorgang zusammenfasst, senden speichern, verschlüsseln.)
- Mac OS X (im aktuellen Betriebssystem von Apple kann aus jedem druckfähigen Programm ein PDF erzeugt werden)
- PDFCreator (GPL, enthält aktuelles Ghostscript)
- FreePDF4U (Freeware, baut auf Ghostscript auf)
- FreePDF XP (Freeware, baut auf Ghostscript auf)
- Pdf2Mapi (Freeware, baut auf Ghostscript auf)
- PrimoPDF (Freeware)
- RedMon (Redirection Port Monitor, Druckeranschluß-Umleitungsmonitor)
- KPrint kann beliebige Textdateien als PDF Datei drucken.
- CIB Pdf brewer funktioniert als Plugin aus Office Produkten aber auch stand-alone
Diese Programme ermöglichen es allen Anwendungen, die in der Lage sind, Daten auf einem PostScript-Drucker auszugeben, aus dem Druckdialog heraus PDF-Dokumente zu erstellen. Mittels Ghostscript, dem Adobe Acrobat Distiller oder einem ähnlichen Programm werden die Druckdaten vom entsprechend konfigurierten Druckertreiber angenommen und nach PDF konvertiert. Diese Funktionalität steht unter Mac OS X ohne Zusatzsoftware zur Verfügung.
Achtung dient das PDF als Vorlage für einen Druck in einer Druckerei, sollte diese vor der Erzeugung des PDF's kontaktiert werden, da einige der oben angeführten Programme Probleme in der Druckvorstufe bereiten.
Bibliotheken für Entwickler
- Poppler – PDF Renderer auf Basis von Xpdf 3.0
- PDFlib – für kommerziellen Einsatz kostenpflichtige, weit verbreitete Programmierbibliothek zur automatischen, serverbasierten Erzeugung von PDF-Dateien (alle Programmiersprachen, alle Betriebssysteme)
- iText – JavaAPI
- FPDF – weit verbreitete, für die private und kommerzielle Verwendung kostenlose und auf reinem PHP basierende Klasse zur Erzeugung von PDF-Dateien ohne die Notwendigkeit von zusätzlichen PHP-Erweiterungen (Extensions)
- clsPDF – PDF-Klasse für Visual Basic
Erzeugen von PDF aus anderen Formaten
XML
PDF-Dokumente können aus XML-Daten mit Hilfe geeigneter Transformationen nach XSL-FO und anschließender Formatierung erstellt werden.
- Diese Formatierung ist beispielsweise mit dem Formatierer FOP des Apache-Projekts möglich.
- Ein leicht nachzuvollziehendes Beispiel ist die Transformation/Formatierung von invitation.xml in PDF (das Beispiel zeigt auch die Transformation in XHTML und WordML).
HTML
Aus einer HTML-Datei können PDF-Dokumente recht schnell und einfach mit dem Programm htmldoc erzeugt werden. Dieses Programm verfügt sowohl über eine Konsolen-Schnittstelle wie auch über eine GUI. Damit ist es sowohl auf einem Client zur direkten Bedienung durch den Benutzer wie auch zum Servereinsatz, z.B. zur On-the-fly Generierung von PDF-Dokumenten geeignet.
Ein Perl-Modul HTML::HTMLDoc erleichtert Perl-Entwicklern die Schnittstelle zur Kommandozeile.
Siehe auch
Normen und Standards
In verschiedenen Gremien der ISO werden einzelne Spezifikationen des PDF normiert und damit die PDF-Industriestandards von Adobe zu Normen erhoben. Dabei werden im Wesentlichen die Originalspezifikationen von Adobe mit Einschränkungen versehen:
ISO 15930 | PDF/X | Format für die Druckvorstufe (abgeschlossen) | |
PDF/X-1a = ISO 15930-1 | |||
PDF/X-3 = ISO 15930-3 | |||
ISO 19005 | PDF/A | PDF Archive | Format für die Langzeitspeicherung (abgeschlossen für PDF 1.4) |
PDF/A-1= ISO 19005-1 (PDF 1.4) | |||
PDF/E | PDF Engineering | Format für technische Zeichnungen (Status Draft; Abschluss in 2006 erwartet) |
Literatur
- Trinkwalder, Andreas (2005): „PDF/A ist ISO-Standard“ in: c't, ISSN 0724-8679, 22. Jahrgang (2005), Nr. 21, Seite 54.