Videokompression

Mit Hilfe der Videokompression lässt sich die Datenrate eines digitalisierten Videosignals beziehungsweise nach Speicherung der Platzbedarf einer Videodatei um ein Vielfaches verkleinern. Unter anderem standardisiert die Moving Picture Experts Group (MPEG) Verfahren zur Videokodierung und Audiokodierung.

Die Datenrate eines digitalisierten herkömmlichen Farbfernsehsignals inclusive Austastlücke 216 Mbit/s beziehungsweise nach Weglassen der Austastlücke beträgt immer noch 166 Mbit/s. Die hohe Kompressionsrate (das heist hohe Bildqualität in DVD-Auflösung bei etwa 1000 kbps) des MPEG-4 Standards ist in einer Reihe von Techniken zur Entfernung von irrelevanten und redundaten Informationen begründet.

Die Videocodierung nach JPEG war ursprünglich für die Videokompression von Standbildern festgelegt worden und legte auch ein Dateiformat fest, das mit Formaten aus dem Computerbereich wie zum Beispiel Postscript Level 2 oder Apple Quicktime übereinstimmte. Für Bewegtbilder wurden danach mehrere inkompatible "Motion-JPEG"-Verfahren entwickelt, die allerdings trotzdem im Bereich von Videoschnittsystemen zu finden sind.

Physiologische Grundlage von Videokompression

Die Kompressionsalgorithmen beruhen auf den physiologischen Erkenntnissen des menschlichen Sehvermögens und des Gehörs.

Bei der Videokompression liegen bereits je nanch Fomat bis zu 33% komprimierte digitale Eingangsdaten vor. Grund dafür ist, daß unsere Farbfehrnseher augrund von Abwärtskompatibilität zum Schwarzweißfernser das YUV-Farbmodell verwenden. Bei den Bildern kann es, ähnlich wie bei Geräuschen, zu Schwingungsüberlagerungen kommen, welche für das Auge nicht sichtbar sind.

Bei der Überlagerung gewisser unterschiedlicher Frequenz ist menschliche Gehör nicht mehr in der Lage alle Nuancen oder Frequenz wahrzunehmen. Aus diesem Grund können die nicht bzw. kaum wahrnehmbaren Schwingungen beim Erzeugen einer MPEG Datei vernachlässigt werden. Ein weiterer wichtiger Aspekt ist die frequenzabhängige Empfindlichkeit es menschlichen Gehörs. Die akustische Wahrnehmung ist ein Lernprozess. So gesehen können verwöhnte Hörer (Konzert, Klassik) durchaus mehr einzelne Schwingungen heraus hören als Hörer monotoner Konserven.

Mathematische Grundlagen

Die Begriffe Redundanzreduktion und Irrelevanzreduktion stammen aus der Informationstheorie und beschreiben zwei verschiedene Ansätze zur Reduktion der Datenmenge, auch Datenkompression genannt, bei der Übertragung von Information. Dabei wird auf ein Modell zurückgegriffen, bei dem Information von einer Quelle zur Senke übertragen wird. Auf den konkreten Fall der Videokodierung übertragen, entspricht die Quelle der Folge von Videobildern, die Senke entspricht dem Auge des Betrachters. Analog trifft das auch für den Zuhörer zu.

Redundanzreduktion

Die Redundanzreduktion berücksichtigt Eigenschaften der Quelle mit dem Ziel, die zu übertragende Datenmenge zu reduzieren. Im Fall der Videokodierung werden statistische Eigenschaften des Bildsignals, zum Beispiel Korrelation zwischen zeitlich und räumlich benachbarten Bildpunkten, ausgenutzt, um möglichst kompakten Code zu erzeugen. Dabei kommt die Kodierung mit variabler Codewortlänge (VLC "variable length coding") zum Einsatz. Statt alle zu übertragende Symbole mit konstanter Codewortlänge zu kodieren, werden häufiger auftretende beziehungsweise wahrscheinlichere Symbole mit kürzeren Codewörtern kodiert als seltenere Symbole. Da keine Informationen verloren gehen spricht man von verlustloser Kodierung.

Irrelevanzreduktion

Die Irrelevanzreduktion zielt darauf ab, diejenige Information bei der Übertragung auszulassen, die für die Senke nicht relevant ist. Konkret bedeutet dies im Fall der Videokodierung, das nur ein Teil der Bilddaten übertragen werden. Dabei werden jene dadurch entstehenden Verzerrungen zugelassen, bei denen für den menschlichen Betrachter möglichst wenig Störung wahrgenommen wird. Da Informationen verloren gehen spricht man von verlustbehafteter Kodierung.

Vorwärts Gerichtete Diskrete Kosinustransformation

Bei der vorwärts gerichteten Diskrete Kosinustransformation (FDCT) diesem Schritt wird das Frame in 8x8 größe Pixelblöcke unterteilt und nach ihrer Komplexität beurteilt. Dieser Schritt ist notwendig damit der Codec "weiß", für welche Pixelblöcke er viel Speicherplatz benötigt und für welche weniger Bit genügen und ist damit die Voraussetzung für die Irrelevanzreduktion.

Bewegungsprädiktion

Eine weitere Möglichkeite zur Verkleinerung der Datenmenge ist die Bewegungsprädiktion (englisch"motion estimation") , in einfachen Worten verdeutlicht: das Entfernen von Zwischenbildern beziehungsweise das Ersetzen durch errechnete beziehungsweise geschätzte Differenzen zwischen zwei Bildern. Es wird nur nach Pixelblöcken gesucht, die sich gegenüber den letzten Frame verändert haben. Diese werden neu gespeichert, die unbewegten nur vom letzten Frame übernommen.

Siehe auch: Datenkompression, Audiokompression.