MP3

MP3, eigentlich MPEG-1 Audio Layer 3, ist ein Dateiformat zur verlustbehafteten Audiokompression. Entwickelt wurde es 1987 am Fraunhofer-Institut für Integrierte Schaltungen in Erlangen in Zusammenarbeit mit AT&T Bell Labs und Thomson. Wie viele der aktuellen Kodierverfahren sind Kernbereiche von MP3 durch Patente geschützt. Prof. Dr. Karlheinz Brandenburg wurde für die Entwicklung dieses Datenformates mehrfach ausgezeichnet. Brandenburg ist heute Leiter des Fraunhofer-Instituts für Digitale Medientechnologie IDMT in Ilmenau und Direktor am Institut für Medientechnik der TU Ilmenau.

Verfahren

Wie alle anderen verlustbehafteten Kompressionsformate für Musik nutzt MP3 sogenannte psychoakustische Effekte der Wahrnehmung aus, z.B. dass der Mensch zwei Töne erst ab einem gewissen Mindestunterschied der Tonhöhe (Frequenz) voneinander unterscheiden kann oder dass man vor und nach sehr lauten Geräuschen für kurze Zeit leisere Geräusche schlechter oder gar nicht wahrnimmt. Man braucht also nicht das Urspungssignal exakt abzuspeichern, sondern es reichen die Signalanteile, die das menschliche Gehör auch wahrnehmen kann. Die Aufgabe des Kodierers ist es, das Signal so aufzuarbeiten, dass es weniger Speicherplatz benötigt, aber sich noch genauso anhört wie das Original.

Der Decoder erzeugt aus diesem MP3 dann ein für die überwiegende Anzahl von Hörern original klingendes Signal, das aber nicht mit dem Ursprungssignal identisch ist, da bei der Umwandlung in MP3 Informationen entfernt wurden.

Die hörbaren Verluste hängen von der Qualität des Kodierers, von der Kompliziertheit des Signals, von der Datenrate, aber auch vom Gehör des Hörers ab. Das MP3-Format erlaubt Datenraten von 8 kBit/s bis zu 320 kBit/s. Hohe Datenraten bei nominal 256 kBit/s und höher sind vertretbar, aber eine Originaldatei ist meist doch unersetzlich. Diese Eindrücke sind jedoch recht subjektiv und von Mensch zu Mensch sowie von Gehör zu Gehör unterschiedlich.

Neben der Kodierung mit konstanter Datenrate (und damit schwankender Qualität) ist auch eine Kodierung mit konstanter Qualität (und damit schwankender Bitrate) möglich. Man vermeidet damit (weitgehend) Qualitätseinbrüche an schwierig zu kodierenden Musikstellen, man gibt die Qualitätsstufe vor und erhält die dafür minimal notwendige Datei.

Datenkompression

Siehe auch: Audiokompression mit Hilfe des psychoakustischen Modells

Ein erster Schritt der Datenkompression beruht zum Beispiel auf der Kanalkopplung des Stereosignals durch Differenzbildung. Das ist ein verlustloses Verfahren, die Ausgangssignale können vollständig reproduziert werden.
Nicht hörbare Frequenzen – das für einen Erwachsenen erfassbare Spektrum deckt etwa den Bereich 20 Hz bis 18 kHz ab – werden fouriertransfomiertes Datenmaterial abgeschnitten. Das ist auch wegen des Abtasttheorems notwendig. Wenn mit kleinerer Frequenz als 44 kHz abgetastet wird, muss die Grenzfrequenz noch weiter reduziert werden, zum Beispiel auf 10 kHz bei 22 kHz Abtastfrequenz.
So genannte Maskierungseffekte werden genutzt, um weitere Redundanz zu beseitigen. Dabei werden vom Menschen nicht wahrgenommene Töne aus dem Signal weggelassen (zum Beispiel sehr leise Töne in lauter Umgebung oder auch die Obertöne über 20kHz)…
Die Daten, die in sog. Frames vorliegen, werden schließlich Huffman-entropiekodiert.

Bei starker Kompression werden auch hörbare Frequenzen von der Kompression erfasst, sie sind dann als Kompressionsartefakte hörbar.

Weiterentwicklung

Da MP3 ein im Internet viel verwendetes Format ist, genießt es auf Seiten der Industrie ein Schattendasein. Im Prinzip handelt es sich um ein inoffiziell entwickeltes Format, das auf MP2 aufsetzt und in letzter Minute in den ISO-Standard aufgenommen wurde.

In der Industrie wurde zu dieser Zeit schon an dem MDCT-basierten AAC gearbeitet, was sauberer entworfen ist und bei vergleichbarem Aufwand bessere Ergebnisse liefert. AAC sollte daher als eigentliche Weiterentwicklung angesehen werden.

Neben dieser Weiterentwicklung (in Richtung einer hochqualitativen Kodierung) gibt es auch Weiterentwicklungen, um bei sehr niedrigen Datenraten (<96 kbps) noch akzeptable Klangqualität zu erreichen. Vertreter dieser Kategorie sind MP3Pro sowie MPEG-4 AAC HE bzw. AAC+. Transparenz ist mit diesen Verfahren allerdings nicht erreichbar.

Die Erweiterung um Multikanalfähigkeiten bietet das MP3 Surround-Format des Fraunhofer-Instituts für Integrierte Schaltungen IIS. MP3 Surround erlaubt die Wiedergabe von 5.1-Ton bei Bitraten, die mit denen von Stereoton vergleichbar sind und ist zudem vollständig rückwärtskompatibel: So können herkömmliche MP3-Decoder das Signal in Stereo decodieren, MP3 Surround-Decoder aber vollen 5.1-Surround-Klang erzeugen. Dafür wird das Multikanalmaterial zu einem Stereosignal gemischt und von einem regulären MP3-Encoder codiert. Gleichzeitig werden die Raumklanginformationen aus dem Original als Surround-Erweiterungsdaten in das „Ancillary Data“-Datenfeld des MP3-Bitstroms eingefügt. Die MP3-Daten können dann von jedem MP3-Decoder als Stereosignal wiedergegeben werden. Der MP3 Surround-Decoder nutzt die eingefügten Erweiterungsdaten und gibt das volle Multikanal-Audiosignal wieder. Vergleichbar ist das Verfahren mit Dolby Surround pro Logic, die VCAs zur Übersprechdämpfung werden allerdings durch helperinformationen gesteuert.

Weitere Entwicklungen betreffen das DRM-Verfahren (Digital Rights Management) zum Urheberschutz, das nach verschiedenen Quellen in zukünftigen Versionen implementiert werden soll.

Anwendung

Audio-Rohmaterial benötigt viel Speicherplatz (70 Minuten in CD-Qualität benötigen etwa 707 MB) und zum Transfer (beispielsweise über das Internet) große Bandbreiten und/oder viel Zeit. Die verlustlose Komprimierung leistet hier nur wenig im Vergleich zur verlustbehafteten Komprimierung. So erlangte das MP3-Format für Audio-Daten schnell den Status, den das JPEG-Format für Bild-Daten hat.

MP3 wurde vor allem durch Musiktauschbörsen in der breiten Öffentlichkeit bekannt, wird aber auch bei vielen DVD-Rips als Audioformat benutzt.

Die MP3-Technologie wird für so genannte MP3-Player eingesetzt, mit denen man auch unterwegs Musik hören kann. MP3-Player unterscheiden sich im Wesentlichen in der Speichertechnik, so gibt es Abspielgeräte mit Festplatten (z. B. iPod), mit Festspeicher (Flash-Speicherung), mit verschiedenen Speicherfingern oder Speicherkarten und mit CD oder Mini-CD als Speichermedium.

Gerade beim Abspielen von Liedern die nahtlos ineinander übergehen (z.b. Aufnahmen von Live Konzerten) wird die kurze Pause zwischen den Liedern als störend empfunden. Der Grund dieser Pause liegt im Komprimierungsverfahren, wobei vom Anfang und Ende des Liedes ein kleines Stückchen abgeschnitten wird. Viele Abspielgeräte lassen sich darüberhinaus auch noch Zeit, wodurch die Pause länger wird. Für Software-Player die an PCs verwendet werden gibt es Aushilfen in Form von z.B. Cross-Fader, die kurz vor dem Ende des Liedes das nächste starten. Der nahtloser Übergang so wie man ihn von CDs gewöhnt ist, lässt sich mit MP3 ohne technische Kniffe (wie z.B. bei Foobar2000) nicht umsetzen. Es gibt allerdings andere Codecs (z.B. Ogg-Vorbis) die diese Problem nicht mit sich bringen.

Im WWW finden sich zahlreiche Anwendungen zur MP3-Technologie, von selbstkomponierter Musik über (selbst) gesprochene Hörbücher, Hörspiele, Vogelstimmen und andere Klänge bis hin zum Podcasting-Phänomen. Musiker können nun auch ohne einen Vertrieb ihre Musik weltweit verbreiten und Klangaufnahmen ohne großen Aufwand auf einer Website zur Verfügung stellen. Nutzer können über Suchmaschinen alle erdenklichen (nicht kommerziellen) Klänge und Musikrichtungen finden. Mit mp3.com gab es für einige Jahre ein populäres Portal in dem Musiker ihre Musik zugänglich machen und auch verkaufen konnten.

Tagging

MP3-Dateien bieten die Möglichkeit unabhängig vom Dateinamen Metadaten (z. B. Titel, Interpret, Album, Jahr, Genre) zu dem enthaltenen Musikstück zu speichern.

Bei MP3 kommen hierzu ID3-Tags zum Einsatz. Davon gibt es verschiedene Versionen, Version 1 (ID3v1) ist auf 30 Zeichen pro Eintrag und wenige Standard-Einträge beschränkt. Die wesentlich flexiblere Version 2 (ID3v2) wird allerdings nicht von allen Playern (insbesondere Hardware-Player) unterstützt und erfordert - sofern kein Padding verwendet, d.h. ein Bereich in der Datei freigehalten wurde - das neuschreiben der gesamten Datei.

Die Metadaten aus dem ID3-Tag können z.B. genutzt werden, um Informationen zu dem gerade abgespielten Stück anzuzeigen, die Titel in Wiedergabelisten (Playlists) zu sortieren oder Archive zu organisieren.

Alternative Codecs und Audio-Formate

Neben dem Fraunhofer-MP3 gibt es noch die Open-Source-Alternative LAME. Dieser Encoder bietet weit mehr Optionen an und die mit Abstand beste Klangqualität.

Weitere Alternativen sind das auf MP2-Algorithmen basierende Musepack (früher: MPEGPlus), das in Bitraten über 160 kbit/s wesentlich bessere Qualitat bietet als das MP3-Format. Dateien im Musepack-Format erkennt man an der Erweiterung mpc oder mp+.

Eine andere freie Alternative stellt das Format Ogg Vorbis dar (Dateiendung .ogg), welches im Gegensatz zu MP3 patentfrei und quelloffen ist. Ogg Vorbis hat sich in Hörtests gegenüber MP3 praktisch allen Bitratenbereichen als überlegen herausgestellt und bietet wesentlich mehr Leistungsmerkmale wie MultiChannel oder Gapless Playback.

Advanced Audio Coding, kurz AAC, ist ein im Rahmen von MPEG-2 und MPEG-4 standardisiertes Verfahren, welches von mehreren großen Firmen entwickelt wurde. So setzen Apple und Real Media dieses Format für ihre Online-Musikläden ein und die Nero AG stellt einen Encoder für dieses Format bereit. Mit faac befindet sich auch ein freier Encoder auf dem Markt. AAC wurde auch im Hinblick auf die Designfehler im MP3-Format entworfen.

Siehe auch

LAME (Sehr guter Encoder)
Vorbis (Audiocodec)
CDex (Programm zum Umwandeln von Audio-CDs in komprimierte Audiodaten wie MP3)
WMA (Audiocodec)

Weblinks

Fraunhofer-MP3-Seite (englisch)
technische Spezifikation zum MP3-Codec
Informationen zur Lizenzierung und Gebührenliste (englisch)