Wellenfeldsynthese

Modellmethode der Akustik
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 21. September 2006 um 00:32 Uhr durch Nachtagent (Diskussion | Beiträge) (Den ganzen Artikel nochmal nach Rechtschreibfehlern durchkämmt (waren noch Einige drin)). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Die akustische Wellenfeldsynthese (abgekürzt WFS) ist ein Verfahren, mit dem ein Schallfeld eines bestimmten Raumes realistisch nachgebildet werden soll. Aufgrund der engen Verwandtschaft zur optischen Holografie spricht man bei der WFS von Holophonie.

Bei kanalformatierten Techniken wie Stereo oder Surround sind die ursprünglichen Schallquellen auf den Linien zwischen den Lautsprechern positioniert. Mit der WFS dagegen wird ein virtueller akustischer Raum erzeugt. Dieser ist nicht an die physikalischen Grenzen des Wiedergaberaumes gebunden und die virtuellen Schallquellen haben prinzipiell die gleichen Eigenschaften wie die realen Schallquellen.

Virtuelle Quellen außerhalb der Lautsprecheranordnung werden an jeder Position der Hörzone stabil und realistisch positioniert lokalisiert. Die Quellen können bei entsprechenden Anlagen auch durch den Raum wandern und werden bedingt umgehbar. In den Abhörraum hineinprojezierte Quellen unterliegen jedoch anderen Bedingungen und haben je nach Lautsprecheranordnung, Position der Quelle und der Hörposition andere Eigenschaften. Sie sind auf verschiedenen Abhörpunkten unterschiedlich stabil in der Position, bei bewegten Quellen wird der Verlauf von jedem Abhörpunkt anders wahrgenommen.

Die Wellenfeldsynthese wurde zuerst ab 1988 an der Technischen Universität Delft entwickelt und dort auch das erste Mal in einem Demonstrationssystem mit 160 Lautsprechern realisiert. Deutlich erweitertes Interesse erlangt die Wellenfeldsynthese seit dem von der EU geförderten Projekt CARROUSO (2001 bis 2003), bei dem unter anderem mehrere Forschungssysteme zur Wellenfeldsynthese entstanden.

Einordnung

Es gibt drei Grundsätzliche Techniken zur räumlichen Tonübertragung:

  • Lautsprecherstereofonie. Diese Übertragungsart ist nicht beschränkt auf nur zwei Kanäle, auch Surroundsysteme zählen zu den stereofonen Techniken.
  • Binaurale Techniken. Der binaurale Ansatz versucht bei Aufnahme und Wiedergabe das menschliche Gehör zu imitieren. Der Kunstkopf, bei dem die Wiedergabe über Ohrstöpsel erfolgt, ist die beste Näherung des menschlichen Gehörs. Bei anderen Techniken wird zusätzlich mithilfe des Transauralisationsverfahrens (Inverse Filterung der Außenohrübertragungsfunktion) an das Gehör angenähert.
  • Holophonie. Diese Methode ist der Versuch einer Schallfeldübertragung. Das am weitesten gehende Verfahren dazu ist die Wellenfeldsynthese.

Es gibt zwei Grundansätze zur realistischen Simulation von Hörereignissen: Binaurale Techniken und Schallfeldübertragung (Holophonie).

Die Quellen (Lautsprecher) einer Stereowiedergabe spannen eine räumliche Dimension zur Abbildung auf (die Gerade von der linken zu rechten Schallquelle). Wellenfeldsynthese ist eine 2D-Simulation (Fläche). Die Quellen sind auf Kopfhöhe angeordnet, im Optimalfall als Lautsprecherkreis. Die vertikale Dimension der Schallquellen (Elevationsebene) wird bei der WFS aus praktischen Gründen weggelassen. Die vertikale Hörauflösung des Menschen ist deutlich geringer als die Horizontale, was die Einschränkung also relativiert. Grundsätzlich aber ist das Prinzip nicht auf zwei Dimensionen beschränkt. Theoretisch könnte man auch Schallquellen aus allen Raumrichtungen einsetzen.

Bei Stereowiedergabe heißen Quellen, die zwischen Links und Rechts lokalisiert werden, Phantomquellen. Zur Unterscheidung werden die simulierten Quellen bei der WFS virtuelle Quellen genannt. Zur Stereofonen Technik haben die virtuellen Quellen der WFS zwei Unterschiede:

  • Bei Stereofonie ist die Abhörposition auf einen Punkt (Sweet Spot) optimiert. Die Phantomquellen wandern mit, wenn der Hörer seine Position verändert und die Ausgewogenheit des Klangbildes nimmt ab. Bei der WFS gib es statt eines Punktes eine ganze Hörfläche. Auf der gesamten Hörfläche werden die außerhalb der Lautsprecherfront projezierten virtuellen Quellen jeweils konstant am selben Ort Lokalisiert.
  • Bei stereofonen Techniken befinden sich die erzeugten Schallquellen immer auf der Raumtiefe der Lautsprecherverbindung. Tiefenstaffelung kann nur mit psychoakustischen Mitteln (Lautstärkenverhältnisse, Klangfarben) nachgeahmt werden, aber sie ist an die physikalischen Grenzen der Lautsprecheraufstellung gebunden. Die virtuellen Quellen können eine von der realen Lautsprecherposition unabhängige Tiefenposition in einem virtuellen Abhörraum (Szene) haben. Zusätzlich können projezierte Klangkörper eine eigene Tiefenausdehnung haben, was bei Stereofonie nicht möglich ist.

Physikalische Grundlagen

Das Konzept basiert auf dem Huygenschen Prinzip. Die entsprechende mathematische Beschreibung des Huygenschen Prinzips ist das Kirchhoff-Helmholz-Integral.

Das Prinzip von Huygens besagt, dass jede von einer Quelle erzeugte Wellenfront (und damit auch sich ausbreitender Schall) als Summe von unendlich vielen Einzelquellen betrachtet werden kann. Durch Überlagerung (Interferenz) aller Elementarwellen entsteht eine neue Wellenfront, die mit der ursprünglichen Welle identisch ist.

Aus dem Kirchhoff-Helmholtz-Integral leiten sich zwei Aussagen ab:

  • Bei Kenntnis von Schalldruck und Schallschnellekomponente aller Punkte der Umgrenzung einer geschlossenen Fläche (oder eines Volumens im dreidimensionalen Modell) kann der Schalldruck jedes Punktes in diesem Feld (oder Volumen) berechnet werden.
  • Jedes Schallfeld kann durch unendlich viele Monopole und Dipole nachgebildet werden. Monopole und Dipole sind bestimmte Abstrahlcharakteristika von Lautsprechern (Monopole strahlen kugelförmig ab, Dipole in Form einer Acht). Monopole sind für die Schnellekomponete (Vektorgröße des Schallschnellemaximums) nötig, Dipole für die Schalldruckmaxima der Schwingungen.

Aus der Nachbildung eines Schallfeldes ergibt sich die ursprüngliche Quelle als so genannte virtuelle Quelle. Diese wird im gesamten Hörbereich feststehend am originalen Ort lokalisiert. Bei Lautsprecherarrays mit Enden (alle nicht geschlossenen Arraykonzepte) ist die Hörfläche durch die Gerade von der Quelle bis zum Ende der Lautsprecherkette begrenzt. Es können auch mehrere Quellen dargestellt werden.

Bedingungen

Zur richtigen Abbildung einer Schallfläche benötigt man eine Lautsprecherkette, ein so genanntes Lautsprecherarray, mit abwechselnd Monopolstrahlern (Kugelförmige Abstrahlung) und Dipolstrahlern (Abstrahlcharakteristik Acht). Die gegenphasige Abstrahlseite der Dipole zeigt von der Hörfläche weg und muss absorbiert werden, da die negativphasigen Komponenten für das Schallfeld nicht erlaubt sind.

Bei einfacheren Flächenformen wie Kreis oder auch Rechteck kann, entsprechend zum Helmoltzintegral, mit nur einer Richtcharakteristik brauchbar genähert werden. Normale Lautsprecher sind Monopole (kugelförmige Abstrahlung). Beim Array entstehen durch die Reihung der Schallquellen Zylinderwellen als Abstrahlcharakteristik (-3dB pro doppelter Abstand) statt kugelförmiger Abstrahlung (-6dB pro doppelter Abstand).

Will man virtuelle Quellen aus allen Richtungen darstellen, so braucht man eine geschlossene Umgrenzung der Hörfläche mit Lautsprechern. Bei Lücken (z.B. Rechteck mit offener Seite) ergibt sich eine eingeschränkte Abbildungszone für virtuelle Quellen. Umgekehrt, also aufbauend vom einfachen linearen Array ausgehend, ergibt sich die umgekehrte Situation; mit einer Erweiterung der Lautsprecherreihe werden die darstellbaren Richtungen der Schallquellen erweitert.

Da bei der WFS versucht wird, einen anderen Raum zu simulieren, muss die Akustik des Wiedergaberaumes unterdrückt werden. Die eine Möglichkeit dazu ist, die Wände entsprechen absorbtiv zu gestalten. Die zweite Möglichkeit ist die Wiedergabe im Nahfeld. Dabei befinden sich die Lautsprecher sehr nahe an der Hörzone im Verhältnis zur Gesamtgröße des Wiedergaberaumes. Dabei nimmt entweder die Lautsprecheraufstellung nur eine kleine Fläche ein oder der Wiedergaberaum muss entsprechend extrem groß sein.

Umsetzung

Die WFS grenzt sich vom Konzept des akustischen Vorhanges ab. Der akustische Vorhang ist eine direkte Umsetzung des Huygenschen Prinzips. Dabei wird die Schallfront mit Mikrofonen aufgezeichnet und an die Stelle jedes Mikrofons tritt bei der Wiedergabe ein Lautsprecher als Pendant. Die virtuellen Quellen sind dabei örtlich fixiert (unveränderbar) und die Kanalzahl ist immer gleich der Anzahl an Mikrofonen bzw. Lautsprechern. Bei der Wellenfeldsynthese dagegen werden die Anzahl der Übertragungskanäle, die wiedergegebenen Positionen der Quellen und die nachgebildete Raumakustik veränderbar.

Bestandteile und Produktionsschritte

Die WFS wird in drei getrennte Zeitbereiche, die so genannten Schallfeldanteile, aufgeteilt:

  • Direkte Widergaben der trockenen Quellen
  • Simulation des frühen Halls bzw. der Raumakustik durch Faltung (Zeitbereich von 10 bis 80 Millisekunden nach dem jeweiligen Schallereignis)
  • Künstlicher digitaler Nachhall (ebene Wellen)

Die Produktionsabfolge gliedert sich in mehrere Schritte:

  • Die Aufnahme der Quellen und der Raumakustik
  • Die Signalverarbeitung (Faltung, Extrapolation und Wiedergabeentzerrung) mittels digitaler Signalprozessoren
  • Die Wiedergabe über Lautsprecheranordnungen

Direktaufnahme der Quellen

Jede Quelle wird mit einem separaten Mikrofon im Nahfeld (trocken; Isolation der Quelle von der akustischen Umgebung) aufgenommen. Dabei spricht man auch von Close Miking. Je besser dabei die akustische Trennung zu den anderen Quellen und zum Raumschall ist, desto schärfer können die Quellen später wiedergegeben werden.

Im zweidimensionalen Schallfeld können Schallquellen, anders als bei der eindimensionalen Stereofonie, eine eigene räumliche Tiefenausdehnung besitzen. Dabei benötigt die Quelle allerdings mehrere Mikrofone. Die Raumtiefe eines solchen Klangkörpers erfordert keine starke akustische Trennung der Mikrofone für denselben Klangkörper. Bei wenigen Mikrofonen für eine solche ausgedehnte Quelle kann eine schwächere Kanaltrennung sogar vorteilhaft klingen. Die Kanaltrennung zu Mikrofonen für andere Quellen sollte jedoch auch hier möglichst hoch sein.

Zur jeder Quelle bzw. zu jedem Mikrofon muss für die Signalverarbeitung die exakte Raumposition der Quelle mitgeliefert werden.

Signalverarbeitung und Quellenabbildung

Die Bestandteile der Signalverarbeitung finden in verschiedenen Einheiten statt, die kollektiv als Syntheseoperator bezeichnet werden. Im Rahmen der europäischen Forschungsprojekte zur WFS wird bei der Signalverarbeitung der vom Fraunhoferinstitut entwickelte Audiostandard MPEG4 verwendet.

Bei der WFS kann durch Interpolation die Kanalzahl reduziert werden. So kann eine beliebige Anzahl an Messmikrofonen auf eine reduzierte Anzahl an WFS-Kanäle verteilt werden. Pro virtueller Quelle wird aber immer mindestens ein Kanal benötigt.

Die abgebildeten Quellen können nach vorne oder hinten verschoben werden. Das Verfahren sowohl zum reduzieren der Kanalzahl (Interpolation) als auch für die Verschiebungen heißt Wellenfeldextrapolation (engl. Wavefield Extrapolation). Mit diesem Verfahren werden die Mikrofonpositionen des Messarrays auf die Positionen der Wiedergabelautsprecher übertragen. Die Extrapolation beruht auf dem Huygenschen Prinzip und dem Kirchhoff-Helmholtz-Integral. Eine Verschiebung nach vorne heißt Forward Wavefield Extrapolation, werden die Schallereignisse nach hinten verschoben, nennt man das Verfahren Backward Wavefield Extrapolation. Da unterschiedlicher Kanalzahlen von Mikrofonen und Lautsprechern also kompatibel sind und die Quellenpositionen bei der Wiedergabe verändert werden können, kann auf unterschiedliche Lautsprecheranordnungen angepasst werden.

Durch Extrapolation können Quellen auch zwischen Lautsprecher und Hörfläche (vor die Lautsprecher) projektiert werden. Sie können aber aus Perspektive der Lautsprecher (Diagonale der beiden Lautsprecher, die dem Hörer am nächsten sind) nicht hinter den Hörer platziert werden. Dazu sind Lautsprecher hinter dem Hörer nötig (z.B. Kreisaufstellung). Aus Lautsprecherperspektive können die Wellefronten konkave (aufwärts gebogen, Bauch weg von den Lautsprechern zeigend) und konvexe Formen (abwärts gebogen, Ränder weg von Lautsprechern zeigend) haben. Aus Zuhörerperspektive aber lediglich konkave Formen (aufwärts gebogen). Diese Bedingung begrenzt die Hörzone. Beim Optimalfall einer Kreisarrayanordnung entspricht die gesamte Fläche der Hörzone.

Grundsätzlich ist bei der Projektion der Quellen vor die Lautsprecher, im Gegensatz zur Abbildung hinter den Lautsprechern, die Quelle nicht mehr ganz ortstabil. Die Lautstärkenverhältnisse und damit auch die Quellenpositionen variieren dabei zu einem gewissen Grad zwischen verschiedenen Abhörpositionen. Ebenso sind die Lautstärkenverhältnisse bei bewegten Quellen über die Bewegungsstrecke verzerrt. Allerdings lässt sich hier kein direkter Vergleich zur stereofonen Wiedergabe ziehen, da die Abbildungsmethoden zu unterschiedlich sind. Die Verfälschung ist umso größer, je weiter die Quellen vor die Lautsprecher positioniert werden und je näher sich der Zuhörer am Lautsprecher befindet. Bei einem Kreisarray ergibt sich in der Mitte ein optimaler Abhörpunkt, an dem auch alle in die Hörfläche projezierten (bewegten) Quellen bezüglich ihrer Position optimal dargestellt werden können.

Eine alternatives Verfahren zur Extrapolation , mit der sich ebenfalls die Positionen der Schallquellen auf die Wiedergabelautsprecher übertragen lassen, ist Plane Wave Decomposition. Dieses Verfahren beruht auf dem mathematischen Prinzip, dass sich jedes Schallfeld als eine Summe ebener Wellen verschiedener Richtungen beschreiben lässt.

Raumsimulation

Zum Erzeugen der Raumakustik müssen die frühen Reflektionen des jeweiligen Raumes wiedergegeben werden. Sie fallen in den Zeitbereich von 10 bis 80 Millisekunden nach dem Direktsignal jedes Schallereignisses, in großen Sälen auch bis über 150ms danach. In diesem Zeitbereich bestimmt die menschliche Hörwahrnehmung die Eigenschaften des Raumes (Größe, Form und Beschaffenheit).

Für die Wiedergabe einer Raumakustik gibt es bei der WFS zwei verschiedene Grundansätze. Dadurch ergeben sich zwei verschiedene Kategorien der Wellefeldsynthese. Die erste Möglichkeit ist die datenbasierte WFS. Der zweite Grundansatz ist die modellbasierte WFS.

Datenbasierte Wellenfeldsynthese

Die datenbasierte WFS arbeitet mit dem Prinzip der Faltung. Faltung ist eine wiedergabeseitige Einbettung einer virtuellen Schallquelle in eine vorher gemessene und abgespeicherte Akustik eines beliebigen Raumes. Das kann der originale Aufnahmeort oder ein beliebiger anderer zuvor vermessener Raum sein.

Wie auch die Anzahl der Übertragungskanäle bei den trockenen Quellen (Primärquellen) kann auch für die Impulsantworten die Anzahl der Kanäle durch Interpolation reduziert werden. Allerdings muss die Kanalzahl hier auch mindestens jene der virtuellen Quellen (Sekundärquellen) betragen.

Zur Faltung der Quellen wird für jede Quelle bzw. für jede virtuelle Quelle eine separate Messung ihrer Impulsantwort im abzubildenden Raum benötigt. Die Impulsantwort ist ein Fingerabdruck des Raumklanges. Er lässt sich wiedergabeseitig auf jedes Audiosignal legen (falten). Für jede virtuelle Quelle müssen die Raumimpulsantworten an vielen Punkten innerhalb der zu übertragenden Hörzone oder entlang der Grenzfläche der Hörzone gemessen werden.

An die Position der Quelle tritt ein bekanntes Testsignal (z.B. rosa Rauschen, weißes Rauschen oder Sinus-Sweep). Soll die Messung für eine Live-Aufnahme erfolgen, müssen die genauen Positionen der Schallquellen (z.B. Musiker) vorher bekannt sein. Gemessen wird die Antwort des Raumklanges (Impulsantwort) im Zeitbereich von 10 bis 80 Millisekunden nach Abschalten der Schallquelle. Die Länge der Impulsantwort ist stark von der Raumgröße abhängig. Bei einem normalen Wohnzimmer beträgt sie nur etwa 30ms, bei einem großen Konzertsaal kann sie auch 150ms oder mehr betragen.

Für die Messung der Impulsantworten gibt es verschiedene Möglichkeiten. Dazu zählen lineares Mikrofonarray, Arraykreuz oder Kreisarray. Die Mikrofone müssen eine abwechselnde Anordnung aus kugelförmiger Richtcharakteristik (Druckempfänger, Monopole) und Richtcharakteristik Acht (Druckgradienten- bzw. Schnelleempfänger, Dipole) sein.

Bei Verwendung eines linearen Arrays wird innerhalb der Hörfläche vermessen. Dabei werden die verschiedenen Raumrichtungen erfasst, indem das Array gedreht wird. Beim Kreuzarray werden zwei lineare Arrays kombiniert. Bei beiden Methoden müssen die Kapselmembrane von je einem Druckempfänger und einem Schnelleempfänger möglichst die gleiche räumliche Position haben.

Ein Kreisarray misst die Signale an den Grenzen der Hörfläche. Dabei sind möglichst viele Dipole und Monopole je abwechselnd vorhanden. Der Optimalfall ist, wenn die Umgrenzungslinie die sich durch die Mikrofonpositionen ergibt, der Lautsprecheranordnung der Widergabe entspricht. Die Anzahlen der Mikrofone, der Übertragungskanäle und die der späteren Wiedergabelautsprecher müssen jedoch nicht gleich sein. Je mehr Messmikrofone verwendet werden, desto besser ist die Qualität der gemessenen Impulsantwort, unabhängig von der Anzahl der Kanäle und der Anzahl der Wiedergabelautsprecher.

Modellbasierte Wellenfeldsynthese

Bei der modellbasierten WFS wird anstelle eines real vermessenen Raumes ein künstlicher Raum simuliert. Bei diesem Ansatz ist die WFS in vier Bestandteile gegliedert anstatt in drei. Zur direkten Wiedergabe der Quellen, den frühen Reflektionen (Raumakustik) und dem Nachhall kommt noch eine Abbildung sogenannter virtueller Spiegelquellen. Dabei handelt es sich um die ersten Reflektionen der Quellensignale. Sie werden getrennt für den Zeitbereich der ersten 20ms nach dem Schallereignis berechnet. Dieser Zeitraum (von 0ms bis 20ms) wird als Pseudodirektschall bezeichnet. Aus diesen Spiegelquellen werden dann die frühen Reflektionen (bis 80ms) errechnet. Dabei wird das spezifische Absorbtionsverhalten des Raumes nachgeahmt.

Insgesamt ist das modellbasierte Verfahren einfacher zu handhaben und benötigt weniger Rechenkapazität. Dafür erreicht die Raumsimulation nicht die gleiche Qualität wie sie beim datenbasierten Verfahren (Faltung) möglich ist. Der Vorteil des modellbasierten Verfahrens ist, dass damit auch bewegte Quellen wiedergegeben werden können. Bei der datenbasierten Technik müsste zur Darstellung von bewegten Quellen ein praktisch unmöglicher Aufwand bei den Impulsantwortmessungen betrieben werden. Dabei wäre für jede Position jeder bewegten Quelle eine komplette Serie von Impulsantwortmessungen erforderlich. Zudem würde sich der Rechenaufwand entsprechend erhöhen.

Künstlicher Nachhall

Eine per Faltung oder per modellbasiertem Verfahren wiederzugebende Tonumgebung (z.B. die eines Konzertes oder einer Filmszene) erfordert eine enorme Rechenkapazität. Man verwendet zur Wiedergabe der Raumakustik für den Zeitbereich über 80ms nach dem Klangereignis anstatt der modellbasierten Synthese oder der noch aufwändigeren Faltung künstlichen digitalen Nachhall. Die für den Menschen wichtigen Rauminformationen (Größe, Form, Beschaffenheit) bezüglich eines Schallereignisses folgen in den ersten 50 bis 150 Millisekunden. Für den Zeitraum danach reicht künstlicher digitaler Nachhall völlig aus. Da dieser auf vergleichsweise einfache Art zu erzeugen ist, werden dadurch unnötige und große Rechenleistungen eingespart.

Für die Erzeugung eines diffusen Nachhalls genügen bereits vier ebene Wellenfronten. Ebene Wellenfronten beschreiben ein Fernfeld mit weiter Entfernung zur ursprünglichen Schallquelle. Pro ebener Wellenfront ist je ein Übertragungskanal notwendig. Die Wellen werden nach Möglichkeit quer zu den Lautsprecherreihen abgebildet. Die Kanäle sind zueinander unkorreliert, d.h. sie tragen zu jedem Zeitpunkt verschiedene Signale, damit sich ein diffuser Klangeindruck ergibt.

Neben dem künstlichen Hall gibt es auch Konzepte, bei Live-Aufnahmen die Hallfahne separat aufzunehmen. Dabei wird eine möglichst hohe Signaltrennung zu den Schallquellen mit mindestens 10 dB mehr Hallanteil als Direktsignalanteil angestrebt. Zum Aufnehmen der Hallfahne sind verschiedene spezielle Mikrofonanordnungen möglich. Eine Möglichkeit ist der Einsatz eines Soundfield-Mikrofones. Dabei handelt es sich um ein Mikrofon mit mehreren gewinkelten Kapseln in Kombination mit einem Rechenprozessor. Eine weitere Möglichkeit ist ein Okto Setup; hier werden acht Mikrofone an vier Positionen in mindestens einem Meter Abstand zueinander aufgestellt. Die Mikrofone sind in acht verschiedene Richtungen ausgerichtet und haben Versatzwinkel von je 45°. Bei diesem Nachhallkonzept werden die Impulsantworten für die frühen Reflektionen (datenbasiertes Verfahren) allerdings nicht live aufgenommen. Die Raumvermessungen für den Zeitbereich vor dem Nachhall müssen wie immer separat vorgenommen werden.

Wiedergabe

Für Lautsprecher sind neben den Standardaufstellungen lineares Array, offenes Rechteck, geschlossenes Rechteck und geschlossener Kreis auch kombinierte Lautsprecheraufstellungen möglich. Die Absicht dahinter ist die bessere Einbaumöglichkeit in Räumlichkeiten. Möglich sind z.B. ein offenes Vieleck oder ein Vieleck mit Lücken.

Um die Richtcharakteristika der Lautsprecher zu optimieren bzw. um ihre Abweichungen von den idealen Richtdiagrammen (Abstrahlmuster) auszugleichen, werden alle eingesetzten Lautsprecher per Messung in einer Wertetabelle abgespeichert. Diese Werte finden dann Berücksichtigung bei der Signalgewichtung.

Statt herkömmlichen Lautsprechern können Multi Actuator Panels (kurz MAPs) verwendet werden. Dabei handelt es sich um flache scheibenartige elektrodynamische Biegewellenschwinger mit punktförmiger Abstrahlcharakteristik. Diese Art von Schallquellen dient ebenfalls der besseren Integration der aufwändigen Systeme in Räume.

Etwas problematisch zum Integrieren in die Lautsprecherarrays sind die Subwoofer für die tiefen Frequenzen. Aber für tiefe Frequenzen (unter 100 Hz) wird keine Lautsprecheranordnung im Array benötigt, da der Mensch tiefe Bässe kaum lokalisieren kann. Daher genügen wenige einzelne Tieftöner an beliebigen Positionen.

Zur Wiedergabe werden im Syntheseoperator die Funktionen zur Gewichtung der Lautsprechersignale unter Berücksichtigung der Lautsprecheranordnung berechnet (vgl. dazu Extrapolation im Abschnitt Verarbeitung). Die Panele besitzen Prozessoren, die die Position des jeweils zugeordneten Lautsprechers kennen. Die Prozessoren der Panele errechnen den abzustrahlenden Schallwellenanteil an der Rekonstruktion der darzustellenden Wellenfront.

Bei Lautsprecherarrays werden durch akustisches Zusammenwirken der benachbarten Lautsprecher tiefe Frequenzen stärker betont als Hohe, mit zunehmender Betonung nach unten. Um das Ungleichgewicht auszugleichen wird eine Wiedergabeentzerrung benötigt. Dabei werden die Frequenzanteile von der Grenzfrequenz des Systems ab nach unten hin mit 3 dB pro Oktave abgesenkt.

Einschränkungen

Grenzfrequenz

Die Wellenfeldsynthese hat eine starke Einschränkung: Der Abstand der Lautsprecher im Array legt die höchste darstellbare Frequenz, bei der Wellenfeldsynthese Aliasingfrequenz genannt, fest. Je kleiner der Abstand der am dichtesten gereihten Schallquellenkomponenten (Hochtöner der Lautsprecher), desto höhere Frequenzen sind möglich. Ihre Wellenlänge ist der doppelte Lautsprecherabstand (bzw. der doppelte Abstand der Hochtöner). Beispielsweise ergibt sich bei einem Abstand von 4cm eine Grenzfrequenz von 4,3 kHz. Bis zu dieser Grenzfrequenz ist die Wiedergabe linear, d.h. ohne Lautstärkenverschiebungen im Frequenzspektrum.

Über dieser Grenzfrequenz entsteht im Hörbereich Spatial Aliasing, ein flächiges extremes Kammfilter statt eines linearen Frequenzspektrums. Das bedeutet extreme Klangfarben- und Lautstärkenunterschiede auch zwischen nah bei einander liegenden Punkten. Bewegt sich ein Hörer in einem solchen Schallfeld, so nimmt er starke Klangkontraste wahr. Selbst die beiden Ohrsignale sind stark gegeneinander verstimmt. Anders betrachtet, wenn der Hörer ruht und die Quelle bewegt dargestellt wird, ergibt sich der gleiche Effekt. Daher müssen die Frequenzen oberhalb der Grenzfrequenz weggefiltert werden.

Es entstehen jedoch im Gegensatz zur ähnlichen Begrenzung durch die Samplingrate bei der Audio-Digitalisierung, bei der die Grenzfrequenz die halbe Durchlaufzeit der Abtastrate hat, keine Geisterfrequenzen (siehe dazu auch Alias-Effekt).

Bei linearer (bzw. zum Hörer frontaler) Lautsprecheraufstellung kann die WFS zur Erweiterung des Frequenzspektrums mit stereofonen Techniken für den Höhenbereich kombiniert werden. Diese Methode heißt Optimized Source Imaging (abgekürzt OPSI). Dabei wird der Frequenzbereich bis zur Aliasingfrequenz per WFS abgebildet, für die höheren Bereiche findet eine stereofone Abbildung über zwei oder mehrere Lautsprecher statt.

Truncation Effect

Bei linearen Lautsprecheranordnungen gehen von den Arrayenden durch den Beugungseffekt zusätzliche Wellen aus; so genannte Schattenwellen. Sie bilden klangliche Artefakte (Störungen). Dieser Effekt heißt international einheitlich Truncation Effect (von englisch Trunk, dt. Rumpf). Diese Einflüsse der Ränder fallen umso mehr ins Gewicht, je weiter die Position vom Lautsprecherarray entfernt ist. Bei einem Zeitversatz von über 50 Millisekunden zwischen Schallereignis (virtuelle Quelle) und der verbundenen Schattenwelle an der Hörposition wird ein separates Echo wahrnehmbar. Für kürzere Intervalle ergeben sich spektrale Klangfärbungen (Kammfilter).

Um diesen Störeffekt zu reduzieren, gibt es zwei Möglichkeiten. Die Erste besteht darin, die Schattenwelle näherungsweise zu berechnen und mit einer ausgleichenden Welle abzumildern (mit Fehlerterm genähertes Fehlersignal). Dadurch kann eine deutliche Reduktion der Schattenwelle erreicht werden, sie bleibt aber noch klar vorhanden. Die zweite Möglichkeit ist, die Wiedergabelautstärke zu den Arrayenden hin zu reduzieren. Dies geschieht mit einer Kosinusfunktion der Wiedergabesignale. Dadurch werden die Schattenwellen abgedämpft sowie zeitlich und räumlich verwaschen. Damit lässt sich der Störeffekt wesentlich stärker minimieren als mit der Fehlersignal-Methode.

Bei offenen und geschlossenen eckigen Lautsprecheraufstellungen besteht zwar theoretisch auch ein Truncation Effect, er ist jedoch so schwach, dass er vernachlässigt werden kann. Bei Kreisarrays besteht der Effekt nicht.

Virtual Panning Spots

Mit den virtuellen Quellen lassen sich mehrkanalige Tonformate simulieren. Jede virtuelle Quelle simuliert dabei einen Tonkanal bzw. einen Wiedergabelautsprecher. Die virtuellen Quellen werden dabei Virtual Panning Spots (abgekürzt VPS) genannt. Ein geschlossenes Wellenfeldarray ist dabei zu allen Kanalformaten wie 5.1 Surround und Stereo abwärtskompatibel.

Eine besondere Anwendung sind hier multiple Stereoquellen. Es sind theoretisch auch multiple Surroundsysteme möglich. Bei VIPs wird nicht mehr jede abzubildende Schallquelle einzeln mikrofoniert, sondern sie ergibt sich als Stereo-Phantomschalquelle einer Stereobasis, die ihrerseits von zwei oder mehr virtuellen Quellen simuliert wird. Für eine Tiefenausdehnung eines dargestellten Objektes sind mindestens drei VIPs nötig. Durch multiple Stereobilder mittels VPS lassen sich Kanalzahl und Rechenkapazität bei der Wellenfeldsynthese senken.

Diese Kombination mit stereofonen Techniken bietet verschiedene Vorteile gegenüber Stereo und weiteren mehrkanaligen Tonformaten:

  • Statt eines einzigen Punktes, an dem alles im richtigen Verhältnis darstellbar ist (Sweet Spot), ergibt sich eine ganze Fläche (Hörzone) für die richtige stereofone Abbildung.
  • Die virtuellen Quellen (resp. Lautsprecher) unterliegen nicht den physikalischen örtlichen Grenzen von echten Lautsprechern (z.B. von Surroundlautsprechern). Es kann ein größerer virtueller Abhörraum erzeugt werden als der Reale, auch mit virtuellen weiter entfernten Schallquellen (Lautsprechern). Die starken Einschränkungen von Nahfeld-Surround, die vor allem im Heimkinobereich vorhanden sind, werden dadurch reduziert.
  • Es können beliebig viele und auch unterschiedliche Kanalformate (Einzelquellen und alle denkbaren Mehrkanalformate) unabhängig voneinander überlagert werden.

Ein Nachteil bei VPS-Stereoquellen ist, dass die Mikrofonsignale Raumantwort enthalten, die Quellensignale nach dem Konzept der WFS aber trocken (isoliert) sein sollten. Ein weiterer Vorteil kann sein, das die zusätzliche Stereoabnahme eines Klangkörpers aus mehreren Einzelquellen (z.B. Schlagzeug oder Chor) die künstlerischen Möglichkeiten des Tontechnikers erweitert. Ebenso können mit VPS praktische Mängel der Wellenfeldsynthese kompensiert werden.

Mit dem Konzept lassen sich auch Umbebungsgeräusche (Atmo; engl. Atmospheric Cue) aufnehmen und abbilden. Diese Geräusche haben keine Einzelquellen, sondern sie bilden eine diffuse Geräuschkulisse. Die Aufnahme mit stereofonen Techniken ist hier wesentlich einfacher als mit der WFS-Aufnahmetechnik, die Wiedergabequalität entsprechend eingeschränkt.

Forschung und Marktreife

Frühe Versuche einer dreidimensionalen Schallfeldsynthese fanden bereits im Jahre 1965 im physikalischen Institut der Universität Göttingen statt. Dabei wurden schon, wie bei der WFS, der Primärschall, die frühen Reflektionen und der Nachhall getrennt bearbeitet. Die Wiedergabeanlage war eine Halbkugel aus 65 aufgehängten Lautsprechern in einem sehr großen Abhörraum (Nahfeldbeschallung).

Die neueren Verfahren zur WFS wurden ab 1988 zuerst an der TU Delft entwickelt. Im Rahmen des von der EU geförderten Projektes CARROUSO (Januar 2001 bis Juni 2003) forschten europaweit zehn Institute auf dem Gebiet. CARROUSO steht für "Creating, Assesing and Rendering in Real Time of High Quality Audio-Visual Enviroments in MPEG4-Context". Die beteiligten Forschungsinstitute waren IRCAM, IRT und Fraunhofer, die beteiligten Universitäten waren die TU Delft, die TU Erlangen, die AU Thessaloniki und ISL Lausanne, die beteiligten Unternehmen waren Studer, France Telecom und Thales.

In den vergangenen Jahren wurden verschiedene WFS-Systeme installiert, vor allem im industriellen Bereich, im Kino Lindenlichtspiele in Ilmenau (das zum Fraunhofer IDMT gehörende IOSONO Kino), für die Bregenzer Festspiele sowie an verschiedenen Universitäten. Das WFS-Klangsystem IOSONO wurde vom Fraunhofer-Institut für Digitale Medientechnologie (IDMT) im Umfeld der TU Ilmenau für den Forschungsbereich entwickelt und wird unter dem Namen IOSONO von der IOSONO-GmbH vertrieben. (Der Name "IOSONO" ist keine Abkürzung, er leitet sich aus dem spanischen Wort "Iosono", deutsch "ich klinge" ab.) Es ist ein WFS-System mit einer speziellen Rechen- und Steuereinheit mit Hardwarecontroller.

Ein weiteres System wird von der Firma Sonic Emotion vertrieben. Es trägt den Namen Zsonic Modules.

Eine Marktreife dieser Techniken ist derzeit noch nicht in Sicht, zumindest nicht für den Massenmarkt und für den Heimbereich. Die WFS ist noch in der Frühphase der Entwicklung und aktueller Forschungsgegenstand.

Weitere Ansätze zur Holophonie

Beamforming

Ein der WFS ähnliches Verfahren ist das Beamforming, welches ebenfalls Lautsprechergruppen oder -arrays verwendet. Hierbei werden jedoch keine beliebigen Wellenfronten synthetisiert, sondern es wird eine möglichst stark gerichtete Schallabstrahlung z.B. zur Beschallung angestrebt. Auf dem Beamforming basieren auch kompakte Systeme, die meist als Klangprojektoren bezeichnet werden (z.B. von Pioneer und Yamaha erhältlich). Diese erzeugen gezielte Reflexionen an den Raumwänden, um dort stehende Lautsprecher zu simulieren, wobei Form und Eigenschaften der Wände entscheidenden Einfluss haben. Eine Gemeinsamkeit von Wellenfeldsynthese und Beamforming ist, dass die untere Grenze des korrekt wiedergegebenen Frequenzbereichs durch die Länge des Lautsprecherarrays und die obere Grenze durch den Abstand der einzelnen Lautsprecher bestimmt wird (siehe Abschnitt Grenzfrequenz).

Ambisonic

Ein weiteres Verfahren ist Ambisonic, eine dreidimensionale Reproduktionsmethode des Schallfeldes. Dabei gibt es einen Abhörpunkt. Durch Berechnungen und mithilfe verschiedener Richtcharakteristika der beteiligten Lautsprecher (spezielle Zusammensetzungen) wird versucht, die gleiche Schallsituation nachzubilden, die im echten Raum vorherrschen würde. Ambisonic arbeitet ausschließlich mit ebenen Wellen. Daher sind sowohl die Abstände der Lautsprecher zum Hörer als auch die Entfernungen der erzeugten Schallquellen relativ groß.

Vector Based Panning

Die Methode Vector Based Panning (kurz VBAP oder VBIP) bildet ebenfalls virtuelle Schallquellen ab. Die Anzahl der Lautsprecher ist variabel und es gibt Anwendungen sowohl auf zwei- als auch auf dreidimensionaler Ebene. Bei diesem Ansatz wird im Gegensatz zu Ambisonic für jede abzubildende Quelle nur jeweils die minimale Anzahl der benötigten Lautsprecher angesteuert. Das Schallfeld wird geometrisch in Vektorform dargestellt, die Berechnungen erfolgen mithilfe von Matrizen.

Siehe auch

Quellen

Literatur

  • Jens Blauert: Räumliches Hören. S. Hirzel Verlag, Stuttgart 1974. ISBN: 3-7776-0250-7
  • Jens Blauert: Räumliches Hören, 2. Nachschrift - Neue Ergebnisse und Trends seit 1982 bis 1997. S. Hirzel Verlag Stuttgart, 1997. ISBN: 3-7776-0738-X
  • Glen M. Ballou: Handbook for Sound Engineers, Third Edition. Elsevier / Focal Press 2002. ISBN: 0-240-80758-8

Internet

  • PDF (26 Seiten) - Günther Theile, Helmut Wittek, Markus Reisinger (Institut für Rundfunktechnik GmbH): Ein Weg für neue Möglichkeiten der Räumlichen Tongestaltung.
  • PDF (100 Seiten) - Tillman Gronert, IRT München, Januar 2003: Distanzwahrnehmung bei virtueller Tondarstellung mittels Wellenfeldsynthese. (Diplomarbeit)
  • PDF (63 Seiten) - Anlage zur Vorlesung Akustik für Ingenieure von Prof. Josef Kolerus: Skizzen zur numerischen Akustik.
  • PDF (98 Seiten) - Michael Strauß, Universität für Musik und Darstellende Kunst in Graz, September 2002: Simulation und Implementation eines Audio Interface in Wellenfeldsynthese. (Diplomarbeit)
  • PDF (102 Seiten) - Tobias Augustin, IRT München, 08. August 2004: Zur Wahrnehmbarkeit von Klangfarbenveränderungen bei Wellenfeldsynthese. (Entwurf Diplomarbeit)
  • PDF (72 Seiten) - Thomas Huber, IRT München, 22. Juli 2002: Zur Lokalisation akustischer Objekte bei Wellenfeldsynthese. (Entwurf Diplomarbeit)
  • PDF (126 Seiten) - Markus Reisinger, FH Düsseldorf, Oktober 2002: Neue Konzepte der Tondarstellung bei der Wiedergabe mittels Wellenfeldsynthese. (Diplomarbeit)
  • PDF (102 Seiten) - Gunther Reisinger, FH Düsseldorf, Juli 2003: Einsatz von stereophonen Aufnahmetechniken für die räumliche Übertragung ausgedehnter Schallquellen mit Hilfe der Wellenfeldsynthese. (Diplomarbeit)
  • PDF (40 Folien) - CARROUSO-Kolloquium von Helmut Wittek vom 12. Dezember 2002: Wahrnehmung synthetisierter Schallfelder. (Enthält hauptsächlich Graphiken und Stichworte, kaum Text)