Wikipedia - Benutzerbeiträge [de]

Potenzial (Spieltheorie)

2014-04-05T11:18:16Z

Mathmon:

Ein '''Ordnungspotenzial''' oder eine '''Ordnungspotenzialfunktion''' ist in der [[Spieltheorie]] eine spezielle [[Funktion (Mathematik)|Funktion]] auf der Menge der [[Strategiekombination]]en eines [[Spiel (Spieltheorie)|Spiels]]. Durch diese Funktion werden die Strategiekombination nach ihrer [[Auszahlung]] an die Spieler angeordnet. Eine Strategiekombination besitzt dabei genau dann einen höheren Wert, wenn sie für jeden Spieler zu einer höheren Auszahlung führt. Indem man Ordnungspotenzialfunktion strenger an die Auszahlungsfunktionen bindet, erhält man die Spezialfälle des '''gewichteten Potenzials''' und des '''exakten Potenzials'''. Letzteres wird auch einfach nur als '''Potenzial''' oder '''Potenzialfunktion''' bezeichnet.

Die meisten Spiele besitzen allerdings kein Ordnungpotenzial. Von [[Dov Monderer]] wurden deshalb 1988 bzw. 1996 die folgenden Klassen von Spielen eingeführt:<ref name="potential">Dov Monderer, Lloyd S. Shapley: [http://ie.technion.ac.il/~dov/potential.pdf ''Potential Games.''] (PDF; 200 kB) Games and Economic Behavior 14, 1996, S. 124–143</ref>
* '''Spiel mit Ordnungspotenzial'''
* '''Spiel mit gewichtetem Potenzial'''
* '''Spiel mit (exaktem) Potenzial'''

Eine Potenzialfunktion wurde bei Spielen erstmals 1973 von [[Robert W. Rosenthal]] eingesetzt, um zu zeigen, dass [[Auslastungsspiel]]e ein [[Nash-Gleichgewicht|Nash-Gleichgewicht in reinen Strategien]] besitzen.<ref>Robert W. Rosenthal: [http://www.springerlink.com/index/J5T4730452755627.pdf ''A Class of Games Possessing Pure-Strategy Nash Equilibria.''] In: ''International Journal of Game Theory.'' Nr. 2, 1973, S. 65–67</ref>

== Definition ==

Bei allen drei Definitionen sei <math>\Gamma = (N, \Sigma, u)</math> ein Spiel in [[Normalform (Spieltheorie)|Normalform]]. Weiter sei <math>\sigma \in \Sigma</math> ein beliebiges aber festes Strategieprofil und
<math>\sigma' := (\sigma^{-i}, \sigma_i')</math> das Profil, das durch den Wechsel der Strategie eines Spielers <math>i \in N</math> von <math>\sigma_i</math> zu <math>\sigma_i'</math> entsteht.

=== Ordnungspotenzial ===

Eine Ordnungspotenzialfunktion <math>P</math> ist eine Funktion <math>P: \Sigma \rightarrow \R</math>, für die gilt, dass

:<math>u_i(\sigma') - u_i(\sigma) > 0 \quad \Leftrightarrow \quad P(\sigma') - P(\sigma) > 0</math>

=== Gewichtetes Potenzial ===

Eine gewichtete Potenzialfunktion <math>P</math> ist eine Funktion <math>P: \Sigma \rightarrow \R</math>
bei der für jeden Spieler <math>i \in N</math> eine Zahl <math>w_i > 0</math> existiert, sodass stets gilt, dass

:<math>u_i(\sigma') - u_i(\sigma) = w_i \cdot (P(\sigma') - P(\sigma))</math>

In diesem Fall nennt man <math>\Gamma</math> ein gewichtetes Potenzialspiel. Die Gewichte <math>w_1, w_2, \ldots, w_n</math> bilden einen Vektor <math>w</math>. Kennt man diese Zahlen, so nennt man <math>P</math> ein <math>w</math>-Potenzial und spricht von einem Spiel mit <math>w</math>-Potenzial.

=== Exaktes Potenzial ===

Eine (exakte) Potenzialfunktion <math>P</math> ist eine Funktion <math>P: \Sigma \rightarrow \R</math> für die gilt, dass

:<math>u_i(\sigma') - u_i(\sigma) = P(\sigma') - P(\sigma)</math>

Die exakte Potenzialfunktion ist also ein Spezialfall einer gewichteten Potenzialfunktion, bei der alle Gewichte <math>w_i = 1</math> sind.
Es gilt, dass jedes [[Auslastungsspiel]] eine exakte Potentialfunktion hat, umgekehrt ist jedes endliche Spiel, welches eine exakte Potentialfunktion
besitzt, isomorph zu einem Auslastungsspiel.<ref name="potential" />

== Eigenschaften ==

Jedes endliche Spiel mit Ordnungspotenzial besitzt ein Nash-Gleichgewicht in reinen Strategien.

Zwei Potenzialfunktionen <math>P_1</math> und <math>P_2</math> eines Spiels unterscheiden sich nur durch eine Konstante:
:<math>P_1(\sigma) = P_2(\sigma) + c</math>
Das bedeutet, dass für zwei Strategiekombinationen <math>\sigma^*</math> und <math>\sigma^{**}</math> gilt
:<math>P_1(\sigma^*) - P_1(\sigma^{**}) = P_2(\sigma^*) - P_2(\sigma^{**})</math>

== Quellen ==

<references/>

[[Kategorie:Spieltheorie]]

Potenzial (Spieltheorie)

2014-03-20T21:56:03Z

Mathmon: /* Definition */

Ein '''Ordnungspotenzial''' oder eine '''Ordnungspotenzialfunktion''' ist in der [[Spieltheorie]] eine spezielle [[Funktion (Mathematik)|Funktion]] auf der Menge der [[Strategiekombination]]en eines [[Spiel (Spieltheorie)|Spiels]]. Durch diese Funktion werden die Strategiekombination nach ihrer [[Auszahlung]] an die Spieler angeordnet. Eine Strategiekombination besitzt dabei genau dann einen höheren Wert, wenn sie für jeden Spieler zu einer höheren Auszahlung führt. Indem man Ordnungspotenzialfunktion strenger an die Auszahlungsfunktionen bindet, erhält man die Spezialfälle des '''gewichteten Potenzials''' und des '''exakten Potenzials'''. Letzteres wird auch einfach nur als '''Potenzial''' oder '''Potenzialfunktion''' bezeichnet.

Die meisten Spiele besitzen allerdings kein Ordnungpotenzial. Von [[Dov Monderer]] wurden deshalb 1988 bzw. 1996 die folgenden Klassen von Spielen eingeführt:<ref>Dov Monderer, Lloyd S. Shapley: [http://ie.technion.ac.il/~dov/potential.pdf ''Potential Games.''] (PDF; 200 kB) Games and Economic Behavior 14, 1996, S. 124–143</ref>
* '''Spiel mit Ordnungspotenzial'''
* '''Spiel mit gewichtetem Potenzial'''
* '''Spiel mit (exaktem) Potenzial'''

Eine Potenzialfunktion wurde bei Spielen erstmals 1973 von [[Robert W. Rosenthal]] eingesetzt, um zu zeigen, dass [[Auslastungsspiel]]e ein [[Nash-Gleichgewicht|Nash-Gleichgewicht in reinen Strategien]] besitzen.<ref>Robert W. Rosenthal: [http://www.springerlink.com/index/J5T4730452755627.pdf ''A Class of Games Possessing Pure-Strategy Nash Equilibria.''] In: ''International Journal of Game Theory.'' Nr. 2, 1973, S. 65–67</ref>

== Definition ==

Bei allen drei Definitionen sei <math>\Gamma = (N, \Sigma, u)</math> ein Spiel in [[Normalform (Spieltheorie)|Normalform]]. Weiter sei <math>\sigma \in \Sigma</math> ein beliebiges aber festes Strategieprofil und
<math>\sigma' := (\sigma^{-i}, \sigma_i')</math> das Profil, das durch den Wechsel der Strategie eines Spielers <math>i \in N</math> von <math>\sigma_i</math> zu <math>\sigma_i'</math> entsteht.

=== Ordnungspotenzial ===

Eine Ordnungspotenzialfunktion <math>P</math> ist eine Funktion <math>P: \Sigma \rightarrow \R</math>, für die gilt, dass

:<math>u_i(\sigma') - u_i(\sigma) > 0 \quad \Leftrightarrow \quad P(\sigma') - P(\sigma) > 0</math>

=== Gewichtetes Potenzial ===

Eine gewichtete Potenzialfunktion <math>P</math> ist eine Funktion <math>P: \Sigma \rightarrow \R</math>
bei der für jeden Spieler <math>i \in N</math> eine Zahl <math>w_i > 0</math> existiert, sodass stets gilt, dass

:<math>u_i(\sigma') - u_i(\sigma) = w_i \cdot (P(\sigma') - P(\sigma))</math>

In diesem Fall nennt man <math>\Gamma</math> ein gewichtetes Potenzialspiel. Die Gewichte <math>w_1, w_2, \ldots, w_n</math> bilden einen Vektor <math>w</math>. Kennt man diese Zahlen, so nennt man <math>P</math> ein <math>w</math>-Potenzial und spricht von einem Spiel mit <math>w</math>-Potenzial.

=== Exaktes Potenzial ===

Eine (exakte) Potenzialfunktion <math>P</math> ist eine Funktion <math>P: \Sigma \rightarrow \R</math> für die gilt, dass

:<math>u_i(\sigma') - u_i(\sigma) = P(\sigma') - P(\sigma)</math>

Die exakte Potenzialfunktion ist also ein Spezialfall einer gewichteten Potenzialfunktion, bei der alle Gewichte <math>w_i = 1</math> sind.
Es gilt, dass jedes [[Auslastungsspiel]] eine exakte Potentialfunktion hat, umgekehrt ist jedes endliche Spiel, welches eine exakte Potentialfunktion
besitzt, isomorph zu einem Auslastungsspiel.<ref>Dov Monderer, Lloyd S. Shapley: [http://www.cs.bu.edu/~steng/teaching/Fall2008/potential.pdf ''Potential Games''] In: ''Games and Economic Behaviour.'' Nr. 14, 1996, S. 124–143</ref>

== Eigenschaften ==

Jedes endliche Spiel mit Ordnungspotenzial besitzt ein Nash-Gleichgewicht in reinen Strategien.

Zwei Potenzialfunktionen <math>P_1</math> und <math>P_2</math> eines Spiels unterscheiden sich nur durch eine Konstante:
:<math>P_1(\sigma) = P_2(\sigma) + c</math>
Das bedeutet, dass für zwei Strategiekombinationen <math>\sigma^*</math> und <math>\sigma^{**}</math> gilt
:<math>P_1(\sigma^*) - P_1(\sigma^{**}) = P_2(\sigma^*) - P_2(\sigma^{**})</math>

== Quellen ==

<references/>

[[Kategorie:Spieltheorie]]

Potenzial (Spieltheorie)

2014-03-20T21:47:01Z

Mathmon:

Ein '''Ordnungspotenzial''' oder eine '''Ordnungspotenzialfunktion''' ist in der [[Spieltheorie]] eine spezielle [[Funktion (Mathematik)|Funktion]] auf der Menge der [[Strategiekombination]]en eines [[Spiel (Spieltheorie)|Spiels]]. Durch diese Funktion werden die Strategiekombination nach ihrer [[Auszahlung]] an die Spieler angeordnet. Eine Strategiekombination besitzt dabei genau dann einen höheren Wert, wenn sie für jeden Spieler zu einer höheren Auszahlung führt. Indem man Ordnungspotenzialfunktion strenger an die Auszahlungsfunktionen bindet, erhält man die Spezialfälle des '''gewichteten Potenzials''' und des '''exakten Potenzials'''. Letzteres wird auch einfach nur als '''Potenzial''' oder '''Potenzialfunktion''' bezeichnet.

Die meisten Spiele besitzen allerdings kein Ordnungpotenzial. Von [[Dov Monderer]] wurden deshalb 1988 bzw. 1996 die folgenden Klassen von Spielen eingeführt:<ref>Dov Monderer, Lloyd S. Shapley: [http://ie.technion.ac.il/~dov/potential.pdf ''Potential Games.''] (PDF; 200 kB) Games and Economic Behavior 14, 1996, S. 124–143</ref>
* '''Spiel mit Ordnungspotenzial'''
* '''Spiel mit gewichtetem Potenzial'''
* '''Spiel mit (exaktem) Potenzial'''

Eine Potenzialfunktion wurde bei Spielen erstmals 1973 von [[Robert W. Rosenthal]] eingesetzt, um zu zeigen, dass [[Auslastungsspiel]]e ein [[Nash-Gleichgewicht|Nash-Gleichgewicht in reinen Strategien]] besitzen.<ref>Robert W. Rosenthal: [http://www.springerlink.com/index/J5T4730452755627.pdf ''A Class of Games Possessing Pure-Strategy Nash Equilibria.''] In: ''International Journal of Game Theory.'' Nr. 2, 1973, S. 65–67</ref>

== Definition ==

Bei allen drei Definitionen sei <math>\Gamma = (N, \Sigma, u)</math> ein Spiel in [[Normalform (Spieltheorie)|Normalform]]. Weiter sei <math>\sigma \in \Sigma</math> ein beliebiges aber festes Strategieprofil und
<math>\sigma' := (\sigma^{-i}, \sigma_i')</math> das Profil, das durch den Wechsel der Strategie eines Spielers <math>i \in N</math> von <math>\sigma_i</math> zu <math>\sigma_i'</math> entsteht.

=== Ordnungspotenzial ===

Eine Ordnungspotenzialfunktion <math>P</math> ist eine Funktion <math>P: \Sigma \rightarrow \R</math>, für die gilt, dass

:<math>u_i(\sigma') - u_i(\sigma) > 0 \quad \Leftrightarrow \quad P(\sigma') - P(\sigma) > 0</math>

=== Gewichtetes Potenzial ===

Eine gewichtete Potenzialfunktion <math>P</math> ist eine Funktion <math>P: \Sigma \rightarrow \R</math>
bei der für jeden Spieler <math>i \in N</math> eine Zahl <math>w_i > 0</math> existiert, sodass stets gilt, dass

:<math>u_i(\sigma') - u_i(\sigma) = w_i \cdot (P(\sigma') - P(\sigma))</math>

In diesem Fall nennt man <math>\Gamma</math> ein gewichtetes Potenzialspiel. Die Gewichte <math>w_1, w_2, \ldots, w_n</math> bilden einen Vektor <math>w</math>. Kennt man diese Zahlen, so nennt man <math>P</math> ein <math>w</math>-Potenzial und spricht von einem Spiel mit <math>w</math>-Potenzial.

=== Exaktes Potenzial ===

Eine (exakte) Potenzialfunktion <math>P</math> ist eine Funktion für die gilt, dass

:<math>u_i(\sigma') - u_i(\sigma) = P(\sigma') - P(\sigma)</math>

Die exakte Potenzialfunktion ist also ein Spezialfall einer gewichteten Potenzialfunktion, bei der alle Gewichte <math>w_i = 1</math> sind.
Es gilt, dass jedes [[Auslastungsspiel]] eine exakte Potentialfunktion hat, umgekehrt ist jedes endliche Spiel, welches eine exakte Potentialfunktion
besitzt, isomorph zu einem Auslastungsspiel.<ref>Dov Monderer, Lloyd S. Shapley: [http://www.cs.bu.edu/~steng/teaching/Fall2008/potential.pdf ''Potential Games''] In: ''Games and Economic Behaviour.'' Nr. 14, 1996, S. 124–143</ref>

== Eigenschaften ==

Jedes endliche Spiel mit Ordnungspotenzial besitzt ein Nash-Gleichgewicht in reinen Strategien.

Zwei Potenzialfunktionen <math>P_1</math> und <math>P_2</math> eines Spiels unterscheiden sich nur durch eine Konstante:
:<math>P_1(\sigma) = P_2(\sigma) + c</math>
Das bedeutet, dass für zwei Strategiekombinationen <math>\sigma^*</math> und <math>\sigma^{**}</math> gilt
:<math>P_1(\sigma^*) - P_1(\sigma^{**}) = P_2(\sigma^*) - P_2(\sigma^{**})</math>

== Quellen ==

<references/>

[[Kategorie:Spieltheorie]]

Potenzial (Spieltheorie)

2014-03-20T16:20:56Z

Mathmon:

Ein '''Ordnungspotenzial''' oder eine '''Ordnungspotenzialfunktion''' ist in der [[Spieltheorie]] eine spezielle [[Funktion (Mathematik)|Funktion]] auf der Menge der [[Strategiekombination]]en eines [[Spiel (Spieltheorie)|Spiels]]. Durch diese Funktion werden die Strategiekombination nach ihrer [[Auszahlung]] an die Spieler angeordnet. Eine Strategiekombination besitzt dabei genau dann einen höheren Wert, wenn sie für jeden Spieler zu einer höheren Auszahlung führt. Indem man Ordnungspotenzialfunktion strenger an die Auszahlungsfunktionen bindet, erhält man die Spezialfälle des '''gewichteten Potenzials''' und des '''exakten Potenzials'''. Letzteres wird auch einfach nur als '''Potenzial''' oder '''Potenzialfunktion''' bezeichnet.

Die meisten Spiele besitzen allerdings kein Ordnungpotenzial. Von [[Dov Monderer]] wurden deshalb 1988 bzw. 1996 die folgenden Klassen von Spielen eingeführt:<ref>Dov Monderer, Lloyd S. Shapley: [http://ie.technion.ac.il/~dov/potential.pdf ''Potential Games.''] (PDF; 200 kB) Games and Economic Behavior 14, 1996, S. 124–143</ref>
* '''Spiel mit Ordnungspotenzial'''
* '''Spiel mit gewichtetem Potenzial'''
* '''Spiel mit (exaktem) Potenzial'''

Eine Potenzialfunktion wurde bei Spielen erstmals 1973 von [[Robert W. Rosenthal]] eingesetzt, um zu zeigen, dass [[Auslastungsspiel]]e ein [[Nash-Gleichgewicht|Nash-Gleichgewicht in reinen Strategien]] besitzen.<ref>Robert W. Rosenthal: [http://www.springerlink.com/index/J5T4730452755627.pdf ''A Class of Games Possessing Pure-Strategy Nash Equilibria.''] In: ''International Journal of Game Theory.'' Nr. 2, 1973, S. 65–67</ref>

== Definition ==

Bei allen drei Definitionen sei <math>\Gamma = (N, \Sigma, u)</math> ein Spiel in [[Normalform (Spieltheorie)|Normalform]]. Weiter sei <math>\sigma \in \Sigma</math> ein beliebiges aber festes Strategieprofil und
<math>\sigma' := (\sigma^{-i}, \sigma_i')</math> das Profil, das durch den Wechsel der Strategie eines Spielers <math>i \in N</math> von <math>\sigma_i</math> zu <math>\sigma_i'</math> entsteht.

=== Ordnungspotenzial ===

Eine Ordnungspotenzialfunktion <math>P</math> ist eine Funktion <math>P: \Sigma \rightarrow \R</math>, für die gilt, dass

:<math>u_i(\sigma') - u_i(\sigma) > 0 \quad \Leftrightarrow \quad P(\sigma') - P(\sigma) > 0</math>

=== Gewichtetes Potenzial ===

Eine gewichtete Potenzialfunktion <math>P</math> ist eine Funktion <math>P: \Sigma \rightarrow \R</math>
bei der für jeden Spieler <math>i \in N</math> eine Zahl <math>w_i > 0</math> existiert, sodass stets gilt, dass

:<math>u_i(\sigma') - u_i(\sigma) = w_i \cdot (P(\sigma') - P(\sigma))</math>

In diesem Fall nennt man <math>\Gamma</math> ein gewichtetes Potenzialspiel. Die Gewichte <math>w_1, w_2, \ldots, w_n</math> bilden einen Vektor <math>w</math>. Kennt man diese Zahlen, so nennt man <math>P</math> ein <math>w</math>-Potenzial und spricht von einem Spiel mit <math>w</math>-Potenzial.

=== Exaktes Potenzial ===

Eine (exakte) Potenzialfunktion <math>P</math> ist eine Funktion für die gilt, dass

:<math>u_i(\sigma') - u_i(\sigma) = P(\sigma') - P(\sigma)</math>

Die exakte Potenzialfunktion ist also ein Spezialfall einer gewichteten Potenzialfunktion, bei der alle Gewichte <math>w_i = 1</math> sind.

== Eigenschaften ==

Jedes endliche Spiel mit Ordnungspotenzial besitzt ein Nash-Gleichgewicht in reinen Strategien.

Zwei Potenzialfunktionen <math>P_1</math> und <math>P_2</math> eines Spiels unterscheiden sich nur durch eine Konstante:
:<math>P_1(\sigma) = P_2(\sigma) + c</math>
Das bedeutet, dass für zwei Strategiekombinationen <math>\sigma^*</math> und <math>\sigma^{**}</math> gilt
:<math>P_1(\sigma^*) - P_1(\sigma^{**}) = P_2(\sigma^*) - P_2(\sigma^{**})</math>

== Quellen ==

<references/>

[[Kategorie:Spieltheorie]]

Benutzer Diskussion:Mathmon

2013-07-12T08:57:42Z

Mathmon:

== Herzlich willkommen in der Wikipedia, Mathmon! ==
Ich habe gesehen, dass [[Wikipedia:Warum sich hier alle duzen|du]] dich kürzlich hier angemeldet hast und möchte dir ein paar Tipps geben, damit du dich in der Wikipedia möglichst schnell zurechtfindest:
{| class="hintergrundfarbe5" style="width:100%;padding:0.5em"
! style="border-right:0.1em solid #888" | [[Hilfe:Neu bei Wikipedia|Neu bei Wikipedia]]
! style="border-right:0.1em solid #888" | [[Wikipedia:Tutorial|Tutorial]] 
! style="border-right:0.1em solid #888" | [[Wikipedia:Wie schreibe ich gute Artikel|Gute Artikel schreiben]]
! style="border-right:0.1em solid #888" | [[Wikipedia:Mentorenprogramm|Persönliche Betreuung]]
! [[Wikipedia:Fragen von Neulingen|Noch Fragen? Hier klicken!]]
|}
[[Datei:Signaturhinweis deutsch vector.png|rechts|gerahmt|Diskussionsbeiträge sollten immer mit Klick auf diese Schaltfläche [[Hilfe:Signatur|unterschrieben]] werden – Beiträge zu [[Wikipedia:Artikel|Artikeln]] hingegen nicht.]]
* [[Wikipedia:Sei mutig|Sei mutig]], aber vergiss bitte nicht, dass andere Benutzer auch Menschen sind. Daher wahre bitte immer einen [[Wikipedia:Wikiquette|freundlichen Umgangston]], auch wenn du dich mal über andere ärgerst.
* Bitte gib bei Artikelbearbeitungen möglichst immer eine [[Wikipedia:Belege|Quelle]] an (am besten als [[Hilfe:Einzelnachweise|Einzelnachweis]]) und begründe deine Bearbeitung kurz in der [[Hilfe:Zusammenfassung und Quellen|Zusammenfassungszeile]]. Damit vermeidest du, dass andere Benutzer deine Änderung rückgängig machen, weil sie diese nicht nachvollziehen können.
* Nicht alle Themen und Texte sind für eine Enzyklopädie wie die Wikipedia geeignet. Enttäuschungen beim Schreiben von Artikeln kannst du vermeiden, wenn du dir zuvor [[Wikipedia:Was Wikipedia nicht ist]] und [[Wikipedia:Relevanzkriterien]] anschaust.
* [[Hilfe:Übersicht]] zeigt dir den Zugang zu allen Hilfethemen.
* [[Hilfe:Glossar]] informiert dich, wenn du Abkürzungen oder Ausdrücke in den [[Hilfe:Zusammenfassung und Quellen|Editkommentaren]] oder auf Diskussionsseiten nicht verstehst.
Schön, dass du zu uns gestoßen bist – und: Lass dich nicht stressen.

Einen guten Start wünscht dir --[[Benutzer:Asturius|Asturius]] ([[Benutzer Diskussion:Asturius|Diskussion]]) 20:55, 25. Okt. 2012 (CEST)
:Bei weiteren Fragen kannst du dich auch gerne an das [[Portal:Mathematik]] wenden! --[[Benutzer:Asturius|Asturius]] ([[Benutzer Diskussion:Asturius|Diskussion]]) 20:55, 25. Okt. 2012 (CEST)

Gleichgewicht in korrelierten Strategien

2013-05-17T15:25:06Z

Mathmon: /* Formale Definition des Gleichgewichtes in korrelierten Strategien */

[[Datei:ישראל אומן 2010.jpg|thumb|Robert Aumann 2010]]

Das '''Gleichgewicht in korrelierten Strategien''' (auch ''Correlated equilibrium''-Konzept<ref name="JOME">Aumann, Robert:''Subjectivity and Correlation in Randomized Strategies.'' Journal of Mathematical Economics 1, 1974: S. 67-96.</ref>) ist ein vom Mathematiker [[Robert Aumann]] entwickeltes [[Lösungskonzept]], durch das im Rahmen der [[Spieltheorie]] eine Harmonisierung der [[Strategie (Spieltheorie)|Strategien]] möglich wird.<ref>Holler, Manfred/ Illing, Gerhard: ''Einführung in die Spieltheorie.''6., überarbeitete Auflage, Springer Verlag, Berlin und Heidelberg, 2006: S. 87ff.</ref> Im Gegensatz zum [[Nash-Gleichgewicht]], das weder bindende Verträge noch Kommunikation vor dem Entscheidungstreffen der beteiligten Spieler zulässt und somit die Strategiewahl des einen von der Strategiewahl des anderen Spielers unberührt bleibt, ermöglicht das ''Gleichgewicht in korrelierten Strategien'' eine [[Korrelation|Korrelierung]] der Strategien untereinander.

== Überblick ==
Die Grundidee erlaubt die Betrachtung der gemeinsamen Randomisierungen der Spieler über die [[Strategie (Spieltheorie)|Strategiemenge S]] und die Offenlegung der korrelierten Strategien (eng. correlated strategies).<ref name="JOME" />Zu Anschauungszwecken wird sehr oft ein öffentlicher [[Münzwurf|Wahrscheinlichkeitsmechanismus]] unterstellt (eng. correlation device)<ref name="JOME" />, an dem die Spieler ihre Strategie ausrichten. Dies kann zum Beispiel ein einfacher Münzwurf sein. Hier wird correlation device streng im Sinne des ''public correlation device'' verwendet. In Abgrenzung dazu sei erwähnt, dass je nach wissenschaftlicher Fragestellung, die Verwendung eines ''private correlation device'' möglich ist.<ref>Bone, John/ Drouvelis, Micaelis/ Ray, Indrajit: ''Avoiding Coordination-Failure using Correlation Devices: Experimental Evidences.'' Department of Economics, University of Michigan, letzte Version September 2011: S. 1-13. Verfügbar auf: http://www.isid.ac.in/~pu/conference/dec_11_conf/Papers/IndrajitRay.pdf</ref>

Das Aumannsche Konzept stellt ein stärkeres Gleichgewichtskonzept als das von [[John Forbes Nash Jr.|John Nash]] dar. Für die Spieler resultiert, selbst im Falle, dass keine bindenden Verträge möglich sind, ein höheres [[Feiglingsspiel|Auszahlungspotential]]. Ein Gleichgewicht nach Nash in [[Gemischte Strategie|gemischten Strategien]] kann demnach als eine stabile Situation begriffen werden, welche die Randomisierung der Strategien auf unkorrelierte Art und Weise, also im statistisch unabhängigen Modus impliziert.

Das große Verdienst von Aumann besteht darin, dass er die Starrheit des Konzeptes von Nash aufgehoben hat, und zwar durch seine Beweisführung, dass eine Randomisierung der Spieler, die einem gemeinsamen Zufallsmechanismus folgt und somit die Randomisierung der Strategien im statistisch abhängigen Modus korreliert, beide Spieler besser stellen kann.<ref>
Aumann, Robert: [http://ideas.repec.org/a/ecm/emetrp/v55y1987i1p1-18.html ''Correlated Equilibrium as an Expression of Bayesian Rationality.''] [http://ideas.repec.org/s/ecm/emetrp.html Econometrica], Econometric Society, Vol. 55, No. 1, 1987: S. 1-6.</ref>
Vorausgesetzt, die Beteiligten sind gewillt, sich auf einen gemeinsamen Mechanismus bezüglich der Definition der Strategienmischung zu einigen, und sofern unter dieser Prämisse keine Verbesserung durch das Zurückgreifen auf unkorrelierte Strategien möglich ist, spricht man von einem ''Gleichgewicht in korrelierten Strategien''.

== Beispiel ==
Das ''Gleichgewicht in korrelierten Strategien'' wird am Beispiel des Problems „[[Kampf der Geschlechter]]“ illustriert.

=== Modellannahmen ===
Das [[Modell]] geht zunächst von der Annahme aus, dass beide Spieler an einem ihnen wohlbekannten Spiel teilnehmen. Bevor dieses beginnt, bekommen beide ein Signal zugewiesen, dass die [[Spiel mit dem Untergang|Nutzeneinheiten]] selbst nicht verändert, sehr wohl aber, da beide Spieler ihre Strategien korrelieren, d.h. aufeinander abstimmen können, den Ausgang des Spieles und somit den erhaltenen Nutzen jeden Spielers.<ref>Holler, Manfred/ Illing, Gerhard: ''Einführung in die Spieltheorie.'' 6., überarbeitete Auflage, Springer Verlag, Berlin und Heidelberg, 2006: S. 88.</ref>

Von entscheidender Bedeutung beim Konzept von Aumann ist die Existenz eines unabhängigen Koordinators, der jedem Spieler seine Strategie zuweist. Diesem vertrauen beide Spieler, denn sie haben in dem Modell schließlich die Gewissheit, dass es sich bei der vorgeschlagenen Strategie um ein Gleichgewicht handelt. Somit ist es für keinen Spieler lohnend, von der vorgeschlagenen Strategie abzuweichen.<ref>Hart, Sergiu: ''Robert Aumann's Game and Economic Theory''. Scandinavian Journal of Economics, Vol. 108, No. 2, July 2006: S. 202. Verfügbar auf: http://www.ma.huji.ac.il/hart/papers/aumann-n.pdf</ref>

=== Modell ===
Das bekannte Spiel [[Kampf der Geschlechter]] wird mittels einer [[Spieltheorie#Darstellungsformen|Bimatrix]] dargestellt:

{| border="1"
|
|
! colspan="2" align="center" | Frau
|-
|
|
! Fußball (s21)
! Ballett (s22)
|-
! rowspan="2" align="center" | Mann
! Fußball (s11)
| align="center" | 3/1
| align="center" | 0/0
|-
! Ballett (s12)
| align="center" | 0/0
| align="center" | 1/3
|}

Die reinen Nash-Gleichgewichte sind {Fußball,Fußball} und {Ballett, Ballett}. Die Wahrscheinlichkeit, dass einer der Spieler mit seiner Vermutung, welches der beiden obigen Gleichgewichte vom anderen Spieler gewählt wird, richtig liegt, ist in einer Welt ohne Absprache gering.

Abweichung davon ist beispielsweise in einer Umgebung möglich, in der die Männer die Frauen dominieren, so dass sich das Ehepaar immer auf den Besuch des Fußballspieles einigt; dieser sogenannte [[Fokaler Punkt|Focus-Punkt-Effekt]] (eng. focal-point effect) wurde von dem US-amerikanischen Ökonomen und Nobelpreisträger [[Thomas Schelling]] in seinem einflussreichen Buch über die Sozialtheorie ''Strategy of Conflict(1960)'' beschrieben und somit auf den Einfluss von Umwelt- und Kulturfaktoren auf das rationale Verhalten hingewiesen<ref>Myerson, Roger: ''Learning from Schelling's strategy of conflict''. Department of Economics, University of Chicago, letzte Version April 2009: S. 5. Verfügbar auf: http://home.uchicago.edu/~rmyerson/research/stratofc.pdf</ref>.

=== Möglichkeiten zur Modellierung von strategischer Unsicherheit ===
[[Unsicherheit|Strategische Unsicherheit]] liegt bei einem Spiel also dann vor, wenn weder die Möglichkeit expliziter, d.h. verbaler noch impliziter [[Kommunikation]], wie sie zum Beispiel im kulturellen Kontext durch Gewohnheiten mehr oder minder stark determiniert ist, existiert. Dies macht den Rückgriff auf alternative Lösungskonzepte notwendig.

Die erste Lösungsmöglichkeit geht auf John Nash zurück und stellt die klassische Betrachtung eines [[Gemischte Strategie|Gleichgewichtes in gemischten Strategien]] dar. In der obigen Bimatrix liegt ein Gleichgewicht in gemischten Strategien nach Nash in <math>\textstyle s_{11}=\frac{3}{4}</math> und <math>\textstyle s_{12}=\frac{1}{4}</math> vor, jedoch beträgt die erwartete Auszahlung hierbei nur 0,75, und zwar sowohl für den Mann als auch für die Frau.<ref>[http://www.gametheory.net/Mike/applets/NormalForm/NormalForm.html] Java-Aplett zur Lösung von Normalformspielen</ref>Somit bekommt jeder weniger als das, was in den beiden Nash-Gleichgewichten beim Spielen von [[Reine Strategie|reinen Strategien]]möglich ist.

Gegeben dem Fall also, dass sich die Spieler, in diesem Fall das Paar darauf einigen könnte, zusammen eines von zweien Nash-Gleichgewichten in reinen Strategien zu spielen und sich somit jeweils einen erwarteten Nutzen von 2 zu sichern, so wäre die Absprache und zwar auch ohne einen bindenden [[Vertrag]] stabil, denn weder der Mann noch die Frau hätten einen Anreiz abzuweichen. Die Kommunikation erweist sich somit als äußerst vorteilhaft und ebnet den Weg zu der zweiten Lösungsmöglickeit, nämlich dem Gleichgewicht in korrelierten Strategien, dem Kernstück von Aumanns Arbeit.

Dieses kann über verschiedene Mechanismen implentiert werden. Zum einen kann sich das Ehepaar im Vorfeld darauf einigen bei schönem Wetter zu einem Fußballspiel und bei schlechtem Wetter ins Ballett zu gehen oder um auf den Münzwurf zu Beginn zurückzukommen, das Vorhandensein eines vertrauenswürdigen Vermittlers, bei dem beide davon ausgehen können, dass die vorgeschlagene Strategie ein Gleichgewicht ist und der dem Ehepaar bei Kopf zum Fußball und bei Zahl zum Ballett rät, also zum Spielen von <math>(s_{11}, s_{21})</math> oder alternativ <math>(s_{12}, s_{22})</math>.

Da die Wahrscheinlichkeit sowohl für Kopf als auch für Zahl im Falle einer perfekten Münze jeweils <math>\textstyle \frac{1}{2}</math> ist, sind demnach <math>(s_{11}, s_{21})</math> und <math>(s_{12}, s_{22})</math>, bevor Kopf oder Zahl gefallen ist, gleich wahrscheinlich.

== Mathematische Darstellung ==

=== Vorüberlegungen zu privaten und nicht privaten Signalen ===

Wie in den obigen Abschnitten bereits erläutert worden ist, kann das Konzept des Nash-Gleichgewichts in gemischten Strategien zur Modellierung von Spielen mit nicht deterministischen Spielerstrategien und vorgeschriebenen Wahrscheinlichkeitsverteilungen dieser Strategien verwendet werden.<ref>Osborne, Martin J./ Rubinstein, Ariel: ''A Course in Game Theory.'' MIT Press Books, The MIT Press, edition 1, Vol 1, No. 0262650401, 1994: S. 31, 32, 38.</ref> Das Nash-Gleichgewicht in gemischten Strategien darf folglich als eine stationäre Situation aufgefasst werden, in der die Spieler ihre reinen Strategien von einem von außen kommendem, privaten und voneinander unabhängigen [[Signal]] abhängig machen.<ref>Osborne, Martin J./ Rubinstein, Ariel: ''A Course in Game Theory.'' MIT Press Books, The MIT Press, edition 1, Vol. 1, No. 0262650401, 1994: S. 39-41.</ref>

Aumanns Arbeit geht dagegen von der Prämisse aus, dass es in korrelierten Gleichgewichten Abhängigkeiten zwischen den Spielersignalen gibt, da diese nicht mehr privat sind.<ref>Hart, Sergiu: ''Robert Aumann's Game and Economic Theory''. Scandinavian Journal of Economics, Vol. 108, No. 2, July 2006: S. 202-204.</ref>Dies impliziert die Optimalität der reinen Strategie eines jeden Spielers, sobald die Informationen der Spieler bekannt sind.

=== Definitionen ===

Im folgenden wird ein Überblick über die mathematischen Aspekte von Aumanns Konzept vermittelt.

==== Definition der korrelierten Strategie ====

Zunächst wird die Definition der korrelierten Strategie selbst gegeben. Wenn die [[Wahrscheinlichkeitsverteilung]] <math>w(s)</math>

* gemeinsames Wissen aller Spieler ist
* und wenn für diese über die Strategiemenge <math>S</math> aus allen reinen Strategiekombinationen <math>\textstyle \sum w(s)=1</math> und <math>w(s) \ge 0</math> für alle <math>s \in S_i</math> gilt,

dann nennt man <math>w(s)</math> eine korrelierte Strategie.<ref>Holler, Manfred/ Illing, Gerhard: ''Einführung in die Spieltheorie.'' 6., überarbeitete Auflage, Springer Verlag, Berlin und Heidelberg, 2006: S. 89.</ref>

==== Formale Definition des Gleichgewichtes in korrelierten Strategien ====

Ein strategisches <math>N</math>-Spieler-Spiel <math>\displaystyle (N,S_i,u_i)</math> sei charakterisiert durch die möglichen Handlungen <math>\displaystyle S_i</math> and die [[Nutzenfunktion]] <math>u_i</math> für jeden Spieler <math>i</math>. Falls der Spieler <math>i</math> die Strategiewahl <math>s \in S_i</math> des zugrundeliegenden Spiels trifft und die nachfolgenden Spieler eine Strategie wählen, die durch das <math>N-1</math>-Tupel <math>\displaystyle s_{-i}</math> charakterisiert ist, dann sei der Nutzen des Spielers <math>i</math> mit <math>\displaystyle u_i(s_i,s_{-i})</math> bezeichnet. Eine Modifikation der Strategie für jeden Spieler <math>i</math> sei durch die Funktion <math>\displaystyle \phi : S_i \to S_i</math> dargestellt, folglich ist der Spieler <math>i</math> in der Lage gemäß <math>\displaystyle \phi</math> seine Handlungen zu modifizieren, d.h. auf die Anweisung<math>\displaystyle s_i</math> zu spielen folgt <math>\displaystyle \phi(s_i)</math>. 
Gegeben sei ein endlicher [[Wahrscheinlichkeitsraum]] <math>\displaystyle(\Omega, \pi)</math>, wobei <math>\displaystyle\Omega</math> die Menge der Zustände und <math>\displaystyle\pi</math> ein [[Wahrscheinlichkeitsmaß]] auf <math>\displaystyle\Omega</math> ist. 

Des Weiteren sei für jeden Spieler <math>i</math>
* <math>\displaystyle P_i</math> dessen [[Informationspartition]],
* die Strategie <math>\displaystyle s_i:\Omega\rightarrow S_i</math> sei innerhalb derselben Informationspartition des Spielers <math>i</math> enthalten
* und <math>\displaystyle q(w)</math> die Wahrscheinlichkeitsverteilung.

Dann stellt <math>\displaystyle((\Omega, \pi),P_i)</math> ein korreliertes Gleichgewicht eines strategischen Spieles <math>\displaystyle (N,S_i,u_i)</math> für jeden Spieler <math> i</math> und für jede Modifikation der Strategie <math>\phi</math> dar, falls gilt:

:<math>\displaystyle\sum_{\omega \in \Omega} q(\omega)u_i(s_i, s_{-i}) \geq \sum_{\omega \in \Omega} q(\omega)u_i(\phi(s_i), s_{-i}).</math><ref>Osborne, Martin J./ Rubinstein, Ariel: ''A Course in Game Theory.'' MIT Press Books, The MIT Press, edition 1, Vol. 1, No. 0262650401, 1994: S. 45.</ref>

Oder einfacher ausgedrückt: <math>\displaystyle((\Omega, \pi),P_i)</math> ist ein korreliertes Gleichgewicht, falls kein Spieler seinen erwarteten Nutzen mittels einer Strategiemodifikation ändern kann und somit um auf das Ursprungsmodell zurückzukommen, keinen Anreiz zum Abweichen von der vorgeschlagenen Strategie hat.

==== Zusammenhang zwischen dem Nash-Gleichgewicht und dem Gleichgewicht in korrelierten Strategien ====

Für jedes Nash-Gleichgewicht gilt, dass es ein Spezialfall des Gleichgewichtes in korrelierten Strategien darstellt. Die Besonderheit liegt in der Unabhängigkeit der Wahrscheinlichkeiten bei der Wahl von Strategien durch verschiedene Spieler. Die Wahrscheinlichkeiten zeigen hier keine Korrelation. So gilt in einem 2-Personen-Spiel für 2 Spieler: <math>\displaystyle w(s)= w(s_1)*w(s_2)</math>.<ref>Holler, Manfred/ Illing, Gerhard: ''Einführung in die Spieltheorie.'' 6., überarbeitete Auflage, Springer Verlag, Berlin und Heidelberg, 2006: S. 89.</ref>

Da reine Nash-Gleichgewichte durch konvexe Kombination wiederum ein Gleichgewicht in korrelierten Strategien ergeben, kann ihre Menge größer als die der Nash-Gleichgewichte sein.

Erwähnenswert zudem ist noch die Verwandtschaft der korrelierten Gleichgewichte mit [[Sunspot-Gleichgewichten]] aus der [[Rationale Erwartung|Theorie der rationalen Erwartungen]].<ref>Holler/Illing (2006): S. 90.</ref>

==== Effiziente korrelierte Strategien ====

Nun wird in den folgenden Ausführungen anhand des beliebten [[Feiglingsspiel|Feiglingsspiels (eng. Chicken Game)]] erläutert, was eine effiziente korrelierte Strategie ist. Im Feiglingspiel geht es darum, dass zwei sozial fehlgeleitete Jugendliche in zwei Autos aufeinander zurasen. Wer von beiden in dieser Mutprobe als erster ausweicht, wird vom Rest der Clique als Feigling betrachtet. Weicht jedoch keiner aus, sterben beide in einem Feuerball beim Aufeinanderprallen. Zunächst sei darauf hingewiesen, dass beim Feiglingsspiel die Auszahlungsstruktur bezüglich derer von Battle of Sexes durch das Vorhandensein einer [[Pareto-optimal|pareto-optimalen]] [[Kampf der Geschlechter|symmetrischen Auszahlungskombination]], die eine höhere Auszahlungssumme verspricht, differiert.<ref>Sen, Sandip/ Airiau, Stephane/ Mukherjee, Rajatish: ''Towards a Pareto-optimal Solution in General-Sum Games'', Proceedings of the Second International Joint Conference on Autonomous Agents and Multiagent Systems, Melbourne, Australia, July 2003: S. 153-160. Verfügbar auf: http://dl.acm.org/citation.cfm?id=860600</ref>

Hier die Bimatrix:

{| border="1"
|
|
! colspan="2" align="center" | Spieler 2
|-
|
|
! Ausweichen (s21)
! Weiterfahren (s22)
|-
! rowspan="2" align="center" | Spieler 1
! Ausweichen (s11)
| align="center" | 3/3
| align="center" | 1/4
|-
! Weiterfahren (s12)
| align="center" | 4/1
| align="center" | 0/0
|}

<math>(s_{11}, s_{22})</math> und <math>(s_{12}, s_{21})</math>, die beiden Gleichgewichte in reinen Strategien, werden bei einem Zufallsmechanismus wie z.B. dem Münzwurf mit gleicher Wahrscheinlichkeit gewählt, nämlich <math>\textstyle \frac{1}{2}</math>, doch kann man beim Chicken Game mit einem raffinierteren Vorgehen die höhere pareto-optimale Auszahlungskombination (3,3) realisieren und zwar:

* Beide Spieler kennen die Wahrscheinlichkeiten für die Strategiekombinationen.
* Nachdem die Zufallsvariable realisiert worden ist, erfährt jeder Spieler, welche Strategie er spielen soll. Jeder von beiden ist jedoch im Ungewissen über den Strategie des anderen.

Angenommen, die Wahrscheinlichkeitsverteilung <math>w(s_{11}, s_{21})=0,2</math> und <math>w(s_{11}, s_{22})=w(s_{12}, s_{21})=0,4</math> liegt vor und Spieler 1 bekommt die Anweisung die Strategie <math>s_{11}</math> zu wählen. Er antizipiert dann, dass der Spieler 2 mit einer [[Bedingte Wahrscheinlichkeit|bedingten Wahrscheinlichkeit]] von <math>\textstyle \frac{2}{3}</math> die Strategie <math>s_{22}</math> wählt. Spieler 1 könnte auf <math>s_{12}</math> abweichen und sich <math>\textstyle \frac{1}{3}*4+</math> <math>\textstyle \frac{2}{3}*0=</math>
<math>\textstyle \frac{4}{3}</math> sichern, doch das Spielen der Strategie <math>s_{11}</math> ergibt <math>\textstyle \frac{1}{3}*3+</math> <math>\textstyle \frac{2}{3}*1=</math><math>\textstyle \frac{5}{3}</math> an erwarteter Auszahlung.

Gegeben sei jetzt der Fall, dass <math>w(s_{11}, s_{21})=0,5</math> und <math>w(s_{11}, s_{22})=w(s_{12}, s_{21})=0,25</math>. Falls der Spieler 2 nun die Empfehlung bekommt auszuweichen, wird er antizipieren, dass Spieler 1 mit einer bedingten Wahrscheinlichkeit von <math>\textstyle \frac{2}{3}</math> auch Ausweichen spielt. In diesem Fall aber gebe es für den Spieler 2 überhaupt keinen Anreiz sich an die Empfehlung, die ihm vom correlation device gegeben wird, zu halten.

An den obigen Ausführungen sieht man, dass es zu einer Maximierung der Auszahlungen kommt, falls durch die Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit für <math>(s_{11}, s_{21})</math> hoch genug festgelegt wird, aber es gleichzeitig für die Spieler keinen Grund zum Abweichen von der Vorgabe des correlation device gibt. Andernfalls ist die korrelierte Strategie nicht effizient.<ref>Holler/Illing (2006): S. 91, 92.</ref>

Das obige Beispiel kann in formale mathematische Sprache zusammengefasst werden. Die Ermittlung effizienter korrelierter Strategien erfolgt durch die Maximierung des gewichteten Nutzen aller Spieler, wobei die Ungleichung 

<math>\displaystyle\sum_{\omega \in \Omega} q(\omega)u_i(s_i, s_{-i}) \geq \sum_{\omega \in \Omega} q(\omega)u_i(\phi(s_i), s_{-i})</math> erfüllt sein muss.<ref>Osborne, Martin J./ Rubinstein, Ariel: ''A Course in Game Theory.'' MIT Press Books, The MIT Press, edition 1, Vol. 1, No. 0262650401, 1994: S.45-48.</ref> Es handelt sich naturgemäß um ein einfaches konvexes lineares Optimierungsproblem, da Linearität in <math>w</math> sowohl für die Beschränkung als auch für die Zielfunktion festgestellt werden kann.<ref>Holler/Illing (2006): S. 93.</ref>

== Anwendung von Aumanns Gleichgewichtskonzept auf andere Bereiche ==

Das Gleichgewichtskonzept fand und findet immer noch in vielen anderen Gebieten der wissenschaftlichen Forschung regen Anklang.

=== Aumanns Vorarbeit mündet im Agreement Theorem ===

Aumann begründete mit seinem 1976 verfassten Theorem der Unmöglichkeit der Einigkeit über die Uneinigkeit (eng. The Agreement Theorem)<ref>Aumann, Robert: ''Agreeing to disagree.'' Annals of Statistics Vol. 4, No. 6, 1976: S. 1236-1239. Verfügbar auf: http://www.jstor.org/stable/2958591</ref> die [[Interaktive Epistemologie|interaktive Wissensalgebra]] und legte somit den Grundstein für weitere Forschungsarbeit in der Philosophie, der Logik, der Ökonomie und vielen anderen Bereichen der Wissenschaft.<ref>Hart, Sergiu: ''Robert Aumann's Game and Economic Theory''. Scandinavian Journal of Economics, Vol. 108, No. 2, July 2006: S. 205.</ref> Ihm gelang es über eine formale Definition des ''gemeinsames Wissens'' zu beweisen, dass es für zwei Individuen nicht möglich ist sich darauf zu einigen sich nicht einig zu sein und zwar im folgenden Sinne:

Gegeben sei der Fall, dass die Spieler über eine gemeinsame [[A-priori-Verteilung|A-priori-Wahrscheinlichkeitsverteilung]]verfügen. Falls zudem die [[A-posteriori-Wahrscheinlichkeit|Wahrscheinlichkeiten a posteriori]] für ein Ereignis E gemeinsames Wissen beider Spieler darstellen, so müssen auch diese A-posteriori-Wahrscheinlichkeiten identisch sein.

=== Brückenschlag zum Bayes`schen rationalen Verhalten ===

Im Jahr 1987 gelang es Aumann schließlich durch seine oben erörterte Vorarbeit einen Brückenschlag zum [[Perfektes Bayessches Gleichgewicht|Bayes`schen rationalen Verhalten]] zu bewältigen.<ref>Aumann, Robert: [http://ideas.repec.org/a/ecm/emetrp/v55y1987i1p1-18.html '''''Correlated Equilibrium as an Expression of Bayesian Rationality.'''''] [http://ideas.repec.org/s/ecm/emetrp.html Econometrica], Econometric Society, Vol. 55, No. 1, 1987: S. 1-18.</ref> Ein Spieler handelt dann rational im Sinne von Bayes, wenn seine Handlung optimal gegeben seine Information ist.
Das von Aumann in diesem Zusammenhang aufgestellte Theorem postuliert folgendes:

Gegeben sei ein Spiel, welches die Spieler mit gleichen Einschätzungen (eng. beliefs) beginnen, aber im Laufe des Spiels unterschiedliche Informationen erhalten. Wenn es gemeinsames Wissen (eng. common knowledge) darstellt, dass sich alle Spieler rational im Sinne von Bayes verhalten, dann spielen diese ein korreliertes Gleichgewicht des Spieles. Oder anders ausgedrückt: Gleichgewichte in korrelierten Strategien sind als Ergebnis Bayes`schen rationalen Verhaltens zu betrachten. Aumann selbst postuliert in seinem Haupttheorem dieser Arbeit: "''If each player is Bayes rational at each state of the world, then the distribution of the action n-tuple s is a correlated equilibrium distribution.''"<ref>Aumann, Robert: [http://ideas.repec.org/a/ecm/emetrp/v55y1987i1p1-18.html '''''Correlated Equilibrium as an Expression of Bayesian Rationality.'''''] [http://ideas.repec.org/s/ecm/emetrp.html Econometrica], Econometric Society, Vol. 55, No. 1, 1987: S. 7.</ref>, was in Deutschem etwas weniger formal weiter oben wiedergegeben wurde.

=== Bedeutung von correlated equilibrium in Situationen mit Informationsasymmetrie ===

Eine besondere Bedeutung kommt Gleichgewichten in korrelierten Strategien in Situationen zu, die beispielsweise im [[Versicherung (Kollektiv)|Versicherungswesen]] mit [[Moral Hazard]] bzw. [[Adverse Selektion|adverser Selektion]] in Verbindung gebracht werden. Moral Hazard oder eingedeutscht moralisches Risiko/Wagnis ist auf die [[Asymmetrische Information|versteckte Handlung (eng. hidden action)]] zurückzuführen, im Falle der adversen Selektion spielt vor allem die [[Asymmetrische Information|versteckte Information (eng. hidden information)]], sehr gut am [[Saure-Gurken-Problem|Lemons-Problem]] von [[George A. Akerlof]] dargestellt, die tragende Rolle.<ref>Guesnerie, Roger/ Picard, Pierre/ Rey, Patrick : ''Adverse selection and moral hazard with risk-neutral agents.'' European Economic Review, Vol. 33, No. 4, 1989: S. 807-823. Verfügbar auf: http://www.sciencedirect.com/science/article/pii/0014292189900275</ref> Beide können, da Nicht-Beobachtbarkeit und/oder Nicht-Kontrahierbarkeit von Interaktionssituationen vorliegen, zum [[Marktversagen]] führen.<ref>Pindyck, S. Robert/ Rubinfeld, L. Daniel: ''Mikroökonomie.'' Pearson Education, 2009: S. 803.</ref>

Es ist zu beachten, dass Aumann das Konzept des ''correlated equilibrium'' hauptsächlich auf die reine Moral Hazard-Problematik bezieht, während das Konzept von Bayes zu Beginn vorwiegend mit dem Problemfeld der Adversen Selektion in Verbindung gebracht wurde. Der US-amerikanische Nobelpreisträger [[Roger B. Myerson]] führte beide im ''Bayesian incentive-compatible mechanism'' zusammen.<ref>Myerson, B. Roger: ''Multistage Games with Communication.'' [http://ideas.repec.org/s/ecm/emetrp.html Econometrica], Econometric Society, Vol. 54, No. 2, März 1986: S. 323-358. Verfügbar auf: http://www.jstor.org/sici?sici=0012-9682%28198603%2954%3A2%3C323%3AMGWC%3E2.0.CO%3B2-P</ref>

Die große Bedeutung von Aumanns Arbeit liegt darin, dass über das Gleichgewicht in korrelierten Strategien eine Lösung für die Anreizverträglichkeit von Verträgen angeboten wird, so dass trotz der vorliegenden Informationsasymmetrie eine derartige Gestaltung von Verträgen und die damit verbundene Anreizsetzung gelingt, so dass es sich für die Spieler lohnt sich an die Vereinbarungen zu halten. Die Suche nach den anreizverträglichen Mechanismen ist dann laut [[Manfred Holler|Holler]]/Illing gleichbedeutend "''mit der Bestimmung effizienter Bayes`scher Gleichgewichte in korrelierten Strategien.''" <ref>Holler/Illing (2006): S. 94.</ref>

"''Wenn es überhaupt eine direkte Anwendungsmöglickeit der Spieltheorie für die Praxis der Kapitalmärkte gibt, dann diese: Das Entscheidende an der Spieltheorie und allen ökonomischen Anwendungen ist das Anreizsystem. Anreize sind die Antriebskraft für alle wirtschaftlichen Aktivitäten - und zwar weltwelt.''"<ref>Institutional Money, Ausgabe 3/2011, Interview mit Robert Aumann, S. 42-46.</ref>

Soweit die Aussage von Aumann in einem 2011 durchgeführten Interview, in dem er sich dazu äußert, dass durch die [[Bail-out (Wirtschaft)|Bail-outs]] falsche Anreize für die Banken gesetzt werden, da diese "''zwar gewinnen, aber nicht verlieren können.''" Somit wird noch einmal anhand der Aktualität der Finanzmarktkrise, die 2008 ihre sichtbaren Wirkungen zu entfalten begann, verdeutlicht, wie wichtig die Spieltheorie und vor allem das Verständnis von der richtigen Anreizsetzung für die Weltwirtschaft ist. Aumanns Konzept hat dieses Verständnis noch weiter ausgebaut, indem ein wichtiges Puzzlestück für die Vervollständigung des Gesamtbildes beigetragen wurde.

== Siehe auch ==
* [[Spieltheorie]]
* [[Perfektes Bayessches Gleichgewicht]]

== Einzelnachweise ==
<references />

== Literatur ==

* [[Robert Aumann]]: ''Subjectivity and Correlation in Randomized Strategies.'' Elsevier, Journal of Mathematical Economics, Vol. 1, No. 1., The Hebrew University of Jerusalem, Jerusalem, Israel, 1974.
* {{Literatur | Autor= [[Manfred J. Holler]], Gerhard Illing | Titel= Einführung in die Spieltheorie | Verlag= Springer Verlag | Ort= Berlin und Heidelberg | ISBN= 3-540-27880-X | Auflage= 6., überarbeitete | Jahr= 2006 | Kommentar=}}
* John Bone, Michaelis Drouvelis, Indrajit Ray: ''Avoiding Coordination-Failure using Correlation Devices: Experimental Evidences.''Department of Economics, University of Michigan, USA, 2011.
* Robert Aumann: ''Correlated Equilibrium as an Expression of Bayesian Rationality.'' Econometrica, Econometric Society, Vol. 55, No. 1, The Hebrew University of Jerusalem, Jerusalem, Israel, 1987.
* Sergiu Hart: ''Robert Aumann's Game and Economic Theory.'' Wiley-Blackwell, Scandinavian Journal of Economics, Vol. 108, No. 2, London, England, 2006.
* Roger Myerson: ''Learning from Schelling's strategy of conflict.'' Department of Economics, University of Chicago, USA, 2009.
* {{Literatur | Autor= Martin J. Osborne, [[Ariel Rubinstein]] | Titel= A Course in Game Theory | Verlag= MIT Press | Ort= London, England | Jahr= 1994 | Kommentar=}}
* Sandip Sen, Stephane Airiau, Rajatish Mukherjee: ''Towards a Pareto-optimal Solution in General-Sum Games.'' Proceedings of the Second International Joint Conference on Autonomous Agents and Multiagent Systems, Melbourne, Australia, 2003.
* Robert Aumann: ''Agreeing to disagree.'' Annals of Statistics Vol. 4, No. 1, Institute of Mathematical Statistics, Beachwood, USA, 1976.
* Roger Guesnerie, Pierre Picard, Patrick Rey : ''Adverse selection and moral hazard with risk-neutral agents.'' Elsevier, European Economic Review, Vol. 33, No. 4, Département d'Économie (Economics Department), École Polytechnique, Palaiseau, France, 1989.
* {{Literatur | Autor= Robert S. Pindyck, Daniel L. Rubinfeld | Titel= Mikroökonomie | Verlag= Pearson Education | Ort= München [u.a.], | ISBN= 978-3-8273-7282-6 | Auflage= 7., aktualisierte | Jahr= 2009 | Kommentar=}}
* Roger B. Myerson: ''Multistage Games with Communication.'' Econometrica, Econometric Society, Vol. 54, No. 2, Department of Economics, University of Chicago, USA, 1986.
* Institutional Money, FONDS professionell Multimedia GmbH, Ausgabe 3/2011, Wien, Österreich, 2011.

== Weblinks ==
* [http://www.spieltheorie.de/index.htm Professor Rieck's Spieltheorie-Seite] - Einstiegsseite zur Spieltheorie
* [http://www.ma.huji.ac.il/raumann/publication.htm Sektion von Robert Aumann der Hebrew University of Jerusalem]
* [http://oyc.yale.edu/economics/game-theory/contents/downloads Yale University-Vorlesungen zur Spieltheorie (24 x 75 Minuten)]
* [http://www.gametheory.net/Mike/applets/NormalForm/NormalForm.html Gametheory.net] - Schönes Java-Applet zur Lösung von Normalformspielen mit Möglichkeit der Vorwahl von bekannten Spielen (englisch)
* [http://www.spieltheorie-software.de Spieltheorie-Software.de] - Java-Software zur umfangreichen Analyse von 2-Personen Spielen

[[Kategorie:Spieltheorie]]

Gleichgewicht in korrelierten Strategien

2013-05-17T15:23:48Z

Mathmon: /* Formale Definition des Gleichgewichtes in korrelierten Strategien */

[[Datei:ישראל אומן 2010.jpg|thumb|Robert Aumann 2010]]

Das '''Gleichgewicht in korrelierten Strategien''' (auch ''Correlated equilibrium''-Konzept<ref name="JOME">Aumann, Robert:''Subjectivity and Correlation in Randomized Strategies.'' Journal of Mathematical Economics 1, 1974: S. 67-96.</ref>) ist ein vom Mathematiker [[Robert Aumann]] entwickeltes [[Lösungskonzept]], durch das im Rahmen der [[Spieltheorie]] eine Harmonisierung der [[Strategie (Spieltheorie)|Strategien]] möglich wird.<ref>Holler, Manfred/ Illing, Gerhard: ''Einführung in die Spieltheorie.''6., überarbeitete Auflage, Springer Verlag, Berlin und Heidelberg, 2006: S. 87ff.</ref> Im Gegensatz zum [[Nash-Gleichgewicht]], das weder bindende Verträge noch Kommunikation vor dem Entscheidungstreffen der beteiligten Spieler zulässt und somit die Strategiewahl des einen von der Strategiewahl des anderen Spielers unberührt bleibt, ermöglicht das ''Gleichgewicht in korrelierten Strategien'' eine [[Korrelation|Korrelierung]] der Strategien untereinander.

== Überblick ==
Die Grundidee erlaubt die Betrachtung der gemeinsamen Randomisierungen der Spieler über die [[Strategie (Spieltheorie)|Strategiemenge S]] und die Offenlegung der korrelierten Strategien (eng. correlated strategies).<ref name="JOME" />Zu Anschauungszwecken wird sehr oft ein öffentlicher [[Münzwurf|Wahrscheinlichkeitsmechanismus]] unterstellt (eng. correlation device)<ref name="JOME" />, an dem die Spieler ihre Strategie ausrichten. Dies kann zum Beispiel ein einfacher Münzwurf sein. Hier wird correlation device streng im Sinne des ''public correlation device'' verwendet. In Abgrenzung dazu sei erwähnt, dass je nach wissenschaftlicher Fragestellung, die Verwendung eines ''private correlation device'' möglich ist.<ref>Bone, John/ Drouvelis, Micaelis/ Ray, Indrajit: ''Avoiding Coordination-Failure using Correlation Devices: Experimental Evidences.'' Department of Economics, University of Michigan, letzte Version September 2011: S. 1-13. Verfügbar auf: http://www.isid.ac.in/~pu/conference/dec_11_conf/Papers/IndrajitRay.pdf</ref>

Das Aumannsche Konzept stellt ein stärkeres Gleichgewichtskonzept als das von [[John Forbes Nash Jr.|John Nash]] dar. Für die Spieler resultiert, selbst im Falle, dass keine bindenden Verträge möglich sind, ein höheres [[Feiglingsspiel|Auszahlungspotential]]. Ein Gleichgewicht nach Nash in [[Gemischte Strategie|gemischten Strategien]] kann demnach als eine stabile Situation begriffen werden, welche die Randomisierung der Strategien auf unkorrelierte Art und Weise, also im statistisch unabhängigen Modus impliziert.

Das große Verdienst von Aumann besteht darin, dass er die Starrheit des Konzeptes von Nash aufgehoben hat, und zwar durch seine Beweisführung, dass eine Randomisierung der Spieler, die einem gemeinsamen Zufallsmechanismus folgt und somit die Randomisierung der Strategien im statistisch abhängigen Modus korreliert, beide Spieler besser stellen kann.<ref>
Aumann, Robert: [http://ideas.repec.org/a/ecm/emetrp/v55y1987i1p1-18.html ''Correlated Equilibrium as an Expression of Bayesian Rationality.''] [http://ideas.repec.org/s/ecm/emetrp.html Econometrica], Econometric Society, Vol. 55, No. 1, 1987: S. 1-6.</ref>
Vorausgesetzt, die Beteiligten sind gewillt, sich auf einen gemeinsamen Mechanismus bezüglich der Definition der Strategienmischung zu einigen, und sofern unter dieser Prämisse keine Verbesserung durch das Zurückgreifen auf unkorrelierte Strategien möglich ist, spricht man von einem ''Gleichgewicht in korrelierten Strategien''.

== Beispiel ==
Das ''Gleichgewicht in korrelierten Strategien'' wird am Beispiel des Problems „[[Kampf der Geschlechter]]“ illustriert.

=== Modellannahmen ===
Das [[Modell]] geht zunächst von der Annahme aus, dass beide Spieler an einem ihnen wohlbekannten Spiel teilnehmen. Bevor dieses beginnt, bekommen beide ein Signal zugewiesen, dass die [[Spiel mit dem Untergang|Nutzeneinheiten]] selbst nicht verändert, sehr wohl aber, da beide Spieler ihre Strategien korrelieren, d.h. aufeinander abstimmen können, den Ausgang des Spieles und somit den erhaltenen Nutzen jeden Spielers.<ref>Holler, Manfred/ Illing, Gerhard: ''Einführung in die Spieltheorie.'' 6., überarbeitete Auflage, Springer Verlag, Berlin und Heidelberg, 2006: S. 88.</ref>

Von entscheidender Bedeutung beim Konzept von Aumann ist die Existenz eines unabhängigen Koordinators, der jedem Spieler seine Strategie zuweist. Diesem vertrauen beide Spieler, denn sie haben in dem Modell schließlich die Gewissheit, dass es sich bei der vorgeschlagenen Strategie um ein Gleichgewicht handelt. Somit ist es für keinen Spieler lohnend, von der vorgeschlagenen Strategie abzuweichen.<ref>Hart, Sergiu: ''Robert Aumann's Game and Economic Theory''. Scandinavian Journal of Economics, Vol. 108, No. 2, July 2006: S. 202. Verfügbar auf: http://www.ma.huji.ac.il/hart/papers/aumann-n.pdf</ref>

=== Modell ===
Das bekannte Spiel [[Kampf der Geschlechter]] wird mittels einer [[Spieltheorie#Darstellungsformen|Bimatrix]] dargestellt:

{| border="1"
|
|
! colspan="2" align="center" | Frau
|-
|
|
! Fußball (s21)
! Ballett (s22)
|-
! rowspan="2" align="center" | Mann
! Fußball (s11)
| align="center" | 3/1
| align="center" | 0/0
|-
! Ballett (s12)
| align="center" | 0/0
| align="center" | 1/3
|}

Die reinen Nash-Gleichgewichte sind {Fußball,Fußball} und {Ballett, Ballett}. Die Wahrscheinlichkeit, dass einer der Spieler mit seiner Vermutung, welches der beiden obigen Gleichgewichte vom anderen Spieler gewählt wird, richtig liegt, ist in einer Welt ohne Absprache gering.

Abweichung davon ist beispielsweise in einer Umgebung möglich, in der die Männer die Frauen dominieren, so dass sich das Ehepaar immer auf den Besuch des Fußballspieles einigt; dieser sogenannte [[Fokaler Punkt|Focus-Punkt-Effekt]] (eng. focal-point effect) wurde von dem US-amerikanischen Ökonomen und Nobelpreisträger [[Thomas Schelling]] in seinem einflussreichen Buch über die Sozialtheorie ''Strategy of Conflict(1960)'' beschrieben und somit auf den Einfluss von Umwelt- und Kulturfaktoren auf das rationale Verhalten hingewiesen<ref>Myerson, Roger: ''Learning from Schelling's strategy of conflict''. Department of Economics, University of Chicago, letzte Version April 2009: S. 5. Verfügbar auf: http://home.uchicago.edu/~rmyerson/research/stratofc.pdf</ref>.

=== Möglichkeiten zur Modellierung von strategischer Unsicherheit ===
[[Unsicherheit|Strategische Unsicherheit]] liegt bei einem Spiel also dann vor, wenn weder die Möglichkeit expliziter, d.h. verbaler noch impliziter [[Kommunikation]], wie sie zum Beispiel im kulturellen Kontext durch Gewohnheiten mehr oder minder stark determiniert ist, existiert. Dies macht den Rückgriff auf alternative Lösungskonzepte notwendig.

Die erste Lösungsmöglichkeit geht auf John Nash zurück und stellt die klassische Betrachtung eines [[Gemischte Strategie|Gleichgewichtes in gemischten Strategien]] dar. In der obigen Bimatrix liegt ein Gleichgewicht in gemischten Strategien nach Nash in <math>\textstyle s_{11}=\frac{3}{4}</math> und <math>\textstyle s_{12}=\frac{1}{4}</math> vor, jedoch beträgt die erwartete Auszahlung hierbei nur 0,75, und zwar sowohl für den Mann als auch für die Frau.<ref>[http://www.gametheory.net/Mike/applets/NormalForm/NormalForm.html] Java-Aplett zur Lösung von Normalformspielen</ref>Somit bekommt jeder weniger als das, was in den beiden Nash-Gleichgewichten beim Spielen von [[Reine Strategie|reinen Strategien]]möglich ist.

Gegeben dem Fall also, dass sich die Spieler, in diesem Fall das Paar darauf einigen könnte, zusammen eines von zweien Nash-Gleichgewichten in reinen Strategien zu spielen und sich somit jeweils einen erwarteten Nutzen von 2 zu sichern, so wäre die Absprache und zwar auch ohne einen bindenden [[Vertrag]] stabil, denn weder der Mann noch die Frau hätten einen Anreiz abzuweichen. Die Kommunikation erweist sich somit als äußerst vorteilhaft und ebnet den Weg zu der zweiten Lösungsmöglickeit, nämlich dem Gleichgewicht in korrelierten Strategien, dem Kernstück von Aumanns Arbeit.

Dieses kann über verschiedene Mechanismen implentiert werden. Zum einen kann sich das Ehepaar im Vorfeld darauf einigen bei schönem Wetter zu einem Fußballspiel und bei schlechtem Wetter ins Ballett zu gehen oder um auf den Münzwurf zu Beginn zurückzukommen, das Vorhandensein eines vertrauenswürdigen Vermittlers, bei dem beide davon ausgehen können, dass die vorgeschlagene Strategie ein Gleichgewicht ist und der dem Ehepaar bei Kopf zum Fußball und bei Zahl zum Ballett rät, also zum Spielen von <math>(s_{11}, s_{21})</math> oder alternativ <math>(s_{12}, s_{22})</math>.

Da die Wahrscheinlichkeit sowohl für Kopf als auch für Zahl im Falle einer perfekten Münze jeweils <math>\textstyle \frac{1}{2}</math> ist, sind demnach <math>(s_{11}, s_{21})</math> und <math>(s_{12}, s_{22})</math>, bevor Kopf oder Zahl gefallen ist, gleich wahrscheinlich.

== Mathematische Darstellung ==

=== Vorüberlegungen zu privaten und nicht privaten Signalen ===

Wie in den obigen Abschnitten bereits erläutert worden ist, kann das Konzept des Nash-Gleichgewichts in gemischten Strategien zur Modellierung von Spielen mit nicht deterministischen Spielerstrategien und vorgeschriebenen Wahrscheinlichkeitsverteilungen dieser Strategien verwendet werden.<ref>Osborne, Martin J./ Rubinstein, Ariel: ''A Course in Game Theory.'' MIT Press Books, The MIT Press, edition 1, Vol 1, No. 0262650401, 1994: S. 31, 32, 38.</ref> Das Nash-Gleichgewicht in gemischten Strategien darf folglich als eine stationäre Situation aufgefasst werden, in der die Spieler ihre reinen Strategien von einem von außen kommendem, privaten und voneinander unabhängigen [[Signal]] abhängig machen.<ref>Osborne, Martin J./ Rubinstein, Ariel: ''A Course in Game Theory.'' MIT Press Books, The MIT Press, edition 1, Vol. 1, No. 0262650401, 1994: S. 39-41.</ref>

Aumanns Arbeit geht dagegen von der Prämisse aus, dass es in korrelierten Gleichgewichten Abhängigkeiten zwischen den Spielersignalen gibt, da diese nicht mehr privat sind.<ref>Hart, Sergiu: ''Robert Aumann's Game and Economic Theory''. Scandinavian Journal of Economics, Vol. 108, No. 2, July 2006: S. 202-204.</ref>Dies impliziert die Optimalität der reinen Strategie eines jeden Spielers, sobald die Informationen der Spieler bekannt sind.

=== Definitionen ===

Im folgenden wird ein Überblick über die mathematischen Aspekte von Aumanns Konzept vermittelt.

==== Definition der korrelierten Strategie ====

Zunächst wird die Definition der korrelierten Strategie selbst gegeben. Wenn die [[Wahrscheinlichkeitsverteilung]] <math>w(s)</math>

* gemeinsames Wissen aller Spieler ist
* und wenn für diese über die Strategiemenge <math>S</math> aus allen reinen Strategiekombinationen <math>\textstyle \sum w(s)=1</math> und <math>w(s) \ge 0</math> für alle <math>s \in S_i</math> gilt,

dann nennt man <math>w(s)</math> eine korrelierte Strategie.<ref>Holler, Manfred/ Illing, Gerhard: ''Einführung in die Spieltheorie.'' 6., überarbeitete Auflage, Springer Verlag, Berlin und Heidelberg, 2006: S. 89.</ref>

==== Formale Definition des Gleichgewichtes in korrelierten Strategien ====

Ein strategisches <math>N</math>-Spieler-Spiel <math>\displaystyle (N,S_i,u_i)</math> sei charakterisiert durch die möglichen Handlungen <math>\displaystyle S_i</math> and die [[Nutzenfunktion]] <math>u_i</math> für jeden Spieler <math>i</math>. Falls der Spieler <math>i</math> die Strategiewahl <math>s \in S_i</math> des zugrundeliegenden Spiels trifft und die nachfolgenden Spieler eine Strategie wählen, die durch das <math>N-1</math>-Tupel <math>\displaystyle s_{-i}</math> charakterisiert ist, dann sei der Nutzen des Spielers <math>i</math> mit <math>\displaystyle u_i(s_i,s_{-i})</math> bezeichnet. Eine Modifikation der Strategie für jeden Spieler <math>i</math> sei durch die Funktion <math>\displaystyle \phi : S_i \to S_i</math> dargestellt, folglich ist der Spieler <math>i</math> in der Lage gemäß <math>\displaystyle \phi</math> seine Handlungen zu modifizieren, d.h. auf die Anweisung<math>\displaystyle s_i</math> zu spielen folgt <math>\displaystyle \phi(s_i)</math>. 
Gegeben sei ein endlicher [[Wahrscheinlichkeitsraum]] <math>\displaystyle(\Omega, \pi)</math>, wobei <math>\displaystyle\Omega</math> die Menge der Zustände und <math>\displaystyle\pi</math> ein [[Wahrscheinlichkeitsmaß]] auf <math>\displaystyle\Omega</math> ist. 

Des Weiteren sei für jeden Spieler <math>i</math>
* <math>\displaystyle P_i</math> dessen [[Informationspartition]],
* die Strategie <math>\displaystyle s_i:\Omega\rightarrow S_i</math> sei innerhalb derselben Informationspartition des Spielers<math>i</math> enthalten
* und <math>\displaystyle q(w)</math> die Wahrscheinlichkeitsverteilung.

Dann stellt <math>\displaystyle((\Omega, \pi),P_i)</math> ein korreliertes Gleichgewicht eines strategischen Spieles<math>\displaystyle (N,S_i,u_i)</math> für jeden Spieler <math> i</math> und für jede Modifikation der Strategie <math>\phi</math>dar, falls gilt:

:<math>\displaystyle\sum_{\omega \in \Omega} q(\omega)u_i(s_i, s_{-i}) \geq \sum_{\omega \in \Omega} q(\omega)u_i(\phi(s_i), s_{-i}).</math><ref>Osborne, Martin J./ Rubinstein, Ariel: ''A Course in Game Theory.'' MIT Press Books, The MIT Press, edition 1, Vol. 1, No. 0262650401, 1994: S. 45.</ref>

Oder einfacher ausgedrückt: <math>\displaystyle((\Omega, \pi),P_i)</math> ist ein korreliertes Gleichgewicht, falls kein Spieler seinen erwarteten Nutzen mittels einer Strategiemodifikation ändern kann und somit um auf das Ursprungsmodell zurückzukommen, keinen Anreiz zum Abweichen von der vorgeschlagenen Strategie hat.

==== Zusammenhang zwischen dem Nash-Gleichgewicht und dem Gleichgewicht in korrelierten Strategien ====

Für jedes Nash-Gleichgewicht gilt, dass es ein Spezialfall des Gleichgewichtes in korrelierten Strategien darstellt. Die Besonderheit liegt in der Unabhängigkeit der Wahrscheinlichkeiten bei der Wahl von Strategien durch verschiedene Spieler. Die Wahrscheinlichkeiten zeigen hier keine Korrelation. So gilt in einem 2-Personen-Spiel für 2 Spieler: <math>\displaystyle w(s)= w(s_1)*w(s_2)</math>.<ref>Holler, Manfred/ Illing, Gerhard: ''Einführung in die Spieltheorie.'' 6., überarbeitete Auflage, Springer Verlag, Berlin und Heidelberg, 2006: S. 89.</ref>

Da reine Nash-Gleichgewichte durch konvexe Kombination wiederum ein Gleichgewicht in korrelierten Strategien ergeben, kann ihre Menge größer als die der Nash-Gleichgewichte sein.

Erwähnenswert zudem ist noch die Verwandtschaft der korrelierten Gleichgewichte mit [[Sunspot-Gleichgewichten]] aus der [[Rationale Erwartung|Theorie der rationalen Erwartungen]].<ref>Holler/Illing (2006): S. 90.</ref>

==== Effiziente korrelierte Strategien ====

Nun wird in den folgenden Ausführungen anhand des beliebten [[Feiglingsspiel|Feiglingsspiels (eng. Chicken Game)]] erläutert, was eine effiziente korrelierte Strategie ist. Im Feiglingspiel geht es darum, dass zwei sozial fehlgeleitete Jugendliche in zwei Autos aufeinander zurasen. Wer von beiden in dieser Mutprobe als erster ausweicht, wird vom Rest der Clique als Feigling betrachtet. Weicht jedoch keiner aus, sterben beide in einem Feuerball beim Aufeinanderprallen. Zunächst sei darauf hingewiesen, dass beim Feiglingsspiel die Auszahlungsstruktur bezüglich derer von Battle of Sexes durch das Vorhandensein einer [[Pareto-optimal|pareto-optimalen]] [[Kampf der Geschlechter|symmetrischen Auszahlungskombination]], die eine höhere Auszahlungssumme verspricht, differiert.<ref>Sen, Sandip/ Airiau, Stephane/ Mukherjee, Rajatish: ''Towards a Pareto-optimal Solution in General-Sum Games'', Proceedings of the Second International Joint Conference on Autonomous Agents and Multiagent Systems, Melbourne, Australia, July 2003: S. 153-160. Verfügbar auf: http://dl.acm.org/citation.cfm?id=860600</ref>

Hier die Bimatrix:

{| border="1"
|
|
! colspan="2" align="center" | Spieler 2
|-
|
|
! Ausweichen (s21)
! Weiterfahren (s22)
|-
! rowspan="2" align="center" | Spieler 1
! Ausweichen (s11)
| align="center" | 3/3
| align="center" | 1/4
|-
! Weiterfahren (s12)
| align="center" | 4/1
| align="center" | 0/0
|}

<math>(s_{11}, s_{22})</math> und <math>(s_{12}, s_{21})</math>, die beiden Gleichgewichte in reinen Strategien, werden bei einem Zufallsmechanismus wie z.B. dem Münzwurf mit gleicher Wahrscheinlichkeit gewählt, nämlich <math>\textstyle \frac{1}{2}</math>, doch kann man beim Chicken Game mit einem raffinierteren Vorgehen die höhere pareto-optimale Auszahlungskombination (3,3) realisieren und zwar:

* Beide Spieler kennen die Wahrscheinlichkeiten für die Strategiekombinationen.
* Nachdem die Zufallsvariable realisiert worden ist, erfährt jeder Spieler, welche Strategie er spielen soll. Jeder von beiden ist jedoch im Ungewissen über den Strategie des anderen.

Angenommen, die Wahrscheinlichkeitsverteilung <math>w(s_{11}, s_{21})=0,2</math> und <math>w(s_{11}, s_{22})=w(s_{12}, s_{21})=0,4</math> liegt vor und Spieler 1 bekommt die Anweisung die Strategie <math>s_{11}</math> zu wählen. Er antizipiert dann, dass der Spieler 2 mit einer [[Bedingte Wahrscheinlichkeit|bedingten Wahrscheinlichkeit]] von <math>\textstyle \frac{2}{3}</math> die Strategie <math>s_{22}</math> wählt. Spieler 1 könnte auf <math>s_{12}</math> abweichen und sich <math>\textstyle \frac{1}{3}*4+</math> <math>\textstyle \frac{2}{3}*0=</math>
<math>\textstyle \frac{4}{3}</math> sichern, doch das Spielen der Strategie <math>s_{11}</math> ergibt <math>\textstyle \frac{1}{3}*3+</math> <math>\textstyle \frac{2}{3}*1=</math><math>\textstyle \frac{5}{3}</math> an erwarteter Auszahlung.

Gegeben sei jetzt der Fall, dass <math>w(s_{11}, s_{21})=0,5</math> und <math>w(s_{11}, s_{22})=w(s_{12}, s_{21})=0,25</math>. Falls der Spieler 2 nun die Empfehlung bekommt auszuweichen, wird er antizipieren, dass Spieler 1 mit einer bedingten Wahrscheinlichkeit von <math>\textstyle \frac{2}{3}</math> auch Ausweichen spielt. In diesem Fall aber gebe es für den Spieler 2 überhaupt keinen Anreiz sich an die Empfehlung, die ihm vom correlation device gegeben wird, zu halten.

An den obigen Ausführungen sieht man, dass es zu einer Maximierung der Auszahlungen kommt, falls durch die Wahrscheinlichkeitsverteilung die Wahrscheinlichkeit für <math>(s_{11}, s_{21})</math> hoch genug festgelegt wird, aber es gleichzeitig für die Spieler keinen Grund zum Abweichen von der Vorgabe des correlation device gibt. Andernfalls ist die korrelierte Strategie nicht effizient.<ref>Holler/Illing (2006): S. 91, 92.</ref>

Das obige Beispiel kann in formale mathematische Sprache zusammengefasst werden. Die Ermittlung effizienter korrelierter Strategien erfolgt durch die Maximierung des gewichteten Nutzen aller Spieler, wobei die Ungleichung 

<math>\displaystyle\sum_{\omega \in \Omega} q(\omega)u_i(s_i, s_{-i}) \geq \sum_{\omega \in \Omega} q(\omega)u_i(\phi(s_i), s_{-i})</math> erfüllt sein muss.<ref>Osborne, Martin J./ Rubinstein, Ariel: ''A Course in Game Theory.'' MIT Press Books, The MIT Press, edition 1, Vol. 1, No. 0262650401, 1994: S.45-48.</ref> Es handelt sich naturgemäß um ein einfaches konvexes lineares Optimierungsproblem, da Linearität in <math>w</math> sowohl für die Beschränkung als auch für die Zielfunktion festgestellt werden kann.<ref>Holler/Illing (2006): S. 93.</ref>

== Anwendung von Aumanns Gleichgewichtskonzept auf andere Bereiche ==

Das Gleichgewichtskonzept fand und findet immer noch in vielen anderen Gebieten der wissenschaftlichen Forschung regen Anklang.

=== Aumanns Vorarbeit mündet im Agreement Theorem ===

Aumann begründete mit seinem 1976 verfassten Theorem der Unmöglichkeit der Einigkeit über die Uneinigkeit (eng. The Agreement Theorem)<ref>Aumann, Robert: ''Agreeing to disagree.'' Annals of Statistics Vol. 4, No. 6, 1976: S. 1236-1239. Verfügbar auf: http://www.jstor.org/stable/2958591</ref> die [[Interaktive Epistemologie|interaktive Wissensalgebra]] und legte somit den Grundstein für weitere Forschungsarbeit in der Philosophie, der Logik, der Ökonomie und vielen anderen Bereichen der Wissenschaft.<ref>Hart, Sergiu: ''Robert Aumann's Game and Economic Theory''. Scandinavian Journal of Economics, Vol. 108, No. 2, July 2006: S. 205.</ref> Ihm gelang es über eine formale Definition des ''gemeinsames Wissens'' zu beweisen, dass es für zwei Individuen nicht möglich ist sich darauf zu einigen sich nicht einig zu sein und zwar im folgenden Sinne:

Gegeben sei der Fall, dass die Spieler über eine gemeinsame [[A-priori-Verteilung|A-priori-Wahrscheinlichkeitsverteilung]]verfügen. Falls zudem die [[A-posteriori-Wahrscheinlichkeit|Wahrscheinlichkeiten a posteriori]] für ein Ereignis E gemeinsames Wissen beider Spieler darstellen, so müssen auch diese A-posteriori-Wahrscheinlichkeiten identisch sein.

=== Brückenschlag zum Bayes`schen rationalen Verhalten ===

Im Jahr 1987 gelang es Aumann schließlich durch seine oben erörterte Vorarbeit einen Brückenschlag zum [[Perfektes Bayessches Gleichgewicht|Bayes`schen rationalen Verhalten]] zu bewältigen.<ref>Aumann, Robert: [http://ideas.repec.org/a/ecm/emetrp/v55y1987i1p1-18.html '''''Correlated Equilibrium as an Expression of Bayesian Rationality.'''''] [http://ideas.repec.org/s/ecm/emetrp.html Econometrica], Econometric Society, Vol. 55, No. 1, 1987: S. 1-18.</ref> Ein Spieler handelt dann rational im Sinne von Bayes, wenn seine Handlung optimal gegeben seine Information ist.
Das von Aumann in diesem Zusammenhang aufgestellte Theorem postuliert folgendes:

Gegeben sei ein Spiel, welches die Spieler mit gleichen Einschätzungen (eng. beliefs) beginnen, aber im Laufe des Spiels unterschiedliche Informationen erhalten. Wenn es gemeinsames Wissen (eng. common knowledge) darstellt, dass sich alle Spieler rational im Sinne von Bayes verhalten, dann spielen diese ein korreliertes Gleichgewicht des Spieles. Oder anders ausgedrückt: Gleichgewichte in korrelierten Strategien sind als Ergebnis Bayes`schen rationalen Verhaltens zu betrachten. Aumann selbst postuliert in seinem Haupttheorem dieser Arbeit: "''If each player is Bayes rational at each state of the world, then the distribution of the action n-tuple s is a correlated equilibrium distribution.''"<ref>Aumann, Robert: [http://ideas.repec.org/a/ecm/emetrp/v55y1987i1p1-18.html '''''Correlated Equilibrium as an Expression of Bayesian Rationality.'''''] [http://ideas.repec.org/s/ecm/emetrp.html Econometrica], Econometric Society, Vol. 55, No. 1, 1987: S. 7.</ref>, was in Deutschem etwas weniger formal weiter oben wiedergegeben wurde.

=== Bedeutung von correlated equilibrium in Situationen mit Informationsasymmetrie ===

Eine besondere Bedeutung kommt Gleichgewichten in korrelierten Strategien in Situationen zu, die beispielsweise im [[Versicherung (Kollektiv)|Versicherungswesen]] mit [[Moral Hazard]] bzw. [[Adverse Selektion|adverser Selektion]] in Verbindung gebracht werden. Moral Hazard oder eingedeutscht moralisches Risiko/Wagnis ist auf die [[Asymmetrische Information|versteckte Handlung (eng. hidden action)]] zurückzuführen, im Falle der adversen Selektion spielt vor allem die [[Asymmetrische Information|versteckte Information (eng. hidden information)]], sehr gut am [[Saure-Gurken-Problem|Lemons-Problem]] von [[George A. Akerlof]] dargestellt, die tragende Rolle.<ref>Guesnerie, Roger/ Picard, Pierre/ Rey, Patrick : ''Adverse selection and moral hazard with risk-neutral agents.'' European Economic Review, Vol. 33, No. 4, 1989: S. 807-823. Verfügbar auf: http://www.sciencedirect.com/science/article/pii/0014292189900275</ref> Beide können, da Nicht-Beobachtbarkeit und/oder Nicht-Kontrahierbarkeit von Interaktionssituationen vorliegen, zum [[Marktversagen]] führen.<ref>Pindyck, S. Robert/ Rubinfeld, L. Daniel: ''Mikroökonomie.'' Pearson Education, 2009: S. 803.</ref>

Es ist zu beachten, dass Aumann das Konzept des ''correlated equilibrium'' hauptsächlich auf die reine Moral Hazard-Problematik bezieht, während das Konzept von Bayes zu Beginn vorwiegend mit dem Problemfeld der Adversen Selektion in Verbindung gebracht wurde. Der US-amerikanische Nobelpreisträger [[Roger B. Myerson]] führte beide im ''Bayesian incentive-compatible mechanism'' zusammen.<ref>Myerson, B. Roger: ''Multistage Games with Communication.'' [http://ideas.repec.org/s/ecm/emetrp.html Econometrica], Econometric Society, Vol. 54, No. 2, März 1986: S. 323-358. Verfügbar auf: http://www.jstor.org/sici?sici=0012-9682%28198603%2954%3A2%3C323%3AMGWC%3E2.0.CO%3B2-P</ref>

Die große Bedeutung von Aumanns Arbeit liegt darin, dass über das Gleichgewicht in korrelierten Strategien eine Lösung für die Anreizverträglichkeit von Verträgen angeboten wird, so dass trotz der vorliegenden Informationsasymmetrie eine derartige Gestaltung von Verträgen und die damit verbundene Anreizsetzung gelingt, so dass es sich für die Spieler lohnt sich an die Vereinbarungen zu halten. Die Suche nach den anreizverträglichen Mechanismen ist dann laut [[Manfred Holler|Holler]]/Illing gleichbedeutend "''mit der Bestimmung effizienter Bayes`scher Gleichgewichte in korrelierten Strategien.''" <ref>Holler/Illing (2006): S. 94.</ref>

"''Wenn es überhaupt eine direkte Anwendungsmöglickeit der Spieltheorie für die Praxis der Kapitalmärkte gibt, dann diese: Das Entscheidende an der Spieltheorie und allen ökonomischen Anwendungen ist das Anreizsystem. Anreize sind die Antriebskraft für alle wirtschaftlichen Aktivitäten - und zwar weltwelt.''"<ref>Institutional Money, Ausgabe 3/2011, Interview mit Robert Aumann, S. 42-46.</ref>

Soweit die Aussage von Aumann in einem 2011 durchgeführten Interview, in dem er sich dazu äußert, dass durch die [[Bail-out (Wirtschaft)|Bail-outs]] falsche Anreize für die Banken gesetzt werden, da diese "''zwar gewinnen, aber nicht verlieren können.''" Somit wird noch einmal anhand der Aktualität der Finanzmarktkrise, die 2008 ihre sichtbaren Wirkungen zu entfalten begann, verdeutlicht, wie wichtig die Spieltheorie und vor allem das Verständnis von der richtigen Anreizsetzung für die Weltwirtschaft ist. Aumanns Konzept hat dieses Verständnis noch weiter ausgebaut, indem ein wichtiges Puzzlestück für die Vervollständigung des Gesamtbildes beigetragen wurde.

== Siehe auch ==
* [[Spieltheorie]]
* [[Perfektes Bayessches Gleichgewicht]]

== Einzelnachweise ==
<references />

== Literatur ==

* [[Robert Aumann]]: ''Subjectivity and Correlation in Randomized Strategies.'' Elsevier, Journal of Mathematical Economics, Vol. 1, No. 1., The Hebrew University of Jerusalem, Jerusalem, Israel, 1974.
* {{Literatur | Autor= [[Manfred J. Holler]], Gerhard Illing | Titel= Einführung in die Spieltheorie | Verlag= Springer Verlag | Ort= Berlin und Heidelberg | ISBN= 3-540-27880-X | Auflage= 6., überarbeitete | Jahr= 2006 | Kommentar=}}
* John Bone, Michaelis Drouvelis, Indrajit Ray: ''Avoiding Coordination-Failure using Correlation Devices: Experimental Evidences.''Department of Economics, University of Michigan, USA, 2011.
* Robert Aumann: ''Correlated Equilibrium as an Expression of Bayesian Rationality.'' Econometrica, Econometric Society, Vol. 55, No. 1, The Hebrew University of Jerusalem, Jerusalem, Israel, 1987.
* Sergiu Hart: ''Robert Aumann's Game and Economic Theory.'' Wiley-Blackwell, Scandinavian Journal of Economics, Vol. 108, No. 2, London, England, 2006.
* Roger Myerson: ''Learning from Schelling's strategy of conflict.'' Department of Economics, University of Chicago, USA, 2009.
* {{Literatur | Autor= Martin J. Osborne, [[Ariel Rubinstein]] | Titel= A Course in Game Theory | Verlag= MIT Press | Ort= London, England | Jahr= 1994 | Kommentar=}}
* Sandip Sen, Stephane Airiau, Rajatish Mukherjee: ''Towards a Pareto-optimal Solution in General-Sum Games.'' Proceedings of the Second International Joint Conference on Autonomous Agents and Multiagent Systems, Melbourne, Australia, 2003.
* Robert Aumann: ''Agreeing to disagree.'' Annals of Statistics Vol. 4, No. 1, Institute of Mathematical Statistics, Beachwood, USA, 1976.
* Roger Guesnerie, Pierre Picard, Patrick Rey : ''Adverse selection and moral hazard with risk-neutral agents.'' Elsevier, European Economic Review, Vol. 33, No. 4, Département d'Économie (Economics Department), École Polytechnique, Palaiseau, France, 1989.
* {{Literatur | Autor= Robert S. Pindyck, Daniel L. Rubinfeld | Titel= Mikroökonomie | Verlag= Pearson Education | Ort= München [u.a.], | ISBN= 978-3-8273-7282-6 | Auflage= 7., aktualisierte | Jahr= 2009 | Kommentar=}}
* Roger B. Myerson: ''Multistage Games with Communication.'' Econometrica, Econometric Society, Vol. 54, No. 2, Department of Economics, University of Chicago, USA, 1986.
* Institutional Money, FONDS professionell Multimedia GmbH, Ausgabe 3/2011, Wien, Österreich, 2011.

== Weblinks ==
* [http://www.spieltheorie.de/index.htm Professor Rieck's Spieltheorie-Seite] - Einstiegsseite zur Spieltheorie
* [http://www.ma.huji.ac.il/raumann/publication.htm Sektion von Robert Aumann der Hebrew University of Jerusalem]
* [http://oyc.yale.edu/economics/game-theory/contents/downloads Yale University-Vorlesungen zur Spieltheorie (24 x 75 Minuten)]
* [http://www.gametheory.net/Mike/applets/NormalForm/NormalForm.html Gametheory.net] - Schönes Java-Applet zur Lösung von Normalformspielen mit Möglichkeit der Vorwahl von bekannten Spielen (englisch)
* [http://www.spieltheorie-software.de Spieltheorie-Software.de] - Java-Software zur umfangreichen Analyse von 2-Personen Spielen

[[Kategorie:Spieltheorie]]

Mathieusche Differentialgleichung

2013-05-08T11:46:27Z

Mathmon: /* Lösungseigenschaften */

Als '''Mathieusche Differentialgleichung''' wird eine spezielle [[Lineare Abbildung|lineare]] [[gewöhnliche Differentialgleichung]] zweiter Ordnung bezeichnet. Die DGL ist nach dem Mathematiker [[Émile Léonard Mathieu]] benannt und ist ein Spezialfall der [[Hillsche Differentialgleichung|Hillschen Differentialgleichung]] mit der Parameterfunktion

:<math> q(x) = q_o + \Delta q \cdot \cos(x) </math>

== Normalform ==

Die Gleichung wird in der Literatur in unterschiedlicher Form dargestellt. Eine als Normalform bezeichnete Gleichung <ref> Kurt Magnus: ''Schwingungen: Eine Einführung in die physikalischen Grundlagen und die theoretische Behandlung von Schwingungsproblemen.'' 8., überarb. Auflage, Vieweg+Teubner, 2008, Kapitel 4, ISBN 3835101935.</ref> hat die Gestalt

:<math>\ y''(x)+[\lambda + \gamma\cos(x) ] \cdot y(x)=0. </math>

Ist x eine Funktion der Zeit

:<math> x = \Omega \cdot t </math>

so stehen die Abkürzungen <math> \lambda </math> und <math> \gamma </math> für

:<math> \lambda = q_0/\Omega^2; \gamma = \Delta q / \Omega^2</math>

== Alternative Darstellung ==

Die DGL wird auch, unter Anderem, folgendermaßen angegeben <ref>[http://dlmf.nist.gov/28.2 NIST Digital Library of Mathematical Functions: Mathieu Functions and Hill's Equation] (englisch)</ref> <ref>Wolfgang Demtröder: ''Experimentalphysik 1: Mechanik und Wärme'' Springer, 2008, Kapitel 11.7, ISBN 3540792945.</ref>

:<math>\ y''(x)+[a-2q\cos (2x) ] \cdot y(x)=0. </math>

:<math>\ \ddot x(t) + \omega_0^2[1 + h \cos(\Omega t)] \cdot x(t) = 0 </math>

== Lösungseigenschaften ==

Die Mathieusche Differentialgleichung lässt sich als lineares Differentialgleichungssystem erster Ordnung mit zwei Gleichungen darstellen:

:<math>
\begin{pmatrix}
0 & 1 \\
\lambda + \gamma \cos(x) & 0 \\
\end{pmatrix}

\begin{pmatrix}
u(x) \\
v(x) \\
\end{pmatrix}

=

\begin{pmatrix}
u(x) \\
v(x) \\
\end{pmatrix}'

</math>

Die Koeffizientenmatrix ist hier <math>2\pi</math>-periodisch. Nach dem [[Satz von Floquet]]
lässt sich die [[Fundamentalsystem (Mathematik)|Fundamentalmatrix]] beschreiben als

:<math>
\Phi(x) = P(x)\exp(xR)
</math>

Dabei ist <math>R \in \mathbb{C}^{2 \times 2}</math> und <math>P: \mathbb{R}\rightarrow GL(m; \mathbb{C})</math>
ebenfalls <math>2\pi</math>-periodisch. Durch die Berechnung der [[jordansche Normalform|jordanschen Normalform]]
der Matrix <math>R</math> ergeben sich zwei Fälle:

# <math>R</math> hat zwei verschiedene (komplexe) Eigenwerte <math>\gamma_1 \neq \gamma_2</math>: In diesem Fall sind die Lösungen von der Form <math>e^{\gamma_{1} x} \phi_{1}(x)</math> und <math> e^{\gamma_{2} x} \phi_{2}(x)</math>, wobei <math>\phi_1, \phi_2</math> jeweils <math>2\pi</math>-periodisch sind.
# <math>R</math> hat einen einzigen Eigenwert <math>\gamma</math>: Hier sind die Lösungen von der Gestalt <math>e^{\gamma x} \phi(x)</math> und <math> x e^{\gamma x} \phi(x)</math> mit einer <math>2\pi</math>-periodischen Funktion <math>\phi</math>.

== Siehe auch ==
* [[Parametrischer Oszillator]]
* [[Paul-Falle]]

== Einzelnachweise ==
<references />

== Weblinks ==
*[http://functions.wolfram.com/MathieuandSpheroidalFunctions/ List of equations and identities for Mathieu Functions] functions.wolfram.com (englisch)
* {{cite journal | author=Mathieu, E. |title=Mémoire sur Le Mouvement Vibratoire d’une Membrane de forme Elliptique |url=http://math-docARRAYjf-grenobleARRAYr/JMPA/ |journal=Journal de Mathématiques Pures et Appliquées | year=1868 | pages=137–203 | url=http://visualiseur.bnf.fr/ConsulterElementNum?O=NUMM-16412&Deb=145&Fin=211&E=PDF}}

[[Kategorie:Gewöhnliche Differentialgleichungen]]

Mathieusche Differentialgleichung

2013-05-07T19:17:48Z

Mathmon:

Als '''Mathieusche Differentialgleichung''' wird eine spezielle [[Lineare Abbildung|lineare]] [[gewöhnliche Differentialgleichung]] zweiter Ordnung bezeichnet. Die DGL ist nach dem Mathematiker [[Émile Léonard Mathieu]] benannt und ist ein Spezialfall der [[Hillsche Differentialgleichung|Hillschen Differentialgleichung]] mit der Parameterfunktion

:<math> q(x) = q_o + \Delta q \cdot \cos(x) </math>

== Normalform ==

Die Gleichung wird in der Literatur in unterschiedlicher Form dargestellt. Eine als Normalform bezeichnete Gleichung <ref> Kurt Magnus: ''Schwingungen: Eine Einführung in die physikalischen Grundlagen und die theoretische Behandlung von Schwingungsproblemen.'' 8., überarb. Auflage, Vieweg+Teubner, 2008, Kapitel 4, ISBN 3835101935.</ref> hat die Gestalt

:<math>\ y''(x)+[\lambda + \gamma\cos(x) ] \cdot y(x)=0. </math>

Ist x eine Funktion der Zeit

:<math> x = \Omega \cdot t </math>

so stehen die Abkürzungen <math> \lambda </math> und <math> \gamma </math> für

:<math> \lambda = q_0/\Omega^2; \gamma = \Delta q / \Omega^2</math>

== Alternative Darstellung ==

Die DGL wird auch, unter Anderem, folgendermaßen angegeben <ref>[http://dlmf.nist.gov/28.2 NIST Digital Library of Mathematical Functions: Mathieu Functions and Hill's Equation] (englisch)</ref> <ref>Wolfgang Demtröder: ''Experimentalphysik 1: Mechanik und Wärme'' Springer, 2008, Kapitel 11.7, ISBN 3540792945.</ref>

:<math>\ y''(x)+[a-2q\cos (2x) ] \cdot y(x)=0. </math>

:<math>\ \ddot x(t) + \omega_0^2[1 + h \cos(\Omega t)] \cdot x(t) = 0 </math>

== Lösungseigenschaften ==

Die Mathieusche Differentialgleichung lässt sich als lineares Differentialgleichungssystem erster Ordnung mit zwei Gleichungen darstellen:

:<math>
\begin{pmatrix}
0 & 1 \\
\lambda + \gamma \cos(x) & 0 \\
\end{pmatrix}

\begin{pmatrix}
u(x) \\
v(x) \\
\end{pmatrix}

=

\begin{pmatrix}
u(x) \\
v(x) \\
\end{pmatrix}'

</math>

Die Koeffizientenmatrix ist hier <math>\pi</math>-periodisch. Nach dem [[Satz von Floquet]]
lässt sich die [[Fundamentalsystem (Mathematik)|Fundamentalmatrix]] beschreiben als

:<math>
\Phi(x) = P(x)\exp(xR)
</math>

Dabei ist <math>R \in \mathbb{C}^{2 \times 2}</math> und <math>P: \mathbb{R}\rightarrow GL(m; \mathbb{C})</math>
ebenfalls <math>\pi</math>-periodisch. Durch die Berechnung der [[jordansche Normalform|jordanschen Normalform]]
der Matrix <math>R</math> ergene sich zwei Fälle:

# <math>R</math> hat zwei verschiedene (komplexe) Eigenwerte <math>\gamma_1 \neq \gamma_2</math>: In diesem Fall sind die Lösungen von der Form <math>e^{\gamma_{1} x} \phi_{1}(x)</math> und <math> e^{\gamma_{2} x} \phi_{2}(x)</math>, wobei <math>\phi_1, \phi_2</math> jeweils <math>\pi</math>-periodisch sind.
# <math>R</math> hat einen einzigen Eigenwert <math>\gamma</math>: Hier sind die Lösungen von der Gestalt <math>e^{\gamma x} \phi(x)</math> und <math> x e^{\gamma x} \phi(x)</math> mit einer <math>\pi</math>-periodischen Funktion <math>\phi</math>.
== Siehe auch ==
* [[Parametrischer Oszillator]]
* [[Paul-Falle]]

== Einzelnachweise ==
<references />

== Weblinks ==
*[http://functions.wolfram.com/MathieuandSpheroidalFunctions/ List of equations and identities for Mathieu Functions] functions.wolfram.com (englisch)
* {{cite journal | author=Mathieu, E. |title=Mémoire sur Le Mouvement Vibratoire d’une Membrane de forme Elliptique |url=http://math-docARRAYjf-grenobleARRAYr/JMPA/ |journal=Journal de Mathématiques Pures et Appliquées | year=1868 | pages=137–203 | url=http://visualiseur.bnf.fr/ConsulterElementNum?O=NUMM-16412&Deb=145&Fin=211&E=PDF}}

[[Kategorie:Gewöhnliche Differentialgleichungen]]

Mathieusche Differentialgleichung

2013-05-07T17:56:34Z

Mathmon: /* Siehe auch */

Lineare Optimierung

2013-04-18T11:22:58Z

Mathmon: /* Der Satz vom komplementären Schlupf */

{{Dieser Artikel|behandelt '''Lineare Optimierung''' im Rahmen des Operations Research. Für den Begriff in der Spieltheorie, siehe [[Lineare Optimierung (Spieltheorie)]].}}
[[Datei:Linopt-feasible-region de.svg|miniatur|240px|Bei linearen Optimierungsproblemen ist die Menge der zulässigen Punkte (braun) durch lineare Ungleichungen (Halbräume, definiert durch [[Hyperebene]]n) eingeschränkt.]]

Die '''Lineare Optimierung''' oder '''Lineare Programmierung''' ist eines der Hauptverfahren des [[Operations Research]] und beschäftigt sich mit der [[Optimierung (Mathematik)|Optimierung]] [[Lineare Abbildung|linearer Zielfunktionen]] über einer Menge, die durch lineare [[Gleichung]]en und [[Ungleichung]]en eingeschränkt ist. Häufig lassen sich ''lineare Programme (LPs)'' zur Lösung von Problemen einsetzen, für die keine speziell entwickelten Lösungsverfahren bekannt sind, beispielsweise bei der Planung von Verkehrs- oder Telekommunikationsnetzen oder in der Produktionsplanung. Die lineare Optimierung ist ein Spezialfall der [[Konvexe Optimierung|konvexen Optimierung]] und Grundlage mehrerer Lösungsverfahren in der [[Ganzzahlige lineare Optimierung|ganzzahligen linearen]] und der [[Nichtlineare Optimierung|nichtlinearen Optimierung]]. Viele Eigenschaften linearer Programme lassen sich als Eigenschaften von [[Polyeder]]n interpretieren und auf diese Art geometrisch modellieren und beweisen.

Der Begriff „Programmierung“ ist eher im Sinne von „Planung“ zu verstehen als im Sinne der Erstellung eines Computerprogramms. Er wurde schon Mitte der 1940er Jahre von [[George Dantzig]], einem der Begründer der Linearen Optimierung, geprägt, bevor Computer zur Lösung linearer Optimierungsprobleme eingesetzt wurden.

Aus [[Komplexitätstheorie|komplexitätstheoretischer]] Sicht ist die lineare Optimierung ein einfaches Problem, da es sich beispielsweise mit einigen [[Innere-Punkte-Verfahren]] in [[Polynomialzeit|polynomialer Zeit]] lösen lässt. In der Praxis hat sich allerdings das [[Simplex-Verfahren]] als einer der schnellsten Algorithmen herausgestellt, obwohl es im schlechtesten Fall exponentielle Laufzeit besitzt. Neben dem eigentlichen Problem löst es immer auch das sogenannte [[Duales Problem|duale Problem]] mit, was unter anderem in mehreren Verfahren zur Lösung ganzzahliger linearer Programme ausgenutzt wird.

== Geschichte ==
Die Methode der linearen Optimierung wurde 1939 von dem sowjetischen Mathematiker [[Leonid Witaljewitsch Kantorowitsch]] in seinem Aufsatz „''Mathematische Methoden für die Organisation und Planung der Produktion''“ eingeführt.<ref>[http://www.feg.unesp.br/~mapereira/PL_arquivos/ManSci-v6_n4-366_422-1960.pdf ''Mathematical Methods of Organizing and Planning Production''] (PDF; 1,4 MB). In: ''Management Science'', Band 6, Nr. 4 (Juli 1960), S. 366–422.</ref> Kurz danach veröffentlichte der Amerikaner [[Frank L. Hitchcock]] eine Arbeit zu einem [[Transportproblem]]. Damals erkannte man noch nicht die Bedeutung dieser Arbeiten. Unter anderem für seinen Beitrag zur linearen Optimierung bekam Kantorowitsch aber 1975 den [[Nobelpreis]] für [[Wirtschaftswissenschaften]].

Mitte der 1940er Jahre erkannte [[George Dantzig]], dass sich viele praktische Beschränkungen durch lineare Ungleichungen beschreiben ließen, und ersetzte erstmals die bis dahin vorherrschenden Faustregeln zur Lösung von Planungsproblemen durch eine (lineare) Zielfunktion. Insbesondere etablierte er damit eine klare Trennung zwischen dem ''Ziel'' der Optimierung und den ''Mitteln'' zur Lösung des Planungsproblems.

Den Durchbruch für die lineare Optimierung schaffte Dantzig 1947, als er eine Arbeit über das [[Simplex-Verfahren]] veröffentlichte, das heute eines der meistgenutzten Verfahren zur Lösung linearer Programme ist<ref>Dr. Heiner Müller-Merbach: ''Operations Research'', 3. Auflage, Verlag Franz Vahlen München, 1973, ISBN 3-8006-0388-8, Seite 89.</ref>. Interesse an dieser Arbeit zeigten zunächst die amerikanischen Militärs, speziell die [[United States Air Force|US Air Force]], die militärische Einsätze optimieren wollten. In den Folgejahren entwickelten Dantzig, [[John von Neumann]], [[Oskar Morgenstern]], [[Tjalling Koopmans]] und andere das Verfahren und die zugehörige Theorie weiter und stellten Zusammenhänge zur [[Spieltheorie]] her. Mit dem Aufkommen von [[Computer]]n Mitte der 1950er Jahre konnte man auch größere Probleme lösen. Etwa ab 1950 entdeckte die Wirtschaft, insbesondere Ölraffinerien, die Anwendungsmöglichkeiten der linearen Optimierung. Ab den 1970er Jahren profitierte der Simplex-Algorithmus von algorithmischen Fortschritten der [[Numerische lineare Algebra|numerischen linearen Algebra]]. Insbesondere die Entwicklung numerisch stabiler [[Gaußsches Eliminationsverfahren#LR-Zerlegung|LR-Zerlegungen]] zur Lösung großer [[Lineares Gleichungssystem|linearer Gleichungssysteme]] trugen maßgeblich zum Erfolg und der Verbreitung des Simplex-Verfahrens bei.

Im Jahre 1979 veröffentlichte [[Leonid Khachiyan]] die [[Ellipsoidmethode]], mit der lineare Programme erstmals – zumindest theoretisch – in [[Polynomialzeit]] gelöst werden konnten. 1984 begannen [[Narendra Karmarkar]] und andere mit der Entwicklung von [[Innere-Punkte-Verfahren]] zur Lösung linearer Programme.<ref>N. Karmarkar: ''A new polynomial-time algorithm for linear programming''. Combinatorica 4 (1984), Nr. 4, 373–395.</ref> Diese Algorithmen, die als erste polynomiale Lösungsmethoden auch das Potential zum praktischen Einsatz hatten, wurden innerhalb des nachfolgenden Jahrzehnts noch wesentlich verbessert. Parallel dazu wuchs die Bedeutung des Simplex-Verfahrens zur Lösung von Unterproblemen in der ganzzahligen linearen Optimierung. Anfang der 1990er Jahre wurden hier noch einmal große Fortschritte durch die Entwicklung neuer [[Pivotelement|Pivotstrategien]] für den dualen Simplex-Algorithmus erzielt, insbesondere durch das ''dual steepest edge pricing'' von John Forrest und Donald Goldfarb.

Sowohl das Simplex-Verfahren als auch verschiedene Innere-Punkte-Verfahren sind nach wie vor Gegenstand aktueller Forschung. Die lineare Optimierung wird heute in sehr vielen Bereichen zur Lösung praktischer Probleme eingesetzt. Unter der in praktischen Anwendungen fast immer erfüllten Voraussetzung, dass die auftretenden LP-Matrizen [[Dünnbesetzte Matrix|dünnbesetzt]] sind (also nur wenige Nicht-Null-Einträge besitzen), können heute lineare Programme mit mehreren hunderttausend Variablen oder Ungleichungen innerhalb weniger Minuten bis Stunden optimal gelöst werden. Die tatsächliche Lösungszeit hängt dabei neben dem verwendeten Lösungsverfahren auch stark von der Anzahl und Anordnung der Nicht-Null-Einträge in der beteiligten Matrix und von der Wahl der Startlösung ab.

== Problemdefinition ==
=== Mathematische Formulierung ===
Bei einem ''linearen Programm (LP)'' sind eine [[Matrix (Mathematik)|Matrix]] <math>A\in\R^{m,n}</math> und zwei [[Vektor]]en <math>b\in\R^m</math> und <math>c\in\R^n</math> gegeben. Eine ''zulässige Lösung'' ist ein Vektor <math>x \in \R^n</math> mit nichtnegativen Einträgen, der die linearen Bedingungen
:<math>
\begin{matrix}
a_{11} x_1 &+ \ldots &+ a_{1n} x_n &\leq b_1 \\
a_{21} x_1 &+ \ldots &+ a_{2n} x_n &\leq b_2 \\
\vdots & \vdots & \vdots & \vdots \\
a_{m1} x_1 &+ \ldots &+ a_{mn} x_n &\leq b_m
\end{matrix}
</math>
erfüllt. Ziel ist es, unter allen zulässigen Vektoren <math>x</math> einen zu finden, der das [[Standardskalarprodukt]]
:<math>c^T x = c_1 x_1 + \ldots + c_n x_n</math>
maximiert. Dieses Optimierungsproblem in der sogenannten ''Standardform'' wird oft abkürzend als
:<math>\max \{ c^T x \;|\; A x \leq b, x \geq 0 \}</math>
geschrieben, wobei die Bedingungen <math>A x \le b</math> und <math>x \geq 0</math> komponentenweise zu verstehen sind.

Darüber hinaus gibt es noch weitere äquivalente Formulierungen, die sich durch einfache Operationen in diese Standardform bringen lassen:
* Minimierungsproblem statt Maximierungsproblem: Multiplikation des Zielfunktionsvektors <math>c</math> mit (-1)
* Größer-gleich- statt Kleiner-gleich-Bedingungen: Multiplikation der entsprechenden Ungleichungen mit (-1)
* Gleichheitsbedingungen statt Ungleichheitsbedingungen: Ersetzung von <math>a_i x = b_i</math> durch <math>a_i x \leq b_i</math> und <math> - a_i x \leq - b_i</math>
* Variablen ohne Nichtnegativitätsbedingung: Ersetzung von <math>x</math> durch <math>x' - x''</math> mit <math>x', x'' \ge 0</math>

Die lineare Optimierung behandelt nur Probleme, bei denen die Variablen beliebige reelle Zahlen annehmen dürfen. Ein ''(gemischt-)ganzzahliges lineares Programm'', bei dem einige Variablen nur ganzzahlige Werte annehmen dürfen, ist ''kein Spezialfall'', sondern – im Gegenteil – eine Verallgemeinerung. Solche Optimierungsprobleme sind im Allgemeinen [[NP-Äquivalenz|NP-äquivalent]], d. h. [[P-NP-Problem|vermutlich]] nicht effizient lösbar. Dieser Fall wird von der [[Ganzzahlige lineare Optimierung|ganzzahligen linearen Optimierung]] behandelt.

=== Formen eines Linearen Optimierungsproblems ===
Es gibt vier verschiedene Formen, in der sich Lineare Optimierungsprobleme darstellen lassen.

==== Allgemeine Form ====
Für die Allgemeine Form gelten keine Einschränkungen:

<math>\begin{matrix}\min \\ \max\end{matrix}\; \left\{ c^\top x : Ax \gtreqless b \right\}</math>

==== Standardform ====
Die Standardform benötigt eine Nichtnegativitätsbedingung für <math>x</math> und eine zu maximierende Zielfunktion, sowie eine Größer-Gleich-Relation der Nebenbedingungen:

<math>\max \left\{ c^\top x : Ax \leq b,\;\; x \geq 0 \right\}</math>

==== Normalform ====
Die Normal beinhaltet die Einschränkungen der Standardform. Zusätzlich wird die Koeffizientenmatrix <math>A</math> um die Einheitsmatrix <math>E \in \mathbb{R}^{m\times m}</math> und die Schlupfvariablen <math>s = s_1, \dots, s_{m-n}</math> erweitert, sodass gilt:

<math>(A|E)\begin{pmatrix}x\\s\end{pmatrix} = b = \begin{pmatrix}a_{11} & \dots & a_{1n} & e_{11} & \dots & e_{1m}\\
\vdots & & \vdots & \vdots & & \vdots\\
a_{m1} & \dots & a_{mn} & e_{m1} & \dots & e_{mm}
\end{pmatrix} \cdot \begin{pmatrix}x_1\\ \vdots \\ x_n\\ s_1 \\ \vdots \\ s_{m-n}\end{pmatrix} = \begin{pmatrix}b_1\\ \vdots \\ b_m\end{pmatrix}</math>

mit dem Teilvektor <math>s = \begin{pmatrix}s_1 & \dots & s_{m-n}\end{pmatrix}^\top</math> als Schlupfvariablen.

Um in der ursprünglichen Notationsweise zu bleiben, gilt also

<math>\max\left\{ c^\top x : \begin{pmatrix}A | E\end{pmatrix} \cdot \begin{pmatrix}x& s\end{pmatrix}^\top = b , \;\; x\geq 0\right\}</math>

==== Kanonische Form ====
Die Kanonische Form wird für den Simplex-Algorithmus benötigt. Sie beinhaltet die Normalform und benötigt die Nichtnegativitätsbedingung <math>b\geq 0</math>.

<math>\max\; \left\{ c^\top x : (A | E) (x\quad s)^\top = b , \;\; x,b\geq 0\right\}</math>

=== Geometrische Interpretation ===
Ein lineares Programm lässt sich geometrisch interpretieren. Wenn <math>a_i x \leq b_i</math> die i. Zeile eines linearen Programms in Standardform ist, dann beschreibt die Menge <math>\{ x \; | \; a_i x = b_i \}</math> aller Punkte <math>x</math>, die die zugehörige lineare Gleichung <math>a_i x = b_i</math> erfüllen, eine [[Hyperebene]] im <math>n</math>-dimensionalen Raum. Die Menge der Punkte, die die lineare Ungleichung <math>a_i x \leq b_i</math> erfüllen, besteht aus allen Punkten auf der einen Seite der Hyperebene (inklusive der Hyperebene selbst), bildet also einen [[Halbraum]]. Jede Zeile <math>a_i x \leq b_i</math> teilt daher den <math>n</math>-dimensionalen Raum in zwei Hälften, wobei die Punkte in der einen Hälfte zulässig sind und in der anderen nicht. Die Menge
: <math>P := \{ x \; | \; Ax \leq b, \; x \geq 0 \} = \{ x \; | \; a_i x \leq b_i, \; i = 1,\ldots,m, \; x \geq 0 \}</math>
der Punkte, die alle Ungleichungen des LPs erfüllen, ist genau der [[Schnittmenge#Schnittmenge|Schnitt]] dieser Halbräume, also die Menge aller Punkte, die für jede Ungleichung in der jeweiligen zulässigen Hälfte des Raumes liegen. Diese Lösungsmenge <math>P</math> des linearen Programms bildet ein [[Konvexe Menge|konvexes]] [[Polyeder]], also ein <math>n</math>-dimensionales Vieleck, in dem die Verbindungslinie zwischen zwei beliebigen Punkten von <math>P</math> vollständig in <math>P</math> enthalten ist. Ziel der Optimierung ist es, unter allen Punkten des Polyeders einen zu finden, der die lineare Funktion <math>c:\,x \to c^T x</math> maximiert. Geometrisch entspricht dies der Verschiebung der Hyperebene <math>\{ x \; | \; c^T x = 0 \}</math> in Richtung des Vektors <math>c</math>, bis die verschobene Hyperebene das Polyeder gerade noch [[Berührung (Mathematik)|berührt]]. Die Menge aller Berührungspunkte ist genau die Menge der Optimallösungen des linearen Programms.

[[Datei:Linopt-feasible-region2.png|miniatur|250px|Zulässige Menge (blau) eines LPs in Standardform mit einschränkenden Ungleichungen (grün), Zielfunktion (rote Linie) und einer optimalen Lösung (roter Punkt)]]

Im nebenstehenden Bild ist diese Anordnung für den Fall von nur zwei Variablen dargestellt. Eine Hyperebene im zweidimensionalen Raum ist eine [[Gerade]], im Bild grün dargestellt. Jede dieser Geraden teilt den Raum in eine zulässige und eine unzulässige Hälfte. Die Menge der Punkte, die auf der zulässigen Seite jeder Geraden liegen, bilden das blau dargestellte Polyeder (Vieleck). Die rote Gerade stellt die Zielfunktion dar. Ziel ist es, sie so weit wie möglich in Richtung des roten Vektors <math>c</math> zu verschieben, ohne das Polyeder zu verlassen. Im nebenstehenden Bild ist der rote Berührungspunkt der Zielfunktionsgeraden mit dem Polyeder die einzige Optimallösung.

== Beispiel aus der Produktionsplanung (zweidimensional) ==
Eine Firma stellt zwei verschiedene Produkte her, für deren Fertigung drei Maschinen A, B, C zur Verfügung stehen. Diese Maschinen haben eine maximale monatliche Laufzeit (Kapazität) von 170 Stunden (A), 150 Stunden (B) bzw. 180 Stunden (C). Eine Mengeneinheit (ME) von Produkt 1 liefert einen [[Deckungsbeitrag]] von 300 Euro, eine ME von Produkt 2 dagegen 500 Euro. Fertigt man eine ME von Produkt 1, dann benötigt man dafür eine Stunde die Maschine A und eine Stunde die Maschine B. Eine Einheit von Produkt 2 belegt zwei Stunden lang Maschine A, eine Stunde Maschine B und drei Stunden Maschine C. Ziel ist es, Produktionsmengen zu bestimmen, die den Deckungsbeitrag der Firma maximieren, ohne die Maschinenkapazitäten zu überschreiten. Fixkosten können in dem Optimierungsproblem ignoriert und anschließend dazuaddiert werden, da sie per Definition unabhängig von den zu bestimmenden Produktionsmengen sind.

=== Mathematische Modellierung ===
[[Datei:Linear_programming_polytope.png|miniatur|330px|Veranschaulichung des Beispiels (Erklärung siehe Text)]]

Angenommen, der Betrieb fertigt pro Monat <math>x_1</math> ME von Produkt 1 und <math>x_2</math> ME von Produkt 2. Dann beträgt der Gesamtdeckungsbeitrag

:<math>G(x_1,x_2) = 300 x_1 + 500 x_2.</math>

Diesen Wert möchte die Firma maximieren. Da die Maschinenkapazitäten eingehalten werden müssen, ergeben sich die Nebenbedingungen:
:<math>
\begin{alignat}{3}
x_1 &+ & 2x_2 &\leq 170 &&\text{ (Maschine A, rechts in schwarz eingezeichnet)}\\
x_1 &+ & x_2 &\leq 150 &&\text{ (Maschine B, rechts in tuerkis eingezeichnet)}\\
& & 3x_2 &\leq 180 &&\text{ (Maschine C, rechts in violett eingezeichnet)}
\end{alignat}
</math>
Da außerdem keine negativen Produktionsmengen möglich sind, muss <math>x_1, x_2 \geq 0</math> gelten (Nichtnegativitätsbedingung).

=== Geometrische Interpretation als Polyeder ===
Im nebenstehenden Bild sind die Ungleichungen aus dem obigen Beispiel als türkise, schwarze und violette Beschränkungen eingezeichnet. Zusammen definieren sie das (blau umrandete) [[Polyeder]] der zulässigen Punkte. Die rotgestrichelten Linien stellen Iso-Gewinnfunktionen dar, d. h., alle Punkte auf einer solchen Linie haben denselben Zielfunktionswert. Da die Firma möglichst viel Gewinn erzielen will, ist das Ziel der Optimierung, solch eine rot gestrichelte Linie so weit nach rechts oben zu schieben, dass sie gerade noch das Polyeder berührt. Alle Berührungspunkte sind dann optimal. In diesem Fall ist der Punkt (130,20) die eindeutige optimale [[Ecke]], und der optimale Zielfunktionswert beträgt 49.000 Euro.

Im Allgemeinen ist die Optimallösung eines linearen Optimierungsproblems allerdings weder eindeutig noch ganzzahlig. Wenn beispielsweise beide Produkte den gleichen Deckungsbeitrag hätten, wären die roten Iso-Gewinnfunktionen parallel zur Ungleichung <math>x_1 + x_2 \leq 150</math>. In diesem Fall wäre jeder Punkt auf der Strecke zwischen (130,20) und (150,0) optimal, es gäbe also unendlich viele Optimallösungen.

== Anwendungen ==
Die lineare Optimierung hat viele Anwendungen in der Praxis, von denen hier einige beispielhaft vorgestellt werden sollen.

=== Produktionsplanung ===
Wie in dem obigen Beispiel kann ein Unternehmen eine Reihe von Produkten mit bekanntem [[Deckungsbeitrag]] herstellen. Die Herstellung einer Einheit jedes dieser Produkte benötigt eine bekannte Menge an beschränkten Ressourcen (Produktionskapazität, Rohmaterialien, etc). Die Aufgabe ist die Erstellung eines Produktionsplans, d. h. die Festlegung, wie viel von jedem Produkt produziert werden soll, so dass der Profit der Firma maximiert wird, ohne die Ressourcenbeschränkungen zu verletzen. Ein Beispiel hierfür sind [[Zuschnittsproblem]]e.

=== Mischungsprobleme ===
Eine ähnliche Anwendung sind Mischungsprobleme, bei denen es darum geht, Zutaten zu einem Endprodukt zusammenzustellen, wobei die Menge der jeweiligen Zutaten innerhalb eines bestimmten Bereichs variiert werden kann. Ein Beispiel hierfür ist das 1947 von George Dantzig untersuchte ''Diät-Problem:'' Gegeben sind eine Reihe von Rohmaterialien (z. B. Hafer, Schweinefleisch, Sonnenblumenöl, etc.) zusammen mit ihrem Gehalt an bestimmten Nährwerten (z. B. Eiweiß, Fett, Vitamin A, etc.) und ihrem Preis pro Kilogramm. Die Aufgabe besteht darin, eines oder mehrere Endprodukte mit minimalen Kosten aus den Rohmaterialien zu mischen, unter der Nebenbedingung, dass bestimmte Mindest- und Höchstgrenzen für die einzelnen Nährwerte eingehalten werden. Auch bei Schmelzvorgängen treten solche Mischungsprobleme auf, wie z. B. in der Stahlherstellung.

=== Routing in Telekommunikations- oder Verkehrsnetzen ===
Ein klassisches Anwendungsgebiet der linearen Optimierung ist die Bestimmung eines [[Routing]]s für Verkehrsanforderungen in [[Telekommunikationsnetz|Telekommunikations-]] oder Verkehrsnetzen, oft in Verbindung mit Kapazitätsplanung. Dabei müssen Verkehrsflüsse so durch ein Netz geroutet werden, dass alle Verkehrsanforderungen erfüllt werden, ohne die Kapazitätsbedingungen zu verletzen. Diese sogenannten ''Mehrgüterflüsse'' (englisch ''multicommodity flow'') sind ein Beispiel für ein Problem, das mit linearer Optimierung gut lösbar ist, für das aber im allgemeinen Fall kein exakter Algorithmus bekannt ist, der nicht auf LP-Theorie basiert.

=== Spieltheorie ===
{{Hauptartikel|Lineare Optimierung (Spieltheorie)}}

Innerhalb der mathematischen [[Spieltheorie]] kann die lineare Optimierung dazu verwendet werden, optimale Strategien in Zwei-Personen-[[Nullsummenspiel]]en zu berechnen. Dabei wird für jeden Spieler eine [[Wahrscheinlichkeitsverteilung]] berechnet, bei der es sich um ein zufälliges Mischungsverhältnis seiner Strategien handelt. „Würfelt“ ein Spieler seine Strategie gemäß dieser Wahrscheinlichkeitsverteilung zufällig aus, ist ihm die bestmögliche Gewinnerwartung sicher, die er haben kann, wenn er seine Strategie unabhängig von der seines Gegners wählt.

=== Nichtlineare und ganzzahlige Optimierung ===
Viele Anwendungsprobleme lassen sich mit kontinuierlichen Variablen nicht sinnvoll modellieren, sondern erfordern die Ganzzahligkeit einiger Variablen. Beispielsweise können keine 3,7 Flugzeuge gekauft werden, sondern nur eine ganze Anzahl, und ein Bus kann nur ganz oder gar nicht fahren, aber nicht zu zwei Dritteln. Bei der Verwendung von [[Branch-and-Cut]] zur Lösung eines solchen [[Ganzzahlige lineare Optimierung|ganzzahligen linearen Optimierungsproblems]] müssen sehr viele ähnliche lineare Programme hintereinander als Unterproblem gelöst werden. Eine optimale ganzzahlige Lösung eines linearen Programms zu finden ist [[NP-Vollständigkeit|NP-vollständig]], aber [[Parametrisierter Algorithmus|parametrisierbar]] in der Anzahl der Variablen. Es ist sogar NP-vollständig, irgendeine ganzzahlige Lösung eines linearen Programms zu finden.
Auch zur Lösung [[Optimierung (Mathematik)#Nichtlineare Optimierung|nichtlinearer Optimierungsprobleme]] gibt es Algorithmen, in denen lineare Programme als Unterproblem gelöst werden müssen (z. B. ''Sequential Linear Programming'').

== Lösbarkeit aus theoretischer Sicht ==
Ein lineares Programm hat nicht immer eine Optimallösung. Drei Fälle sind zu unterscheiden:
# Das LP ist ''unzulässig'', weil sich Ungleichungen widersprechen (z. B. <math>x \leq 1</math> und <math>x \geq 2</math>). In diesem Fall gibt es keine Lösung, die alle Ungleichungen erfüllt, d. h. das zugehörige Polyeder ist die leere Menge.
# Das LP ist unbeschränkt, d. h. es gibt unendlich viele zulässige Lösungen mit beliebig hohen Zielfunktionswerten (z. B. <math>\max \{ x \;|\; x \geq 0\}</math>).
# Das LP besitzt mindestens eine Optimallösung. Dies ist beispielsweise gegeben, falls das zugehörige Polyeder beschränkt, also ein [[Polytop (Geometrie)|Polytop]], und nichtleer ist.

Die Menge der Optimallösungen bildet eine Seitenfläche ([[Ecke]], Kante,…) des Polyeders, so dass es entweder keine, genau eine oder unendlich viele Optimallösungen gibt. Letzteres bedeutet anschaulich, dass die Zielfunktion parallel zu einer beschränkenden Hyperebene liegt. Wenn das LP lösbar und beschränkt ist, gibt es immer eine optimale Ecke, also einen optimalen Punkt, der nicht aus anderen Punkten des Polyeders [[Linearkombination|konvex kombiniert]] werden kann. Diese Eigenschaft macht sich unter anderem das [[Simplex-Verfahren|primale Simplex-Verfahren]] zunutze.

== Komplexität und Lösungsverfahren ==
Das Finden einer Optimallösung bzw. die Feststellung, dass ein LP keine Lösung besitzt, ist mit Hilfe von [[#Innere-Punkte-Verfahren|Innere-Punkte-Verfahren]] oder der [[#Ellipsoidmethode|Ellipsoidmethode]] in [[Polynomialzeit]] möglich, so dass die Lineare Optimierung aus Sicht der [[Komplexitätstheorie]] ein leicht lösbares Problem ist. Aus praktischer Sicht ist jedoch oft das Simplex-Verfahren schneller, obwohl es theoretisch exponentielle Laufzeit besitzt. Es ist bis heute unbekannt, ob es einen ''streng polynomialen'' Algorithmus zur Lösung allgemeiner linearer Programme gibt, also einen Algorithmus, dessen Laufzeit nicht von der Größe der auftretenden Zahlen abhängt.

=== Simplex-Verfahren ===
{{Hauptartikel|Simplex-Verfahren}}

[[Datei:Simplex-method-3-dimensions.png|miniatur|Das Simplex-Verfahren läuft die Ecken des Polyeders ab, bis es an einer Optimallösung angekommen ist.]]

Das ''Simplex-Verfahren'', das im Jahre 1947 von [[George Dantzig]] entwickelt und seitdem wesentlich verbessert wurde, ist der wichtigste Algorithmus zur Lösung linearer Programme in der Praxis. Die Grundidee besteht darin, von einer Ecke des [[Polyeder]]s zu einer benachbarten Ecke mit besserem Zielfunktionswert zu laufen, bis dies nicht mehr möglich ist. Da es sich bei der linearen Optimierung um ein [[Konvexe Optimierung|konvexes Optimierungsproblem]] handelt, ist die damit erreichte lokal optimale Ecke auch global optimal. Das Verfahren ist im nebenstehenden Bild illustriert: Ziel ist es, einen möglichst weit oben liegenden Punkt des Polyeders zu finden. In roter Farbe ist ein möglicher Pfad des Simplex-Verfahrens entlang der Ecken des Polyeders dargestellt, wobei sich der Zielfunktionswert mit jedem Schritt verbessert.

Aus komplexitätstheoretischer Sicht benötigt der Simplex-Algorithmus im schlechtesten Fall exponentielle Laufzeit. Für jede Variante des Algorithmus konnte bisher ein Beispiel konstruiert werden, bei dem der Algorithmus alle Ecken des Polyeders abläuft, meist basierend auf dem ''Klee-Minty-Würfel''.<ref>Harvey J. Greenberg: ''Klee-Minty Polytope Shows Exponential Time Complexity of Simplex Method.'' University of Colorado at Denver, 1997 ([http://glossary.computing.society.informs.org/notes/Klee-Minty.pdf pdf])</ref> Aus praktischer Sicht sind solche Fälle allerdings sehr selten. Bei sogenannten ''entarteten'' linearen Programmen, bei denen eine Ecke durch mehr Ungleichungen definiert wird als unbedingt nötig (beispielsweise durch drei Ungleichungen im zweidimensionalen Raum), kann es allerdings passieren, dass der Algorithmus, wie in diesem [[Pivotverfahren#Kreislaufanfällige Pivotauswahlregel|Beispiel]], immer wieder dieselbe Ecke betrachtet, anstatt zur nächsten Ecke zu wechseln. Dieses Problem tritt bei praktischen Planungsproblemen häufig auf und kann dazu führen, dass der Algorithmus nicht terminiert oder der Zielfunktionswert sich über viele Iterationen hinweg nicht verbessert. Gute Simplex-Implementierungen entdecken solche Fälle und behandeln sie beispielsweise durch eine leichte Perturbation (absichtliche numerische Störung) des Problems, die später wieder rückgängig gemacht wird.

Unter der Voraussetzung, dass die Matrix <math>A</math> [[Dünnbesetzte Matrix|dünnbesetzt]] ist (d. h. nur wenige Koeffizienten ungleich Null enthält), was in der Praxis fast immer der Fall ist, können mit dem Simplex-Verfahren heute sehr große LPs in annehmbarer Zeit optimal gelöst werden. Ein großer Vorteil des Simplex-Verfahrens besteht darin, dass es nach dem Hinzufügen einer Ungleichung oder Variable im LP oder nach einer leichten Änderung der Koeffizienten einen „Warmstart“ von einer vorher bereits erreichten Ecke aus durchführen kann, so dass nur wenige Iterationen zum erneuten Finden einer Optimallösung notwendig sind. Dies ist insbesondere im Zusammenhang mit [[Schnittebenenverfahren]] oder [[Branch-and-Cut]] zur Lösung ganzzahliger linearer Programme von großer Bedeutung, wo sehr viele ähnliche LPs in Serie gelöst werden müssen.

=== Innere-Punkte-Verfahren ===
{{Hauptartikel|Innere-Punkte-Verfahren}}

[[Datei:Interior-point-method-three-dimensions.png|miniatur|Innere-Punkte-Verfahren nähern sich einer Optimallösung durch das Innere des Polyeders.]]

''Innere-Punkte-Verfahren'', auch ''Barrier-Verfahren'' genannt, nähern sich einer optimalen Ecke durch das Innere des Polyeders (siehe Bild). Der erste solche Algorithmus wurde 1984 von [[Narendra Karmarkar]] beschrieben. Seine Bedeutung lag vor allem darin, dass er der erste polynomiale Algorithmus zum Lösen linearer Programme war, der das Potential hatte, auch praktisch einsetzbar zu sein. Die entscheidenden Durchbrüche, die Innere-Punkte-Verfahren konkurrenzfähig zum Simplex-Algorithmus machten, wurden aber erst in den 1990er Jahren erzielt. Ein Vorteil dieser Verfahren ist, dass sie, im Gegensatz zum Simplex-Verfahren, in leichter Abwandlung auch zum Lösen [[Quadratische Programmierung|quadratischer]] oder bestimmter [[Nichtlineare Optimierung|nichtlinearer Programme]] eingesetzt werden können. Des Weiteren sind sie für große, dünnbesetzte Probleme häufig dem Simplex-Verfahren überlegen. Ein Nachteil ist, dass sie sich nach dem Hinzufügen einer Nebenbedingung oder Variablen im LP bei weitem nicht so effizient „warmstarten“ lassen wie das Simplex-Verfahren.

=== Ellipsoidmethode ===
{{Hauptartikel|Ellipsoidmethode}}

[[Datei:Ellipsoid-method.png|miniatur|Zwei Iterationen der Ellipsoidmethode]]

Die ''Ellipsoidmethode'' wurde ursprünglich in den Jahren 1976 und 1977 von [[David Yudin]] und [[Arkadi Nemirovski]] und unabhängig davon von [[Naum Schor]] zur Lösung [[Konvexe Optimierung|konvexer Optimierungsprobleme]] entwickelt. Im Jahre 1979 modifizierte der russische Mathematiker [[Leonid Khachiyan]] das Verfahren und entwickelte damit den ersten [[Polynomialzeit|polynomialen]] Algorithmus zur Lösung linearer Programme. Für praktische Zwecke ist er allerdings nicht geeignet. Die Ellipsoidmethode dient dazu, einen beliebigen Punkt in einem volldimensionalen Polyeder zu finden oder festzustellen, dass das Polyeder leer ist. Da man zeigen kann, dass die Lösung eines LPs äquivalent ist zum Finden eines zulässigen Punktes in einem geeignet definierten Hilfspolyeder, lässt sich mit Hilfe der Ellipsoidmethode (theoretisch) auch ein LP lösen.

Die Grundidee des Verfahrens besteht darin, ein [[Ellipsoid]] (im Bild rot) zu definieren, das alle Ecken des Polyeders (blau) enthält. Anschließend wird festgestellt, ob der Mittelpunkt dieses Ellipsoids im Polyeder enthalten ist. Falls ja, hat man einen Punkt im Polyeder gefunden und kann aufhören. Andernfalls kann man das Halbellipsoid bestimmen, in dem das Polyeder enthalten sein muss, und ein neues, kleineres Ellipsoid um das Polyeder legen (im Bild grün). Nach einer Anzahl von Schritten, die polynomial von der [[Kodierungslänge]] des LPs abhängt, hat man entweder einen Punkt im Polyeder gefunden oder weiß, dass das Polyeder leer ist, weil es sonst größer sein müsste als das aktuelle Ellipsoid.

=== Weitere Methoden ===
Für einige Klassen von linearen Programmen gibt es spezielle Algorithmen, die theoretisch oder praktisch schneller laufen als z. B. der Simplexalgorithmus. Ein Beispiel hierfür ist die [[Ungarische Methode]], die auf Zuordnungsprobleme angewandt werden kann. Lineare Programme mit zwei Variablen lassen sich näherungsweise zeichnerisch lösen (siehe [[#Beispiel|obiges Beispiel]]). Diese Methode hat aber hauptsächlich didaktischen Wert, da in der Praxis auftretende LPs leicht mehrere Hunderttausende Variablen besitzen können.

== Dualität ==
=== Obere Schranken ===
Um zu verifizieren, dass eine gültige Lösung <math>x^*</math> optimal für ein lineares Programm ist, versucht man,
den Zielfunktionswert des Programms nach oben abzuschätzen. Für das obige Beispiel gilt etwa

:<math>
x_1 + x_2 \leq 150
\; \Rightarrow \; 500 x_1 + 500 x_2 \leq 500 \cdot 150 = 75000
</math>

Da <math>x_1 \geq 0</math> und <math>x_2 \geq 0</math> folgt daraus, dass

:<math>
G(x_1, x_2) = 300 x_1 + 500 x_2 \leq 500 x_1 + 500 x_2 \leq 75000
</math>

Die Optimallösung kann somit keinen Zielfunktionswert größer als <math>75000</math> haben. Eine bessere
Abschätzung erhält man, indem man <math>300</math> Mal die zweite und <math>100</math> Mal die dritte
Ungleichung addiert:

:<math>
G(x_1, x_2) = 300 x_1 + 500 x_2 \leq 300 \cdot (x_1 + x_2) + 100 \cdot ( 3 x_2 ) = 300 x_1 + 600 x_2 \leq 63000
</math>

Dieses Verfahren lässt sich leicht verallgemeinern: Wählt man für ein gegebenes LP in Standardform
''Multiplikatoren'' <math>y \in \mathbb{R}^{m}_+</math>, so ist jeder Vektor <math>y^T A</math> eine obere
Schranke, sofern <math>y^T A \geq c^T</math>. Dies entspricht einer
[[Linearkombination#Positive Koeffizienten|konischen]] Kombination der Spalten von <math>A</math>. Die Bedingung
<math>y^T A \geq c^T</math> stellt sicher,
dass sich die Koeffizienten von <math>c^T</math> für <math>x \geq 0 </math> gegen
<math>y^T A</math> abschätzen lassen. Der Zielfunktionswert der durch <math>y</math> gegebenen obere Schranke ist
somit <math>y^T b</math>. Um die ''beste'' obere Schranke zu finden kann man nun ein weiteres LP aufstellen:

:<math>\min \; \{ y^T b \,:\, y^T A \geq c^T,\; y \geq 0\}</math>

Dieses LP nennt man das ''duale Problem'' zu dem ''primalen Problem''

:<math>\max \; \{ c^T x \,:\, Ax \leq b,\; x \geq 0\}</math>

Die Einträge des Vektors <math>y</math> werden als Multiplikatoren oder ''Dualvariablen'' bezeichnet.

Falls ein lineares Programm aus einem [[Kombinatorische Optimierung| kombinatorischen Optimierungsproblem]] entsteht, so
hat das duale Programm oft eine anschauliche Interpretation; die nachfolgenden Sätze können dann auch benutzt werden,
um Resultate wie das [[Max-Flow-Min-Cut-Theorem|Max-Flow-Min-Cut Theorem]] herzuleiten.

=== Dualisierung beliebiger linearer Programme ===
Für lineare Programme, welche nicht in Standardform vorliegen, gelten die folgenden Vorschriften zur
Dualisierung:

{| class="wikitable"
|-
! primales LP !! duales LP
|-
| <math>\max \; \{ c^T x \,:\, Ax \leq b,\; x \geq 0\}</math> || <math>\min \; \{ y^T b \,:\, y^T A \geq c^T,\; y \geq 0\}</math>
|-
| <math>\max \; \{ c^T x \,:\, Ax = b,\; x \geq 0\}</math> || <math>\min \; \{ y^T b \,:\, y^T A \geq c^T\}</math>
|-
| <math>\max \; \{ c^T x \,:\, Ax \leq b\}</math> || <math>\min \; \{ y^T b \,:\, y^T A = c^T,\; y \geq 0\}</math>
|}

Für Minimierungsprobleme gilt analog:

{| class="wikitable"
|-
! primales LP !! duales LP
|-
| <math>\min \; \{ c^T x \,:\, Ax \geq b,\; x \geq 0\}</math> || <math>\max \; \{ y^T b \,:\, y^T A \leq c^T,\; y \geq 0\}</math>
|-
| <math>\min \; \{ c^T x \,:\, Ax = b,\; x \geq 0\}</math> || <math>\max \; \{ y^T b \,:\, y^T A \leq c^T\}</math>
|-
| <math>\min \; \{ c^T x \,:\, Ax \geq b\}</math> || <math>\max \; \{ y^T b \,:\, y^T A = c^T,\; y \geq 0\}</math>
|}

Im Allgemeinen gilt:

{| class="wikitable"
|-
! primales LP !! duales LP
|-
| nichtnegative Variable || Ungleichung
|-
| nicht vorzeichenbeschränkte Variable || Gleichung
|-
| Ungleichung || nichtnegative Variable
|-
| Gleichung || nicht vorzeichenbeschränkte Variable
|}

Dabei ist zu beachten, dass bei Maximierungsproblemen die Ungleichungen stets in der Form
<math>\alpha x \leq \beta</math> und bei Minimierungsproblemen in der Form
<math>\alpha x \geq \beta</math> aufgeschrieben werden.

=== Eigenschaften des dualen Programms ===
Das primale und duale LP bilden ein [[Dualität (Mathematik)|duales]] Paar, es gilt also, dass aus der
Dualisierung des dualen LP wieder das primale LP entsteht.

Des Weiteren gilt für beliebige zulässige primale bzw. duale Lösungen <math>x,y</math>:

:<math>
c^T x \leq y^T A x \leq y^T b
</math>

Dabei gilt die erste Ungleichung, da <math>x \geq 0</math> und <math>y^T A \geq c^T</math> und die zweite,
weil <math>A x \leq b</math> und <math>y \geq 0</math>. Dieses Resultat ist als der ''schwache Dualitätssatz''
bekannt.

=== Der starke Dualitätssatz ===
Der ''starke Dualitätssatz'' verschärft die obige Aussage: Wenn eines der beiden LPs eine beschränkte Optimallösung besitzt, dann auch das andere, und die optimalen Zielfunktionswerte sind in diesem Fall gleich. Für jede optimale Lösung <math>x^*</math> des primalen und jede optimale Lösung <math>y^*</math> des dualen Problems gilt also
:<math>c^T\;x^* = (y^*)^T b</math>.

Man kann zeigen, dass folgende Zusammenhänge gelten:
* Das duale Problem hat genau dann eine beschränkte Optimallösung, wenn das primale Problem eine beschränkte Optimallösung besitzt.
* Wenn das primale Problem keine zulässige Lösung hat, ist das duale Problem unbeschränkt oder hat auch keine zulässige Lösung.
* Wenn das primale Problem unbeschränkt ist, hat das duale Problem keine zulässige Lösung.

Diese und weitere Sätze bilden die Grundlage für alle Verfahren, die mit primalen und dualen Schranken für den Wert einer Optimallösung arbeiten, wie beispielsweise [[Branch-and-Cut]] und [[Schnittebenenverfahren]].

=== Der Satz vom komplementären Schlupf ===
Zusätzlich zu den obigen Zusammenhängen über die Lösbarkeit des primalen bzw dualen Problems gilt die folgende Aussage:

Falls sowohl das primale als auch das duale Problem zulässige Lösungen haben, so existiert
ein Paar <math>x^*,y^*</math> von Lösungen mit der Eigenschaft, dass

:<math>
y^*_i \cdot (b_i - (A x^*)_i) = 0 \;\;\; \forall i = 1, \ldots m
</math>

Dies bedeutet, dass <math>y^*_i > 0 \; \Rightarrow \; (A x^*)_i = b_i</math> und
umgekehrt <math>(A x^*)_i < b_i \; \Rightarrow \; y^*_i = 0 </math>. Hierbei bezeichnet <math>(A x^*)_i</math>
die <math>i</math>-te Komponente des Vektors <math>A x^*</math>.

Man sieht leicht, dass diese Lösungen auch optimal sind, da in
diesem Fall die obigen Ungleichungen mit Gleichheit erfüllt sind:

:<math>c^Tx^* = (y^*)^T A x^* = (y^*)^Tb</math>.

Diese zusätzliche Eigenschaft wird zum Beispiel bei primal-dualen Algorithmen ausgenutzt, um die Optimalität einer
Lösung zu verifizieren.

=== Äquivalenz von Optimierungs- und Zulässigkeitsproblemen ===
Der starke Dualitätssatz ermöglicht es ebenfalls, Optimierungsprobleme auf Zulässigkeitsprobleme zu reduzieren:
Anstatt das Problem <math>\max \; \{ c^T x \,:\, Ax \leq b,\; x \geq 0\}</math> zu lösen, kann man ebenso gut
ein Paar von Lösungen finden, die den folgenden Bedingungen gehorchen:

:<math>
\begin{align}
Ax &\leq b ,\; x \geq 0 \\
y^T A &\geq c^T ,\; y \geq 0 \\
c^T x &\geq y^T b \\
\end{align}
</math>

Dabei stellen die ersten beiden Bedingungen sicher, dass <math>x</math> eine zulässige Lösung des Problems ist, während die nächsten Bedingungen dafür sorgen,
dass <math>y</math> gültig für das duale Programm ist. Die letzte Ungleichung wird nur von solchen Lösungspaaren <math>x,y</math> erfüllt, deren Zielfunktionswerte übereinstimmen.
Dies ist genau dann der Fall, wenn es sich bei <math>x</math> und <math>y</math> um die Optimallösungen der beiden Probleme handelt.
Das obige Optimierungsproblem hat damit eine Optimallösung genau dann wenn der obige Polyeder nicht leer ist.
Offensichtlich kann man die Zulässigkeit eines Problems auch durch Lösung eines Optimierungsproblems entscheiden, man wählt dazu beispielsweise den [[Nullvektor]] als
Zielfunktion. Damit sind lineare Optimierungsprobleme und Zulässigkeitsprobleme von Polyedern äquivalent bezüglich ihrer [[Komplexitätstheorie|Zeitkomplexität]].

== Literatur ==
* [[Robert Bixby]]: ''Solving real-world linear programs: A decade and more of progress''. In: ''Operations Research,'' Band 50, Nr. 1, 2002, S. 3–15.
* [[George Dantzig|George B. Dantzig]]: ''Lineare Programmierung und Erweiterungen.'' Springer-Verlag 1966 (Originalausgabe: ''Linear Programming and Extensions'', Princeton University Press, ISBN 0-691-05913-6).
* [[Vašek Chvátal]]: ''Linear Programming.'' W. H. Freeman and Company, New York, 1983, ISBN 0-7167-1587-2.
* [[Alexander Schrijver]]: ''Theory of Linear and Integer Programming.'' John Wiley and Sons. 1998, ISBN 0-471-98232-6.
* F. L. Hitchcock: ''The distribution of a product from several sources to numerous localities''. In: ''Journal of Mathematical Physics,'' Bd. 20, 1941, S. 224–230.
* L. W. [[Kantorowitsch]]: ''Mathematical Methods of Organizing and Planning Production'', Management Science, Vol. 6, No. 4, Jul. 1960, pp. 366-422. http://www.jstor.org/stable/2627082
* Klaus Hagendorf: OpenOffice calc Solver Lösungen der Beispiele in Kantorowitschs Artikel von 1939. http://eurodos.free.fr/docu/econ/Kantorovich1939.zip
* [[Wolfgang Domschke]], Andreas Drexl: ''Einführung in Operations Research.'' 8. Auflage. Springer, Berlin 2011, Kapitel 2. ISBN 978-3-642-18111-2

== Weblinks ==
[http://plato.asu.edu/ftp/lpfree.html Vergleich nichtkommerzieller LP-Codes] von Hans Mittelmann, Arizona State University, mit Links zu den Codes (englisch)
* [http://web.archive.org/web/20100527235902/http://www-neos.mcs.anl.gov/CaseStudies/dietpy/WebForms/index.html Das Diät-Problem] (englisch)
* [http://www.pnjb.de/uni/ws1011/hoehere-algorithmik.pdf Vorlesungsmitschrift mit deutschsprachiger Einführung in die lineare Optimierung] (PDF; 1,9 MB)

== Belege ==
<references />

[[Kategorie:Optimierung]]
[[Kategorie:Wirtschaftsmathematik]]

Prandtlsonde

2012-11-20T09:07:00Z

Mathmon: /* Bestimmung der Luftgeschwindigkeit */

[[Bild:pitot_principle.png|thumb|right|320px|Grundprinzip einer Prandtlsonde (Staurohr) an einem U-Rohr-Manometer]]
Die '''Prandtlsonde''' (benannt nach [[Ludwig Prandtl]]), auch '''Prandtl'sche Staurohr''' genannt, ist ein strömungstechnisches Messinstrument zur Bestimmung des [[Staudruck]]s. Es stellt eine Kombination aus [[Pitotrohr]] und statischer Drucksonde dar. Das Prandtlrohr hat eine Öffnung in Strömungsrichtung zur Messung des Gesamtdruckes und ringförmig in einem wohlberechneten Abstand zur Spitze und zum Schaft seitliche Bohrungen für die statische Druckmessung. Die Differenz dieser beiden Drücke entspricht nach dem [[Bernoulli-Gleichung|Gesetz von Bernoulli]] dem [[Staudruck|dynamischen Druck]] (Staudruck). Der Staudruck kann durch ein [[Manometer]] direkt bestimmt werden,
alternativ lässt sich über den Staudruck auch die Geschwindigkeit der die Sonde umströmenden Luft errechnen.
Dies ist wichtig in der [[Luftfahrt]] zur Bestimmung der Luftgeschwindigkeit (vgl. [[True Airspeed]]). Die Prandtlsonde ist dabei meist Teil eines [[Pitot-Statik-System]]s.

== Bestimmung der Luftgeschwindigkeit ==

[[File:Prandtlsches Staurohr.svg|thumb|Schematische Darstellung des Staurohrs]]

Zur Bestimmung der Luftgeschwindigkeit verwendet man ein Leitungssystem, in dem sich ein [[Fluid]] befindet. Auf dieses Fluid wirkt eine Kraft <math>F_{\textrm{P}}</math>, welche durch den Unterschied zwischen statischem
und Staudruck entsteht. Die Prandtlsonde wird so in eine Luftströmung eingebracht, dass die Strömung senkrecht auf die vordere Öffnung trifft. Dementsprechend herrscht dort ein Druck
<math>P_{\textrm{Ges}} = \frac{1}{2} \rho_{\textrm{Luft}} v^2 + P_{\textrm{Stat}}</math>. Dabei is <math>v</math>
die Strömungsgeschwindigkeit der Luft und <math>P_{\textrm{Stat}}</math> der statische Druck. Eine weitere Öffnung der Sonde ist so positioniert, dass die Luft an ihr vorbeiströmt. Dadurch liegt der Druck in diesem Bereich nur bei <math>P_{\textrm{Stat}}</math>. Es ergibt sich eine Druckdifferenz von <math>\Delta P = \frac{1}{2} \rho_{\textrm{Luft}} v^2</math>. Entsprechend wirkt auf die Fluidsäule im Rohr eine Kraft von <math>F_{\textrm{P}} = \frac{\Delta P}{A} </math>, wobei <math>A</math> die Querschnittsfläche des Rohrs ist. Durch diese Kraft wird die Fluidsäule in dem Rohr heruntergedrückt. Sobald eine Höhendifferenz von <math>\Delta h</math> erreicht ist, wirkt die
[[Gravitation#Gravitation auf der Erde|Gravitationskraft]] dem Prozess entgegen: Eine Masse von
<math>m = \Delta h A \rho_{\textrm{Fluid}} </math> bewirkt eine Kraft von
:<math>F_{\textrm{G}} = m g = \left( \Delta h A \rho_{\textrm{Fluid}} \right) g</math>

Es stellt sich ein [[Gleichgewicht (Physik)|Kräftegleichgewicht]] ein:

:<math>
F_{\textrm{G}} = \left( \Delta h A \rho_{\textrm{Fluid}} \right) g
= \frac{1}{2 A} \rho_{\textrm{Luft}} v^2 = F_{\textrm{P}}
</math>

Diese Gleichung lässt sich zur Bestimmung der Geschwindigkeit <math>v</math> heranziehen:

:<math>
v = \sqrt{ \frac{2 \Delta h \rho_{\textrm{Fluid}} g}{\rho_{\textrm{Luft}}}}
</math>

[[Kategorie:Strömungslehre]]
[[Kategorie:Druckmessgerät]]
[[Kategorie:Dimensionales Messgerät]]

[[pl:Rurka Prandtla]]
[[ru:Трубка Прандтля]]
[[sv:Prandtl-rör]]
[[uk:Трубка Прандтля]]
[[sk:Prandtlova trubica]]

Prandtlsonde

2012-11-19T19:59:20Z

Mathmon: Formel zur Bestimmung der Luftgeschwindigkiet hinzugefügt

[[Bild:pitot_principle.png|thumb|right|320px|Grundprinzip einer Prandtlsonde (Staurohr) an einem U-Rohr-Manometer]]
Die '''Prandtlsonde''' (benannt nach [[Ludwig Prandtl]]), auch '''Prandtl'sche Staurohr''' genannt, ist ein strömungstechnisches Messinstrument zur Bestimmung des [[Staudruck]]s. Es stellt eine Kombination aus [[Pitotrohr]] und statischer Drucksonde dar. Das Prandtlrohr hat eine Öffnung in Strömungsrichtung zur Messung des Gesamtdruckes und ringförmig in einem wohlberechneten Abstand zur Spitze und zum Schaft seitliche Bohrungen für die statische Druckmessung. Die Differenz dieser beiden Drücke entspricht nach dem [[Bernoulli-Gleichung|Gesetz von Bernoulli]] dem [[Staudruck|dynamischen Druck]] (Staudruck). Der Staudruck kann durch ein [[Manometer]] direkt bestimmt werden,
alternativ lässt sich über den Staudruck auch die Geschwindigkeit der die Sonde umströmenden Luft errechnen.
Dies ist wichtig in der [[Luftfahrt]] zur Bestimmung der Luftgeschwindigkeit (vgl. [[True Airspeed]]). Die Prandtlsonde ist dabei meist Teil eines [[Pitot-Statik-System]]s.

== Bestimmung der Luftgeschwindigkeit ==

[[File:Prantdl.svg|thumb|Schematische Darstellung des Staurohrs]]

Zur Bestimmung der Luftgeschwindigkeit verwendet man ein Leitungssystem, in dem sich ein [[Fluid]] befindet. Auf dieses Fluid wirkt eine Kraft <math>F_{\textrm{P}}</math>, welche durch den Unterschied zwischen statischem
und Staudruck entsteht. Die Prandtlsonde wird so in eine Luftströmung eingebracht, dass die Strömung senkrecht auf die vordere Öffnung trifft. Dementsprechend herrscht dort ein Druck
<math>P_{\textrm{Ges}} = \frac{1}{2} \rho_{\textrm{Luft}} v^2 + P_{\textrm{Stat}}</math>. Dabei is <math>v</math>
die Strömungsgeschwindigkeit der Luft und <math>P_{\textrm{Stat}}</math> der statische Druck. Eine weitere Öffnung der Sonde ist so positioniert, dass die Luft an ihr vorbeiströmt. Dadurch liegt der Druck in diesem Bereich nur bei <math>P_{\textrm{Stat}}</math>. Es ergibt sich eine Druckdifferenz von <math>\Delta P = \frac{1}{2} \rho_{\textrm{Luft}} v^2</math>. Entsprechend wirkt auf die Fluidsäule im Rohr eine Kraft von <math>F_{\textrm{P}} = \frac{\Delta P}{A} </math>, wobei <math>A</math> die Querschnittsfläche des Rohrs ist. Durch diese Kraft wird die Fluidsäule in dem Rohr heruntergedrückt. Sobald eine Höhendifferenz von <math>\Delta h</math> erreicht ist, wirkt die
[[Gravitation#Gravitation auf der Erde|Gravitationskraft]] dem Prozess entgegen: Eine Masse von
<math>m = \Delta h A \rho_{\textrm{Fluid}} </math> bewirkt eine Kraft von
:<math>F_{\textrm{G}} = m g = \left( \Delta h A \rho_{\textrm{Fluid}} \right) g</math>

Es stellt sich ein [[Gleichgewicht (Physik)|Kräftegleichgewicht]] ein:

:<math>
F_{\textrm{G}} = \left( \Delta h A \rho_{\textrm{Fluid}} \right) g
= \frac{1}{2 A} \rho_{\textrm{Luft}} v^2 = F_{\textrm{P}}
</math>

Diese Gleichung lässt sich zur Bestimmung der Geschwindigkeit <math>v</math> heranziehen:

:<math>
v = \sqrt{ \frac{2 \Delta h \rho_{\textrm{Fluid}} g}{\rho_{\textrm{Luft}}}}
</math>

[[Kategorie:Strömungslehre]]
[[Kategorie:Druckmessgerät]]
[[Kategorie:Dimensionales Messgerät]]

[[pl:Rurka Prandtla]]
[[ru:Трубка Прандтля]]
[[sv:Prandtl-rör]]
[[uk:Трубка Прандтля]]
[[sk:Prandtlova trubica]]

Fourier-Motzkin-Elimination

2012-11-19T11:52:22Z

Mathmon: Kategorien sind da, Links auc, zB von Theodore Motzkin

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>, geriet jedoch in Vergessenheit und wurde schließlich 1936 in der Doktorarbeit von [[Theodore Motzkin]]
erneut entdeckt <ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
'''Eingabe:''' eine Matrix <math>A</math> der Dimension <math>(m,n)</math>, ein Vektor <math>b</math> der Dimension <math>m</math> und ein Index ''j'' <math>\in \{1, \ldots, n\}</math>
'''Ausgabe:''' eine Matrix <math>D</math> der Dimension <math>(r,n)</math>, sodass <math>D_{ij}= 0</math> für alle <math>i=1,\ldots,r</math> und ein Vektor <math>d</math> mit <math>r</math> Einträgen

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> eine Indizierung der Elemente in <math>R</math>, also eine Funktion <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion
<ref group="A.">
Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.
</ref>.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

:<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

:<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

:<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

:<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

:<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

:<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige zu einer Variable <math>x_k</math> gehörige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen <math>x_k</math> in dem Polyeder <math>P(A,b)</math> gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

:<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Entscheidung der Zulässigkeit ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

:<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{rrr}
- x_1 & - x_2 & \leq -4 \\
x_1 & & \leq 1 \\
& x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{rr}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U^{(2)} U^{(1)} = (1, 1, 1)</math>.

=== Lösung von [[Lineare Optimierung|linearen Programmen]] ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Das resultierende Intervall <math>I</math> beschreibt die Menge der möglichen Werte
für die Variable <math>y</math>. Es treten folgende Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>\gamma</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^* := \gamma</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>
<ref group="A.">
Das hier vorgestellte Verfahren des ''Rückwärtseinsetzens'' lässt sich stets anwenden, um eine zulässige Lösung
des Polyeders zu erhalten.
</ref>.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max~ & x_1 \\
\text{so dass } & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}{rrrr}
x_1 & + x_2 & & \leq 4 \\
-x_1 & & & \leq 0 \\
& - x_2 & & \leq 0 \\
-x_1 & & + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}{rr}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>. Diese hat natürlich auch den erwarteten
Zielfunktionswert von <math>y^*=4</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Anmerkungen ==

<references group="A." />

== Einzelnachweise ==

<references />

== Literatur ==

* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]

[[Kategorie:Optimierung]]
[[Kategorie:Polyeder]]
[[Kategorie:Geometrische Abbildung]]

[[en:Fourier–Motzkin elimination]]

Polytopmodell

2012-11-13T15:30:24Z

Mathmon: Artikel gesetzt

Das '''Polytopmodell''' (oder allgemeiner auch '''Polyedermodell''') ist ein mathematisches Modell, das von [[Compiler]]n zur Optimierung von Schleifensätzen benutzt werden kann. Dabei werden die [[Schleife (Programmierung)|Schleifen]] im [[Quelltext|Quellprogramm]] durch [[Polytop (Geometrie)|Polytope]] beschrieben, auf die dann eine korrektheitserhaltende Transformation angewandt wird.
Im letzten Schritt werden die entstandenen Polytope wieder in (Ziel-)Code übersetzt.

== Aufstellen der Transformationsmatrix ==

Eine Transformation besteht aus zwei Teilen, dem Schedule und der Allokation. Der Schedule legt fest, ''wann'' eine Berechnung stattfinden soll, während die Allokation festlegt, ''wo'' die Berechnung erfolgt (d. h. auf welchem Prozessor sie ausgeführt wird).

=== Berechnung eines gültigen Schedules ===

Ein Schedule ist gültig, wenn er alle [[Datenabhängigkeit]]en erhält.

Wenn eine Iteration mit den Schleifenindices <math>(i_1,\ldots,i_n)</math>, die Ergebnisse der Berechnung <math>(i'_1,\ldots,i'_n)</math> benötigt, muss für den Schedule <math>t</math> gelten: <math>t(i_1,\ldots,i_n) < t(i'_1,\ldots,i'_n)</math>. Das heißt, alle benötigten Werte müssen zu einem früheren Zeitpunkt berechnet worden sein.

=== Berechnung einer gültigen Allokation ===

Im Gegensatz zum Schedule gibt es für die Allokation keine Beschränkungen.

Grundsätzlich besteht immer die Möglichkeit, die Berechnung nur von einem Prozessor durchführen zu lassen. Allerdings verliert man damit alle Parallelität. Deshalb bietet es sich an, die Berechnung auf möglichst viele Prozessoren zu verteilen, um die Parallelität zu maximieren.
Dabei muss man allerdings berücksichtigen, dass dadurch mehr Daten zwischen den Prozessoren verschickt werden müssen. Diese zusätzliche Kosten für die Kommunikation können leicht den Gewinn durch die parallele Berechnung überschreiten.

== Beispiel (Automatische Parallelisierung) ==

=== Vom Quellprogramm zum Polytop ===

Betrachten wir das folgende Programm, das aus einem perfekt verschachteltem Schleifensatz besteht. Der Rumpf der Schleife enthält ein Statement ''S''.

'''for''' i:= 0 '''to''' n '''do'''
'''for''' j:= 0 '''to''' i+2 '''do'''
''S'': A(i, j):= A(i-1, j) + A(i, j-1)
'''end'''
'''end'''

Um die Schleife als Polytop darzustellen, genügt es, die oberen und unteren Schranken als Ungleichungen zu schreiben:

<math>0 \leq i \leq n \wedge 0 \leq j \leq i+2</math>

oder in Matrixdarstellung (eine Zeile entspricht einer Ungleichung, Spalten: i, j, n, 1)

<math>{\color{Blue}\begin{pmatrix}
1 & 0 & 0 & 0 \\
-1 & 0 & 1 & 0 \\
0 & 1 & 0 & 0 \\
1 & -1 & 0 & 2
\end{pmatrix}}
\geq
\begin{pmatrix}
0 \\
0 \\
0 \\
0
\end{pmatrix}</math>

=== Abhängigkeitsanalyse ===

In jedem Schleifendurchlauf wird die Arrayzelle <code>A(i,j)</code> überschrieben. Für die Berechnung von <code>A(i,j)</code> benötigt man die Werte von <code>A(i-1,j)</code> und <code>A(i,j-1)</code>. Dadurch entstehen zwei Datenabhängigkeiten: Jede Iteration <code>(i,j)</code> hängt sowohl von der Iteration <code>(i-1,j)</code> als auch von <code>(i,j-1)</code> ab. Beide Abhängigkeiten müssen im nächsten Schritt bei der Berechnung des Schedules berücksichtigt werden.

Algorithmisch lassen sich alle Abhängigkeiten mithilfe eines Verfahrens zur [[Dependence analysis|Abhängigkeitsanalyse]] berechnen.

=== Aufstellen der Transformationsmatrix ===

Ein korrekter Schedule, der beide Abhängigkeiten erhält, ist z. B.
<math>t(i,j) = i+j</math>.

Interpretation:
* Im ersten Schritt wird <code>A(0,0)</code> berechnet
* Im zweiten Schritt wird <code>A(1,0)</code> und <code>A(0,1)</code> berechnet
* Im dritten Schritt <code>A(2,0)</code>, <code>A(1,1)</code> und <code>A(0,2)</code>
* usw.

Um in jedem Berechnungsschritt maximale Parallelität zu ermöglichen, wählen wir als Allokation
<math>p(i,j) = i</math>

Dadurch ergibt sich folgende Transformationsmatrix:
<math>T=
\begin{pmatrix}
1 & 1 \\
1 & 0
\end{pmatrix}</math>

(Erklärung: Erste Zeile = Schedule (i+j), Zweiter Zeile = Allokation (i), Erste Spalte: i, Zweite Spalte: j)

=== Transformiertes Polytop ===

<math>T^{-1}=
\color{Red}
\begin{pmatrix}
0 & 1 \\
1 & -1
\end{pmatrix}</math>

<math>{\color{Blue} \begin{pmatrix}
1 & 0 & 0 & 0 \\
-1 & 0 & 1 & 0 \\
0 & 1 & 0 & 0 \\
1 & -1 & 0 & 2
\end{pmatrix}}
\begin{pmatrix}
{\color{Red}0} & {\color{Red}1} & 0 & 0 \\
{\color{Red}1} & {\color{Red}-1} & 0 & 0 \\
0 & 0 & 1 & 0 \\
0 & 0 & 0 & 1
\end{pmatrix} =
\begin{pmatrix}
0 & 1 & 0 & 0 \\
0 & -1 & 1 & 0 \\
1 & -1 & 0 & 0 \\
-1 & 2 & 0 & 2
\end{pmatrix}
</math>

Die Schleifenindices werden ebenfalls durch <math>T^{-1}</math> transformiert:
<math>i=p</math> und <math>j=t-p</math>

=== Generierung des Zielprogramms ===

Der letzte Schritt besteht darin, Code zu generieren, der genau die Punkte aus dem Zielpolyeder aufzählt und dabei die richtige Reihenfolge (genauer die lexikographische Ordnung) einhält. Algorithmisch wird dies von sogenannte Scanning-Algorithmen berechnet (z. B. [[Fourier-Motzkin-Elimination]] oder dem Verfahren von [[Quillerè]]).

Man erhält das folgende (synchrone) Zielprogramm:

'''for''' t:= 0 '''to''' 2n+2 '''do'''
'''parfor''' p:= max(0, ceil(t/2)-1) '''to''' min(t, n) '''do'''
A(p, t-p):= A(p-1, t-p) + A(p, t-p-1)
'''end'''
'''end'''

Die äußere Schleife gibt globale Zeitschritte vor, während die zweite Schleife die parallele Berechnung darstellt. Da in diesem Programm der Code für die Kommunikation zwischen den Prozessoren fehlt, ist es auf Systemen mit verteilten Speicher nicht direkt lauffähig. Allerdings lässt es sich mit gemeinsamen Speicher direkt umsetzten, z. B. als [[OpenMP]] Programm.

== Anwendung ==

Zu den wichtigsten Anwendungsmöglichkeiten zählen:
* [[Cache]]<nowiki />optimierung
* [[Loop Tiling]]
* [[Schleifenparallelisierung]]

[[Kategorie:Compilerbau]]

[[en:Polytope model]]

Theodore Motzkin

2012-11-13T15:28:52Z

Mathmon: Link auf Artikel gesetzt

'''Theodore Samuel Motzkin''' (* [[26. März]] [[1908]] in [[Berlin]]; † [[15. Dezember]] [[1970]] in [[Los Angeles]]) war ein Mathematiker deutsch-jüdischer Abstammung. Die [[Motzkin-Zahl|Motzkin-Zahlen]] und das [[Motzkin-Polynom]], sowie die [[Fourier-Motzkin-Elimination]] sind nach ihm benannt.

Motzkin war ein äußerst belesener, flexibler und kreativer Mathematiker, der durch seine große fachliche Bandbreite scheinbar weit entfernte Fachgebiete einfallsreich verband. Seine zum Teil bahnbrechenden Arbeiten stammen aus den Feldern der linearen Programmierung, konvexen Geometrie, Kombinatorik, algebraischen Geometrie, Zahlentheorie oder Funktionentheorie.

Er war der erste, der die Existenz von [[Hauptidealring]]en nachwies, die keine [[euklidischer Ring|euklidischen Ringe]] sind; <math>\Bbb{Z}\left[\frac{1+\sqrt{-19}}{2}\right]</math> war sein ursprüngliches Beispiel.

== Biographie ==
Motzkins Vater, [[Leo Motzkin]], der seit 1880 in Deutschland gelebt hatte, war studierter Mathematiker und ein bedeutender Wegbereiter der [[Zionismus|zionistischen Bewegung]]. Theodore Motzkin zeigte bereits früh sein außergewöhnliches Talent für Mathematik. In Berlin besuchte er bereits mit 15 Jahren die Universität.

Es folgten Studien an den Universitäten Göttingen, Paris und Berlin. In Berlin erstellte er seine Diplomarbeit über algebraische Strukturen, betreut durch [[Issai Schur]]. Zur Promotion ging Motzkin an die [[Universität Basel]], wo er 1934, betreut durch [[Alexander Markowitsch Ostrowski]], mit einer Dissertation über lineare Ungleichungen promoviert wurde.

Im Jahr 1935 wurde Motzkin an die [[Hebräische Universität Jerusalem|Hebrew University]] in Jerusalem berufen. Während des [[Zweiter Weltkrieg|Zweiten Weltkrieges]] arbeitete er dort als Kryptograph für die britische Regierung. In dieser Zeit heiratete er Naomi Orenstein, ihre drei Söhne wurden in Jerusalem geboren. Er half, die mathematische Terminologie der [[Hebräische Sprache|hebräischen]] Sprache zu entwickeln.

1948 emigrierte Motzkin in die USA und verbrachte zwei Jahre an der [[Harvard University]].
Eine der ersten dort veröffentlichten Arbeiten ist der Nachweis der Existenz von [[Hauptidealring]]en, die keine [[euklidischer Ring|euklidischen Ringe]] sind.

1950 wurde Motzkin an das Institut für Numerik der [[University of California, Los Angeles]] (UCLA) berufen, zehn Jahre später wurde er dort ordentlicher Professor.

== Weblinks ==
* {{MacTutor Biography|id=Motzkin}}

{{Normdaten|PND=119439182|LCCN=n/82/53164|VIAF=2589792}}

{{SORTIERUNG:Motzkin, Theodore}}
[[Kategorie:Mathematiker (20. Jahrhundert)]]
[[Kategorie:US-Amerikaner]]
[[Kategorie:Geboren 1908]]
[[Kategorie:Gestorben 1970]]
[[Kategorie:Mann]]

{{Personendaten
|NAME=Motzkin, Theodore
|ALTERNATIVNAMEN=Motzkin, Theodore Samuel (vollständiger Name)
|KURZBESCHREIBUNG=US-amerikanischer Mathematiker russischer Abstammung
|GEBURTSDATUM=26. März 1908
|GEBURTSORT=[[Berlin]]
|STERBEDATUM=15. Dezember 1970
|STERBEORT=[[Los Angeles]]
}}

[[en:Theodore Motzkin]]
[[fr:Theodore Motzkin]]
[[he:תאודור מוצקין]]
[[ht:Theodore Motzkin]]

Permutation

2012-11-08T19:40:06Z

Mathmon: Bild hinzugefügt

[[Datei:Permutations RGB.svg|thumb|120px|Alle 6 Permutationen dreier Kugeln]]

Unter einer '''Permutation''' (von {{laS|''permutare''}} ‚(ver)tauschen‘) versteht man die Veränderung der Anordnung von (meistens verschiedenen) Objekten in einer [[Reihenfolge]] durch Vertauschen ihrer [[Element (Mathematik)|Elemente]]. In der Mathematik ist eine Permutation eine [[bijektiv]]e Selbstabbildung einer in der Regel endlichen Menge. Umgangssprachlich findet der Begriff bisweilen auch als Synonym für „(lineare bzw. der-Reihe-nach) Anordnung“ Verwendung.

== Beispiele ==
* „ANGSTBUDE“ entsteht aus „BUNDESTAG“ durch Permutation der Buchstaben ([[Anagramm]]).
* Das Mischen der Karten eines Kartenspiels ist eine Permutation auf der Menge der Karten.
* Der Stellungswechsel nach Eroberung des Aufschlagsrechts im [[Volleyball]] (Rotieren) ist eine Permutation der Spieler.
* Sortieralgorithmen wie zum Beispiel der [[Bubble Sort]] arbeiten mit sukzessivem Vertauschen, d. h. mit der Hintereinanderausführung von speziellen Permutationen, sogenannten Transpositionen (siehe unten).

== Formale Definition ==
Eine <math>n</math>-stellige Permutation ist eine [[bijektiv]]e [[Funktion (Mathematik)|Abbildung]] <math>\sigma \colon X \rightarrow X</math> einer <math>n</math>-elementigen Menge <math>X</math> auf sich selbst. Für eine <math>n</math>-elementige Menge gibt es genau [[Fakultät (Mathematik)|''n''!]] mögliche Permutationen. Durch eine Permutation wird somit eine [[Ordnungsrelation#Totalordnung | Totalordnung]] zwischen den Elementen festgelegt. Da umgekehrt jede Totalordnung durch eine Permutation vermittelt wird, kann man sich bei der mathematischen Betrachtung von Permutationen stets auf die ersten n natürlichen Zahlen als Referenzmenge bei endlichen Permutationen beschränken.

Die <math>n</math>-stelligen Permutationen der ersten <math>n</math> natürlichen Zahlen <math>1, 2, 3, \dotsc, n</math> bilden mit der Komposition von Abbildungen als Verknüpfung die [[symmetrische Gruppe]] <math>S_n</math> (mit <math>n!</math> Elementen). Für die symmetrische Gruppe einer beliebigen Menge <math>X_n</math> schreibt man allgemein <math>S(X_n)</math>. Ihr neutrales Element ist die [[Identische Abbildung|Identität]] (abgekürzt id), also diejenige Permutation, die alle Elemente an ihrem Platz belässt. Zu jeder Permutation <math>\sigma</math> gibt es genau eine inverse Permutation <math>\sigma^{-1}</math> mit <math>\sigma \circ \sigma^{-1} = \sigma^{-1} \circ \sigma = \mathrm{id}</math>.

Die symmetrischen Gruppen spielen in der Mathematik eine bedeutende Rolle. Beispielsweise ist nach dem [[Satz von Cayley]] jede [[endliche Gruppe]] zu einer Untergruppe einer symmetrischen Gruppe [[Isomorphismus|isomorph]].

== Mathematische Schreibweisen und Darstellungen ==
Es gibt im Wesentlichen vier Arten zur Beschreibung einer <math>n</math>-stelligen Permutation: Matrixdarstellung, Zykelschreibweise, Tupelschreibweise und Permutationsmatrix. Im Folgenden bezeichnen wir die <math>n</math> Elemente von <math>X_n</math> mit <math>1,2,\dotsc,n</math> und es sei <math>\sigma \in S_n</math>.

=== Matrixdarstellung ===
In der ausführlichen Darstellung der Permutation <math>\sigma</math> schreibt man diese als <math>(2\times n)</math>-[[Matrix (Mathematik)|Matrix]]. In der oberen Zeile stehen die Elemente von <math>X_n</math> (in beliebiger Reihenfolge). Ist <math> X_n = \{1,\dotsc,n\} </math>, dann schreibt man im Allgemeinen die Zahlen von <math>1</math> bis <math>n</math> nacheinander in die erste Zeile. Unter jedes <math>x\in X_n</math> schreibt man in die zweite Zeile den Funktionswert <math>\sigma(x)</math>. Auch in der zweiten Zeile steht somit jedes Element von <math>X_n</math> genau einmal.

:<math>\sigma = \begin{pmatrix} 1 & 2 & \cdots & n \\ \sigma\left(1\right) & \sigma\left(2\right) & \cdots & \sigma\left(n\right) \end{pmatrix}</math>

=== Zykelschreibweise ===
Die Zykelschreibweise ist kompakter und benötigt nur eine Zeile. Man beginnt mit einem beliebigen Element <math>a\in X_n</math> und schreibt
:<math>\left(a \; \sigma(a) \; \sigma^2(a) \; \cdots \; \sigma^{\ell_a-1}(a)\right)</math>,
wobei <math>\sigma^k</math> die <math>k</math>-fache Hintereinanderausführung von <math>\sigma</math> bezeichnet und <math>\ell_a</math> die kleinste natürliche Zahl mit <math>\sigma^{\ell_a}(a) = a</math> ist. Eine solche Klammer heißt ein ''Zykel'' und <math>\ell_a</math> ist seine Länge. Gibt es weitere Elemente in <math>X_n</math>, die noch nicht notiert wurden, so wählt man ein solches Element <math>b</math> und schreibt einen weiteren Zykel <math>(b \; \sigma(b) \; \cdots \; \sigma^{\ell_b-1}(b))</math> der Länge <math>\ell_b</math>. Man fährt so lange fort, bis jedes Element genau einmal notiert wurde. Klammern, in denen nur ein Element steht, können anschließend wieder gestrichen werden.
Diese Darstellung ist nicht eindeutig: Die Reihenfolge der Zykel ist beliebig wählbar und in jedem Zykel dürfen die Elemente zyklisch vertauscht werden.
Die Identität id notiert man auch als leere Klammer (), als (1) oder als <math>\epsilon</math>. Die inverse Permutation erhält man, indem man in der Zykelschreibweise in jedem Zykel die Elemente in der umgekehrten Reihenfolge schreibt.

: <math>\sigma = (124)(35)</math> bedeutet beispielsweise, dass <math>\sigma</math> 1 auf 2, 2 auf 4 und 4 auf 1 abbildet und zusätzlich 3 auf 5 und 5 auf 3. Es gilt <math>\sigma^{-1} = (421)(53) = (142)(35)</math>.

Eine Permutation, die <math>r</math> Elemente zyklisch vertauscht und die übrigen Elemente fest lässt, wird in dieser Notation als ein einzelner Zykel der Länge <math>r</math> geschrieben und <math>r</math>-Zykel genannt. Ein 2-Zykel, also eine Vertauschung zweier Elemente, heißt auch Transposition. Jeder Zykel und damit auch jede Permutation lässt sich als Komposition von Transpositionen schreiben.

=== Tupelschreibweise ===
Bei der Tupelschreibweise schreibt man die Funktionswerte <math>\sigma(x)</math> in eine Zeile.
:<math>\sigma = \left(\sigma\left(1\right),\sigma\left(2\right),\dotsc,\sigma\left(n\right)\right)</math>
Sie enthält somit nur noch die zweite Zeile der Matrixdarstellung. Da dadurch die Information über den <math>x</math>-Wert zu den <math>\sigma(x)</math> verloren geht, kann die Tupelschreibweise nur verwendet werden, wenn für die zugrundeliegende Menge eine Reihenfolge festgelegt wurde. Anhand dieser Reihenfolge lässt sich dann die erste Zeile der Matrixdarstellung rekonstruieren.

Die Tupelschreibweise wird leicht mit der Zykelschreibweise verwechselt, besonders da manche Autoren die Kommata weglassen.

=== Permutationsmatrix ===
[[Datei:Symmetric group 3; Cayley table; matrices.svg|thumb|Matrizen der Permutationen dreier Elemente]]
{{Hauptartikel|Permutationsmatrix}}

Diese Darstellung ist nicht zu verwechseln mit der Matrixdarstellung. Bei dieser Darstellung wird ein [[Vektor]] von links mit einer Permutationsmatrix multipliziert, wodurch die Elemente des Vektors permutiert werden.

;Definition:

Sei <math>X_n=(x_1,x_2,\dotsc,x_n) </math> das <math>n</math>-Tupel und <math>P_\sigma \in \mathbb{N}^{n\times n}</math> die Permutationsmatrix.

Der Permutation <math>\sigma = \begin{pmatrix} x_1 & x_2 & \dotso & x_n \\ \sigma\left(x_1\right) & \sigma\left(x_2\right) & \dotso & \sigma\left(x_n\right) \end{pmatrix}</math> entspricht dann die Matrix
:<math> P_\sigma=
\begin{pmatrix}
p_{11} & \dots &p_{1n} \\
\vdots &\ddots &\vdots \\
p_{n1} & \dots &p_{nn}
\end{pmatrix}
= (p_{j,k})_{1\leq j,k \leq n} \quad\text{ mit }\quad p_{j,k}=\begin{cases} 1, & \text{wenn }\sigma(x_j)=x_k\text{ gilt } \\ 0, & \text{wenn } \sigma(x_j) \ne x_k\text{ gilt }\end{cases}
</math>

Der Vektor <math>\overline{x} =\begin{pmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \\\end{pmatrix}</math> wird permutiert, indem man ihn von links mit <math>P_\sigma</math> multipliziert:
<math>P_\sigma \cdot \begin{pmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \\\end{pmatrix} = \begin{pmatrix} \sigma(x_1) \\ \sigma(x_2) \\ \vdots \\ \sigma(x_n) \\\end{pmatrix}</math>

;Bemerkung:

Die [[identische Abbildung]] wird dargestellt durch die [[Einheitsmatrix]] .

=== Beispiele ===
* Ein einfaches Beispiel in verschiedenen Schreibweisen: Es sei <math>\sigma_1 \colon \{a,b,c \} \rightarrow \{a,b,c \}</math> durch <math>\sigma_1\left(a\right):=b, \sigma_1\left(b\right):=a \mbox{ und } \sigma_1\left(c\right):=c </math> gegeben. Dann gilt
:{|
|-
| '''Matrixdarstellung:'''
| <math>\sigma_1 = \begin{pmatrix} a & b & c \\ b & a & c \end{pmatrix}</math>
|-
| '''Zykelschreibweise:'''
| <math>\sigma_1 = \left(a b\right)\left(c\right) = \left(a b\right)</math> – <math>a</math> und <math>b</math> werden vertauscht, <math>c</math> wird gehalten
|-
| '''Tupelschreibweise:'''
| <math>\sigma_1 = \left(b,a,c\right)</math> oder auch <math>\sigma_1 = \left(b\ a\ c\right)</math>
|-
| '''Permutationsmatrix:'''
| <math>P \cdot \overline{x}=
\begin{pmatrix}
0 & 1 & 0 \\
1 & 0 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}
\cdot \begin{pmatrix}a \\ b \\ c \\\end{pmatrix}
= \begin{pmatrix}b \\ a \\ c \\\end{pmatrix}</math> – <math>a</math> und <math>b</math> werden vertauscht, <math>c</math> wird gehalten
|}

* Ein weiteres Beispiel: Sei <math>\sigma_2 \in S_4</math> durch <math>\sigma_2 \colon \{1, 2, 3, 4 \} \rightarrow \{1, 2, 3, 4 \}</math> und <math>\sigma_2\left(1\right):=4, \sigma_2\left(2\right):=3, \sigma_2\left(3\right):=2 \mbox{ und } \sigma_2\left(4\right):=1 </math> gegeben. Dann schreibt man
:{|
|-
| '''Matrixdarstellung:'''
| <math>\sigma_2 = \begin{pmatrix} 1 & 2 & 3 & 4 \\ 4 & 3 & 2 & 1 \end{pmatrix}</math>
|-
| '''Zykelschreibweise:'''
| <math>\sigma_2 = \left(1\ 4\right)\left(2\ 3\right)</math>
|-
| '''Tupelschreibweise:'''
| <math>\sigma_2 = \left(4,3,2,1\right)</math> oder auch <math>\sigma_2 = \left(4\ 3\ 2\ 1\right)</math>
|-
| '''Permutationsmatrix:'''
| <math>P \cdot \overline{x}=
\begin{pmatrix}
0 & 0 & 0 & 1\\
0 & 0 & 1 & 0\\
0 & 1 & 0 & 0\\
1 & 0 & 0 & 0\\
\end{pmatrix}
\cdot \begin{pmatrix}1 \\ 2 \\ 3 \\ 4 \\\end{pmatrix}
= \begin{pmatrix}4 \\ 3 \\ 2 \\ 1 \\\end{pmatrix}</math>
|}

Keine der Darstellungen ist eindeutig.

== Fixpunkte ==
Elemente, deren Positionen sich bei der Permutation nicht ändern, nennt man [[Fixpunkt (Mathematik)|Fixpunkte]] der Permutation. Bei der Permutation
:<math>\begin{pmatrix} 1 & 2 & 3 & 4 \\ 1 & 3 & 2 & 4 \end{pmatrix}</math>
sind dies beispielsweise die Zahlen 1 und 4. In der Matrixdarstellung erkennt man Fixpunkte daran, dass der obere und untere Eintrag der jeweiligen Spalte gleich ist. In der Zykelschreibweise sind Fixpunkte genau die Elemente, die nicht erscheinen. Für das obige Beispiel lautet die Zykelschreibweise <math>(2 3)</math>; die Fixpunkte 1 und 4 erscheinen hier nicht. In der Permutationsmatrix sind die den Fixpunkten zugewiesenen Einträge der Hauptdiagonale 1. In der Permutationsmatrix zum obigen Beispiel sind dies die Einträge <math>p_{1,1}</math> und <math>p_{4,4}</math>:
:<math>\begin{pmatrix}
1 & 0 & 0 & 0\\
0 & 0 & 1 & 0\\
0 & 1 & 0 & 0\\
0 & 0 & 0 & 1
\end{pmatrix}</math>.

Eine Permutation ohne Fixpunkte wird auch [[Derangement]] genannt. Ein Derangement ist also ein „totale Versetzung“, bei der kein einziges Element auf seinem Platz bleibt. Die Anzahl der Derangements einer Menge mit <math>n</math> Elementen ist
:<math>n! \cdot\sum_{i=0}^n {\left(-1\right)^i \over i!}.</math>
Diese Zahl heißt [[Subfakultät]] und wird mit <math>!n</math> bezeichnet.

Allgemeiner lässt sich die Anzahl der Permutationen mit einer gegebenen Anzahl von Fixpunkten (sog. partielle Derangements) mit Hilfe der [[Rencontres-Zahl]]en bestimmen.

== Verknüpfung von Permutationen ==
Zwei <math>n</math>-stellige Permutationen lassen sich nacheinander ausführen, indem man die erste Permutation anwendet und auf deren Resultat dann die zweite Permutation. Diese Hintereinanderausführung wird auch [[Komposition (Mathematik)|Komposition]] , Verknüpfung oder Produkt zweier Permutationen genannt und ist selbst wieder eine <math>n</math>-stellige Permutation.

Eine Menge von Permutationen einer endlichen Menge ''M'', erzeugt mit der Komposition als Verknüpfung eine [[Permutationsgruppe]] auf ''M''.

=== Beispiele zur Komposition von Permutationen ===
Beispiele zur Verknüpfung:
* <math>\begin{pmatrix}
1 & 2 & 3 \\
3 & 1 & 2
\end{pmatrix} \circ \begin{pmatrix}
1 & 2 & 3 \\
1 & 3 & 2
\end{pmatrix} = \begin{pmatrix}
1 & 2 & 3 \\
3 & 2 & 1
\end{pmatrix}</math>
:Man beachte, dass die Verknüpfungen von rechts nach links ausgewertet werden: In der zweiten Matrix geht die 1 in die 1, in der ersten die 1 in die 3. Im Ergebnis der Verknüpfung geht also die 1 in die 3. Ebenso: zweite Matrix 2 → 3, erste Matrix 3 → 2, Ergebnis 2 → 2. Und: zweite Matrix 3 → 2, erste Matrix 2 → 1, Ergebnis 3 → 1.
* <math>(132)\circ(23)=(1 3)</math>
* <math>(23)\circ(132)=(1 2)</math>

Die beiden letzten Beispiele zeigen, dass die Reihenfolge im Allgemeinen von Bedeutung ist: Die symmetrische Gruppe <math>S_n</math> ist für <math>n > 2</math> nicht [[Abelsche Gruppe|abelsch]].
Die Reihenfolge kann nur unbeachtet bleiben, wenn die miteinander verknüpften Zykel [[disjunkt]] sind, d. h. jedes Element der Permutation kommt nur in einem Zykel vor. Beispiel:
* <math>\begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 4 & 5
\end{pmatrix} \circ \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
1 & 2 & 3 & 5 & 4
\end{pmatrix} = \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 5 & 4
\end{pmatrix} = \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
1 & 2 & 3 & 5 & 4
\end{pmatrix} \circ \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 4 & 5
\end{pmatrix}</math>

* <math>(132)\circ(45)=
\begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 5 & 4
\end{pmatrix} =
(45) \circ(132)</math>

== Ordnung ==
Für jede Permutation <math>\sigma</math> gibt es eine kleinste natürliche Zahl <math>k</math> derart, dass die <math>k</math>-malige Hintereinanderausführung von <math>\sigma</math> die Identität ergibt: <math>\sigma^k = \mbox{id}</math>. Diese Zahl wird Ordnung von <math>\sigma</math> genannt. Sie ist die [[Elementordnung]] von <math>\sigma</math> als Gruppenelement der Symmetrischen Gruppe. Die Ordnung einer Permutation lässt sich leicht aus der Zykeldarstellung bestimmen: Sie ist das [[Kleinstes gemeinsames Vielfaches|kleinste gemeinsame Vielfache]] (kgV) der Längen der disjunkten Zykeln von <math>\sigma</math>. Beispielsweise ist die Ordnung der Permutation <math>(1 2 4)(3 5)</math> das kgV von 3 und 2, also 6.

Eine Permutation <math>\sigma</math> mit <math>\sigma^2 = \mbox{id}</math>, oder äquivalent <math>\sigma^{-1} = \sigma</math>, heißt Involution oder selbstinvers. Die Involutionen sind genau die Permutationen der Ordnung 2 sowie die Identität selbst (die einzige Permutation der Ordnung 1). Eine Permutation ist genau dann eine Involution, wenn ihre Zykeldarstellung maximal Zykel der Länge 2 (also Transpositionen) enthält.

== Einige Eigenschaften von endlichen Permutationen ==
Nur falls die Menge aus der die Elemente der Permutation stammen, mit einer Totalordnung versehen ist, machen folgende Begriffe einen Sinn:
* „left-to-right maximum“ (Links-Rechts-Maximum, kurz: ''LR-Maximum''). Bei einer Permutation in Wortschreibweise <math>a = a_1 \dotso a_i \dotso a_n</math> nennt man <math>a_i</math> genau dann ein ''LR-Maximum'', wenn <math>a_i > a_j</math> mit <math>1 \leq j \leq i-1</math>. Diese Eigenschaft ist von Nutzen, wenn man die normalisierte Zykeldarstellung ohne Klammern schreiben möchte. Man kann unter Ausnutzung der LR-Maxima zeigen, dass dann eine [[Bijektion]] zwischen der normalisierten Zykeldarstellung in eine Permutation existiert.<ref>Vorlesungsskript Prof. Welker: [http://www.mathematik.uni-marburg.de/~welker/vorlesung/dima07/kapitel1.pdf Kapitel 1] & [http://www.mathematik.uni-marburg.de/~welker/vorlesung/dima07/kapitel3.pdf Kapitel 3] ([[Portable Document Format|PDF]])</ref> Bemerkung: <math>a_1</math> ist immer ein LR-Maximum.
* ''alternierend'' nennt man eine Permutation, wenn beim durchlaufen dieser sich die Ordnungsrelation der vorgegebenen Totalordnung von nebeneinanderstehenden Elementen dauernd ändert. Formal, wenn für keinen Index i, mit <math>1 , weder <math>a_{i-1} < a_i < a_{i+1}</math> noch <math>a_{i-1} > a_i > a_{i+1}</math> ist, wobei <math>a_k</math> das k-te Element einer n-elementigen Permutation bezeichnet.
* Inversion/[[Fehlstand]]: Man nennt ein Paar <math> (i,j) </math> von Elementen Inversion bzgl. <math> \sigma </math>, falls gilt
*: <math> i < j </math> und <math> \sigma\left(i\right) > \sigma\left(j\right) </math>. Zwei Elemente bilden also genau dann eine Inversion, wenn nach Anwenden der Permutation das größere vor dem kleineren Element steht.

'''Beispiel:''' Gegeben sei die Permutation <math> \pi = \left(3\ 2\ 5\ 1\ 4\right) </math> (in Tupelschreibweise). <math> 1 < 2 </math>, aber 2 steht hier vor 1, also sind 1, 2 eine Inversion bezüglich <math> \pi </math>.

Ordnet man in einer Tabelle jedem Element die Anzahl derjenigen Elemente zu, die nach der Permutation links von ihm stehen, obwohl sie größer sind, so erhält man die sogenannte [[Inversionstafel]] der Permutation. Umgekehrt kann man aus jeder solchen Tafel die Permutation eindeutig bestimmen.

'''Beispiel:''' Gegeben sei die Permutation <math> \left(3\ 2\ 5\ 1\ 4\right) </math> (in Tupelschreibweise). Dann haben wir als Inversionstafel:

:<math>
\begin{pmatrix}1&2&3&4&5 \\ 3 & 1 & 0 & 1 & 0 \end{pmatrix}
</math>

* [[Signum (Mathematik)#Signum von Permutationen|Signum]]: Sei mit <math>i\left(\sigma\right)</math> die Anzahl der Inversionen von <math>\sigma</math> bezeichnet. Dann ist das [[Signum (Mathematik)|Signum]] von <math>\sigma</math> gegeben durch <math>\mathrm{sgn}\left(\sigma\right) = \left(-1\right)^{i\left(\sigma\right)}</math>.
Eine Permutation hat also Signum 1, falls die Anzahl ihrer Inversionen gerade ist, ansonsten Signum −1.

Das Signum lässt sich auch über folgende Formel bestimmen:
: <math>\mathrm{sgn}(\sigma) = (-1)^{m_1+m_2+\dotsb+m_r+r},</math>
wobei <math>r</math> die Anzahl der Zykel und <math>m_i</math> die Länge des <math>i</math>-ten Zykels sind <math>\left(i=1,\dotsc,r\right)</math>.

* Typ: Sei mit <math> b_i </math> die Anzahl der Zykel von <math> \pi </math> bezeichnet, welche die Länge <math> i </math> haben. Dann ist der Typ einer Permutation der formale Ausdruck
*: <math>1^{b_1} 2^{b_2} 3^{b_3} \dotsm n^{b_n}.</math>

Formal bedeutet hierbei, dass das Produkt und die Potenzen nicht tatsächlich ausgerechnet werden.

* Auf weitere Eigenschaften der Permutation und der Verkettung wird bei der [[Symmetrische Gruppe|Symmetrischen Gruppe]] eingegangen.

== Der Permutaeder ==
[[File:Symmetric group 4; permutohedron 3D; permutations and inversion vectors.svg|thumb|Der Permutaeder <math>P_4</math>]]
Der Permutaeder <math>P_n</math> ist ein konvexer [[Polyeder]], welcher wie folgt definiert ist: Jede Permutation
<math>\sigma \in S_n</math> wird in Tupelschreibweise geschrieben als Vektor im <math>\mathbb{R}^n</math> interpretiert.
Die [[Konvexe Hülle|konvexe Hülle]] dieser Vektoren ergibt dann <math>P_n</math> :

:<math>
P_n := \operatorname{conv} \left\{ \sigma = (\sigma(1), \sigma(2), \ldots, \sigma(n)) \mid \sigma \in S_n \right\}
</math>

Der Permutaeder lässt sich außerdem auch durch den Schnitt von [[Halbraum|Halbräumen]] beschreiben:

:<math>
P_n = \{ x \in \mathbb{R}^n \mid
\sum_{i=1}^n x_i = { n + 1 \choose 2 } , \;
\forall S \subset \{1,\ldots, n\} : \sum_{i \in S} x_i \geq { | S | + 1 \choose 2 } \}
</math>

Die Ecken des Permutaeders sind gerade die Permutationen in Tupelschreibweise, zwei Permutationen
sind genau dann durch eine Kante des Permutaeders verbunden, wenn sie sich durch eine Transposition
benachbarter Elemente ineinander überführen lassen.

Der Permutaeder <math>P_n</math> liegt in der <math>(n-1)</math>-dimensionalen Hyperebene

:<math> H = \{ x \in \mathbb{R}^n \mid x_1 + x_2 + \ldots + x_n = {n + 1 \choose 2} \}</math>

[[File:Bitruncated cubic honeycomb2.png|thumb|Tesselation des Raumes durch Permutaeder]]
Die Hyperebene <math>H</math> besteht gerade aus den Punkten,
deren Koordinatensumme <math>{n + 1 \choose 2} = \frac{n(n + 1)}{2}</math> ist.
Sie hat eine [[Tessellation]] durch unendlich viele [[Parallelverschiebung|parallelverschobene]] Kopien des Permutaeders. Die Symmetriegruppe dieser Tesselation ist das durch die folgenden Gleichungen gegebene <math>(n-1)</math>-dimensionale [[Gitter (Mathematik)|Gitter]]:

:<math>
x_1 + x_2 + \ldots + x_n = 0, \; x_1 \equiv x_2 \equiv \ldots x_n \mod n
</math>

== Siehe auch ==
* [[Permutiertes Register]]
* [[Fakultätsbasiertes Zahlensystem]]
* [[Kombinatorik]]

== Literatur ==
* [[Albrecht Beutelspacher]]: ''Lineare Algebra.'' 6. durchgesehene und ergänzte Auflage. Vieweg, Wiesbaden 2003, ISBN 3-528-56508-X, Kapitel 7.2 ''Permutationen''.
* [[Michael Artin]]: ''Algebra.'' Birkhäuser, Basel u. a. 1993, ISBN 3-7643-2927-0, Kapitel 1.4 ''Permutationsmatrizen''.

== Weblinks ==
{{Wiktionary|Permutation}}
* [http://www.reiter1.com/Glossar/Kombinatorik.htm Kombinatorik: Anwendung Permutation, Kombination und Variation]

== Einzelnachweise ==
<references />

[[Kategorie:Gruppentheorie]]
[[Kategorie:Kombinatorik]]
[[Kategorie:Lineare Algebra]]

[[am:ሰልፍ]]
[[ar:تبديل (رياضيات)]]
[[bg:Пермутация]]
[[bn:বিন্যাস]]
[[ca:Permutació]]
[[cs:Permutace]]
[[da:Permutation]]
[[el:Μετάθεση (μαθηματικά)]]
[[en:Permutation]]
[[eo:Permutaĵo]]
[[es:Permutación]]
[[et:Permutatsioon]]
[[eu:Permutazio]]
[[fa:جایگشت]]
[[fi:Permutaatio]]
[[fr:Permutation]]
[[gu:ક્રમચય]]
[[he:תמורה (מתמטיקה)]]
[[hi:क्रमचय]]
[[hr:Permutacija]]
[[hu:Permutáció]]
[[id:Permutasi]]
[[it:Permutazione]]
[[ja:置換 (数学)]]
[[kk:Алмастыру]]
[[kn:ಕ್ರಮಪಲ್ಲಟನೆ]]
[[ko:순열]]
[[lt:Kėliniai]]
[[mk:Пермутација]]
[[nl:Permutatie]]
[[nn:Permutasjon]]
[[no:Permutasjon]]
[[pl:Permutacja]]
[[pt:Permutação]]
[[ro:Permutare]]
[[ru:Перестановка]]
[[scn:Pirmutazzioni]]
[[simple:Permutation]]
[[sk:Permutácia (algebra)]]
[[sl:Permutacija]]
[[sq:Permutacioni]]
[[sr:Пермутација]]
[[sv:Permutation]]
[[ta:வரிசைமாற்றம்]]
[[te:ప్రస్తారణ]]
[[th:การเรียงสับเปลี่ยน]]
[[tr:Permütasyon]]
[[uk:Перестановка]]
[[ur:تبدل کامل]]
[[vi:Hoán vị]]
[[zh:置換]]

Satz von Vizing

2012-11-08T16:06:18Z

Mathmon: Englische Übersetzung hinzugefügt

Der '''Satz von Vizing''' ist ein 1964 von [[Vadim G. Vizing]] publizierter mathematischer Lehrsatz aus der [[Graphentheorie]]. Er liefert sowohl eine Untergrenze als auch eine Obergrenze für den [[Chromatischer_Index#Chromatischer_Index|chromatischen Index]] eines Graphen.

Sei G ein Multigraph, d.h. ein Graph mit Mehrfachkanten aber ohne Schlingen, mit dem chromatischen Index <math> \chi^{\prime}(G)</math> und dem [[Glossar_Graphentheorie#Maximalgrad|maximalen Grad]] <math>\Delta(G)</math>. Weiterhin bezeichne ''h'' die maximale Anzahl von Kanten, die zwei Ecken verbinden. Dann gilt die folgende Ungleichung:

:<math>\Delta(G)\le\chi^{\prime}(G)\le\Delta(G)+h</math>

Im Falle eine schlichten Graphen, d.h. eines Graphen ohne Mehrfachkanten, vereinfacht sich die obige Ungleichung dann zu:

:<math>\Delta(G)\le\chi^{\prime}(G)\le\Delta(G)+1</math>

==Literatur==
*Lutz Volkmann: ''Fundamente der Graphentheorie'', Springer (Wien) 1996, ISBN 3-211-82774-9, S. 286, 288, Satz 13.2 und Satz 13.3
*Reinhard Diestel: ''Graphentheorie''. Springer 2006, ISBN 3-540-21391-0, S. 103, Theorem 5.3.2 ([http://www.math.uni-hamburg.de/home/diestel/books/graphentheorie/GraphentheorieIII.counted.pdf elektronische Online-Version])
*[http://eom.springer.de/V/v120040.htm ''Vizing theorem''] in der [[Encyclopaedia of Mathematics]]

==Weblinks==
*[http://planetmath.org/encyclopedia/VizingsTheorem.html Vizing's Theorem] auf [[PlanetMath]]
*Lutz Volkmann: ''[http://www.math2.rwth-aachen.de/files/gt/buch/graphen_an_allen_ecken_und_kanten.pdf Graphen an allen Ecken und Kanten]'', Vorlesungsskript 2006, S. 239, 241, Satz 13.2 und Satz 13.3

[[Kategorie:Satz (Graphentheorie)|Vizing, Satz von]]

[[en:Vizing's theorem]]

Permutation

2012-11-08T15:46:57Z

Mathmon: Formatierung der Formeln verbessert

[[Datei:Permutations RGB.svg|thumb|120px|Alle 6 Permutationen dreier Kugeln]]

Unter einer '''Permutation''' (von {{laS|''permutare''}} ‚(ver)tauschen‘) versteht man die Veränderung der Anordnung von (meistens verschiedenen) Objekten in einer [[Reihenfolge]] durch Vertauschen ihrer [[Element (Mathematik)|Elemente]]. In der Mathematik ist eine Permutation eine [[bijektiv]]e Selbstabbildung einer in der Regel endlichen Menge. Umgangssprachlich findet der Begriff bisweilen auch als Synonym für „(lineare bzw. der-Reihe-nach) Anordnung“ Verwendung.

== Beispiele ==
* „ANGSTBUDE“ entsteht aus „BUNDESTAG“ durch Permutation der Buchstaben ([[Anagramm]]).
* Das Mischen der Karten eines Kartenspiels ist eine Permutation auf der Menge der Karten.
* Der Stellungswechsel nach Eroberung des Aufschlagsrechts im [[Volleyball]] (Rotieren) ist eine Permutation der Spieler.
* Sortieralgorithmen wie zum Beispiel der [[Bubble Sort]] arbeiten mit sukzessivem Vertauschen, d. h. mit der Hintereinanderausführung von speziellen Permutationen, sogenannten Transpositionen (siehe unten).

== Formale Definition ==
Eine <math>n</math>-stellige Permutation ist eine [[bijektiv]]e [[Funktion (Mathematik)|Abbildung]] <math>\sigma \colon X \rightarrow X</math> einer <math>n</math>-elementigen Menge <math>X</math> auf sich selbst. Für eine <math>n</math>-elementige Menge gibt es genau [[Fakultät (Mathematik)|''n''!]] mögliche Permutationen. Durch eine Permutation wird somit eine [[Ordnungsrelation#Totalordnung | Totalordnung]] zwischen den Elementen festgelegt. Da umgekehrt jede Totalordnung durch eine Permutation vermittelt wird, kann man sich bei der mathematischen Betrachtung von Permutationen stets auf die ersten n natürlichen Zahlen als Referenzmenge bei endlichen Permutationen beschränken.

Die <math>n</math>-stelligen Permutationen der ersten <math>n</math> natürlichen Zahlen <math>1, 2, 3, \dotsc, n</math> bilden mit der Komposition von Abbildungen als Verknüpfung die [[symmetrische Gruppe]] <math>S_n</math> (mit <math>n!</math> Elementen). Für die symmetrische Gruppe einer beliebigen Menge <math>X_n</math> schreibt man allgemein <math>S(X_n)</math>. Ihr neutrales Element ist die [[Identische Abbildung|Identität]] (abgekürzt id), also diejenige Permutation, die alle Elemente an ihrem Platz belässt. Zu jeder Permutation <math>\sigma</math> gibt es genau eine inverse Permutation <math>\sigma^{-1}</math> mit <math>\sigma \circ \sigma^{-1} = \sigma^{-1} \circ \sigma = \mathrm{id}</math>.

Die symmetrischen Gruppen spielen in der Mathematik eine bedeutende Rolle. Beispielsweise ist nach dem [[Satz von Cayley]] jede [[endliche Gruppe]] zu einer Untergruppe einer symmetrischen Gruppe [[Isomorphismus|isomorph]].

== Mathematische Schreibweisen und Darstellungen ==
Es gibt im Wesentlichen vier Arten zur Beschreibung einer <math>n</math>-stelligen Permutation: Matrixdarstellung, Zykelschreibweise, Tupelschreibweise und Permutationsmatrix. Im Folgenden bezeichnen wir die <math>n</math> Elemente von <math>X_n</math> mit <math>1,2,\dotsc,n</math> und es sei <math>\sigma \in S_n</math>.

=== Matrixdarstellung ===
In der ausführlichen Darstellung der Permutation <math>\sigma</math> schreibt man diese als <math>(2\times n)</math>-[[Matrix (Mathematik)|Matrix]]. In der oberen Zeile stehen die Elemente von <math>X_n</math> (in beliebiger Reihenfolge). Ist <math> X_n = \{1,\dotsc,n\} </math>, dann schreibt man im Allgemeinen die Zahlen von <math>1</math> bis <math>n</math> nacheinander in die erste Zeile. Unter jedes <math>x\in X_n</math> schreibt man in die zweite Zeile den Funktionswert <math>\sigma(x)</math>. Auch in der zweiten Zeile steht somit jedes Element von <math>X_n</math> genau einmal.

:<math>\sigma = \begin{pmatrix} 1 & 2 & \cdots & n \\ \sigma\left(1\right) & \sigma\left(2\right) & \cdots & \sigma\left(n\right) \end{pmatrix}</math>

=== Zykelschreibweise ===
Die Zykelschreibweise ist kompakter und benötigt nur eine Zeile. Man beginnt mit einem beliebigen Element <math>a\in X_n</math> und schreibt
:<math>\left(a \; \sigma(a) \; \sigma^2(a) \; \cdots \; \sigma^{\ell_a-1}(a)\right)</math>,
wobei <math>\sigma^k</math> die <math>k</math>-fache Hintereinanderausführung von <math>\sigma</math> bezeichnet und <math>\ell_a</math> die kleinste natürliche Zahl mit <math>\sigma^{\ell_a}(a) = a</math> ist. Eine solche Klammer heißt ein ''Zykel'' und <math>\ell_a</math> ist seine Länge. Gibt es weitere Elemente in <math>X_n</math>, die noch nicht notiert wurden, so wählt man ein solches Element <math>b</math> und schreibt einen weiteren Zykel <math>(b \; \sigma(b) \; \cdots \; \sigma^{\ell_b-1}(b))</math> der Länge <math>\ell_b</math>. Man fährt so lange fort, bis jedes Element genau einmal notiert wurde. Klammern, in denen nur ein Element steht, können anschließend wieder gestrichen werden.
Diese Darstellung ist nicht eindeutig: Die Reihenfolge der Zykel ist beliebig wählbar und in jedem Zykel dürfen die Elemente zyklisch vertauscht werden.
Die Identität id notiert man auch als leere Klammer (), als (1) oder als <math>\epsilon</math>. Die inverse Permutation erhält man, indem man in der Zykelschreibweise in jedem Zykel die Elemente in der umgekehrten Reihenfolge schreibt.

: <math>\sigma = (124)(35)</math> bedeutet beispielsweise, dass <math>\sigma</math> 1 auf 2, 2 auf 4 und 4 auf 1 abbildet und zusätzlich 3 auf 5 und 5 auf 3. Es gilt <math>\sigma^{-1} = (421)(53) = (142)(35)</math>.

Eine Permutation, die <math>r</math> Elemente zyklisch vertauscht und die übrigen Elemente fest lässt, wird in dieser Notation als ein einzelner Zykel der Länge <math>r</math> geschrieben und <math>r</math>-Zykel genannt. Ein 2-Zykel, also eine Vertauschung zweier Elemente, heißt auch Transposition. Jeder Zykel und damit auch jede Permutation lässt sich als Komposition von Transpositionen schreiben.

=== Tupelschreibweise ===
Bei der Tupelschreibweise schreibt man die Funktionswerte <math>\sigma(x)</math> in eine Zeile.
:<math>\sigma = \left(\sigma\left(1\right),\sigma\left(2\right),\dotsc,\sigma\left(n\right)\right)</math>
Sie enthält somit nur noch die zweite Zeile der Matrixdarstellung. Da dadurch die Information über den <math>x</math>-Wert zu den <math>\sigma(x)</math> verloren geht, kann die Tupelschreibweise nur verwendet werden, wenn für die zugrundeliegende Menge eine Reihenfolge festgelegt wurde. Anhand dieser Reihenfolge lässt sich dann die erste Zeile der Matrixdarstellung rekonstruieren.

Die Tupelschreibweise wird leicht mit der Zykelschreibweise verwechselt, besonders da manche Autoren die Kommata weglassen.

=== Permutationsmatrix ===
[[Datei:Symmetric group 3; Cayley table; matrices.svg|thumb|Matrizen der Permutationen dreier Elemente]]
{{Hauptartikel|Permutationsmatrix}}

Diese Darstellung ist nicht zu verwechseln mit der Matrixdarstellung. Bei dieser Darstellung wird ein [[Vektor]] von links mit einer Permutationsmatrix multipliziert, wodurch die Elemente des Vektors permutiert werden.

;Definition:

Sei <math>X_n=(x_1,x_2,\dotsc,x_n) </math> das <math>n</math>-Tupel und <math>P_\sigma \in \mathbb{N}^{n\times n}</math> die Permutationsmatrix.

Der Permutation <math>\sigma = \begin{pmatrix} x_1 & x_2 & \dotso & x_n \\ \sigma\left(x_1\right) & \sigma\left(x_2\right) & \dotso & \sigma\left(x_n\right) \end{pmatrix}</math> entspricht dann die Matrix
:<math> P_\sigma=
\begin{pmatrix}
p_{11} & \dots &p_{1n} \\
\vdots &\ddots &\vdots \\
p_{n1} & \dots &p_{nn}
\end{pmatrix}
= (p_{j,k})_{1\leq j,k \leq n} \quad\text{ mit }\quad p_{j,k}=\begin{cases} 1, & \text{wenn }\sigma(x_j)=x_k\text{ gilt } \\ 0, & \text{wenn } \sigma(x_j) \ne x_k\text{ gilt }\end{cases}
</math>

Der Vektor <math>\overline{x} =\begin{pmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \\\end{pmatrix}</math> wird permutiert, indem man ihn von links mit <math>P_\sigma</math> multipliziert:
<math>P_\sigma \cdot \begin{pmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \\\end{pmatrix} = \begin{pmatrix} \sigma(x_1) \\ \sigma(x_2) \\ \vdots \\ \sigma(x_n) \\\end{pmatrix}</math>

;Bemerkung:

Die [[identische Abbildung]] wird dargestellt durch die [[Einheitsmatrix]] .

=== Beispiele ===
* Ein einfaches Beispiel in verschiedenen Schreibweisen: Es sei <math>\sigma_1 \colon \{a,b,c \} \rightarrow \{a,b,c \}</math> durch <math>\sigma_1\left(a\right):=b, \sigma_1\left(b\right):=a \mbox{ und } \sigma_1\left(c\right):=c </math> gegeben. Dann gilt
:{|
|-
| '''Matrixdarstellung:'''
| <math>\sigma_1 = \begin{pmatrix} a & b & c \\ b & a & c \end{pmatrix}</math>
|-
| '''Zykelschreibweise:'''
| <math>\sigma_1 = \left(a b\right)\left(c\right) = \left(a b\right)</math> – <math>a</math> und <math>b</math> werden vertauscht, <math>c</math> wird gehalten
|-
| '''Tupelschreibweise:'''
| <math>\sigma_1 = \left(b,a,c\right)</math> oder auch <math>\sigma_1 = \left(b\ a\ c\right)</math>
|-
| '''Permutationsmatrix:'''
| <math>P \cdot \overline{x}=
\begin{pmatrix}
0 & 1 & 0 \\
1 & 0 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}
\cdot \begin{pmatrix}a \\ b \\ c \\\end{pmatrix}
= \begin{pmatrix}b \\ a \\ c \\\end{pmatrix}</math> – <math>a</math> und <math>b</math> werden vertauscht, <math>c</math> wird gehalten
|}

* Ein weiteres Beispiel: Sei <math>\sigma_2 \in S_4</math> durch <math>\sigma_2 \colon \{1, 2, 3, 4 \} \rightarrow \{1, 2, 3, 4 \}</math> und <math>\sigma_2\left(1\right):=4, \sigma_2\left(2\right):=3, \sigma_2\left(3\right):=2 \mbox{ und } \sigma_2\left(4\right):=1 </math> gegeben. Dann schreibt man
:{|
|-
| '''Matrixdarstellung:'''
| <math>\sigma_2 = \begin{pmatrix} 1 & 2 & 3 & 4 \\ 4 & 3 & 2 & 1 \end{pmatrix}</math>
|-
| '''Zykelschreibweise:'''
| <math>\sigma_2 = \left(1\ 4\right)\left(2\ 3\right)</math>
|-
| '''Tupelschreibweise:'''
| <math>\sigma_2 = \left(4,3,2,1\right)</math> oder auch <math>\sigma_2 = \left(4\ 3\ 2\ 1\right)</math>
|-
| '''Permutationsmatrix:'''
| <math>P \cdot \overline{x}=
\begin{pmatrix}
0 & 0 & 0 & 1\\
0 & 0 & 1 & 0\\
0 & 1 & 0 & 0\\
1 & 0 & 0 & 0\\
\end{pmatrix}
\cdot \begin{pmatrix}1 \\ 2 \\ 3 \\ 4 \\\end{pmatrix}
= \begin{pmatrix}4 \\ 3 \\ 2 \\ 1 \\\end{pmatrix}</math>
|}

Keine der Darstellungen ist eindeutig.

== Fixpunkte ==
Elemente, deren Positionen sich bei der Permutation nicht ändern, nennt man [[Fixpunkt (Mathematik)|Fixpunkte]] der Permutation. Bei der Permutation
:<math>\begin{pmatrix} 1 & 2 & 3 & 4 \\ 1 & 3 & 2 & 4 \end{pmatrix}</math>
sind dies beispielsweise die Zahlen 1 und 4. In der Matrixdarstellung erkennt man Fixpunkte daran, dass der obere und untere Eintrag der jeweiligen Spalte gleich ist. In der Zykelschreibweise sind Fixpunkte genau die Elemente, die nicht erscheinen. Für das obige Beispiel lautet die Zykelschreibweise <math>(2 3)</math>; die Fixpunkte 1 und 4 erscheinen hier nicht. In der Permutationsmatrix sind die den Fixpunkten zugewiesenen Einträge der Hauptdiagonale 1. In der Permutationsmatrix zum obigen Beispiel sind dies die Einträge <math>p_{1,1}</math> und <math>p_{4,4}</math>:
:<math>\begin{pmatrix}
1 & 0 & 0 & 0\\
0 & 0 & 1 & 0\\
0 & 1 & 0 & 0\\
0 & 0 & 0 & 1
\end{pmatrix}</math>.

Eine Permutation ohne Fixpunkte wird auch [[Derangement]] genannt. Ein Derangement ist also ein „totale Versetzung“, bei der kein einziges Element auf seinem Platz bleibt. Die Anzahl der Derangements einer Menge mit <math>n</math> Elementen ist
:<math>n! \cdot\sum_{i=0}^n {\left(-1\right)^i \over i!}.</math>
Diese Zahl heißt [[Subfakultät]] und wird mit <math>!n</math> bezeichnet.

Allgemeiner lässt sich die Anzahl der Permutationen mit einer gegebenen Anzahl von Fixpunkten (sog. partielle Derangements) mit Hilfe der [[Rencontres-Zahl]]en bestimmen.

== Verknüpfung von Permutationen ==
Zwei <math>n</math>-stellige Permutationen lassen sich nacheinander ausführen, indem man die erste Permutation anwendet und auf deren Resultat dann die zweite Permutation. Diese Hintereinanderausführung wird auch [[Komposition (Mathematik)|Komposition]] , Verknüpfung oder Produkt zweier Permutationen genannt und ist selbst wieder eine <math>n</math>-stellige Permutation.

Eine Menge von Permutationen einer endlichen Menge ''M'', erzeugt mit der Komposition als Verknüpfung eine [[Permutationsgruppe]] auf ''M''.

=== Beispiele zur Komposition von Permutationen ===
Beispiele zur Verknüpfung:
* <math>\begin{pmatrix}
1 & 2 & 3 \\
3 & 1 & 2
\end{pmatrix} \circ \begin{pmatrix}
1 & 2 & 3 \\
1 & 3 & 2
\end{pmatrix} = \begin{pmatrix}
1 & 2 & 3 \\
3 & 2 & 1
\end{pmatrix}</math>
:Man beachte, dass die Verknüpfungen von rechts nach links ausgewertet werden: In der zweiten Matrix geht die 1 in die 1, in der ersten die 1 in die 3. Im Ergebnis der Verknüpfung geht also die 1 in die 3. Ebenso: zweite Matrix 2 → 3, erste Matrix 3 → 2, Ergebnis 2 → 2. Und: zweite Matrix 3 → 2, erste Matrix 2 → 1, Ergebnis 3 → 1.
* <math>(132)\circ(23)=(1 3)</math>
* <math>(23)\circ(132)=(1 2)</math>

Die beiden letzten Beispiele zeigen, dass die Reihenfolge im Allgemeinen von Bedeutung ist: Die symmetrische Gruppe <math>S_n</math> ist für <math>n > 2</math> nicht [[Abelsche Gruppe|abelsch]].
Die Reihenfolge kann nur unbeachtet bleiben, wenn die miteinander verknüpften Zykel [[disjunkt]] sind, d. h. jedes Element der Permutation kommt nur in einem Zykel vor. Beispiel:
* <math>\begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 4 & 5
\end{pmatrix} \circ \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
1 & 2 & 3 & 5 & 4
\end{pmatrix} = \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 5 & 4
\end{pmatrix} = \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
1 & 2 & 3 & 5 & 4
\end{pmatrix} \circ \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 4 & 5
\end{pmatrix}</math>

* <math>(132)\circ(45)=
\begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 5 & 4
\end{pmatrix} =
(45) \circ(132)</math>

== Ordnung ==
Für jede Permutation <math>\sigma</math> gibt es eine kleinste natürliche Zahl <math>k</math> derart, dass die <math>k</math>-malige Hintereinanderausführung von <math>\sigma</math> die Identität ergibt: <math>\sigma^k = \mbox{id}</math>. Diese Zahl wird Ordnung von <math>\sigma</math> genannt. Sie ist die [[Elementordnung]] von <math>\sigma</math> als Gruppenelement der Symmetrischen Gruppe. Die Ordnung einer Permutation lässt sich leicht aus der Zykeldarstellung bestimmen: Sie ist das [[Kleinstes gemeinsames Vielfaches|kleinste gemeinsame Vielfache]] (kgV) der Längen der disjunkten Zykeln von <math>\sigma</math>. Beispielsweise ist die Ordnung der Permutation <math>(1 2 4)(3 5)</math> das kgV von 3 und 2, also 6.

Eine Permutation <math>\sigma</math> mit <math>\sigma^2 = \mbox{id}</math>, oder äquivalent <math>\sigma^{-1} = \sigma</math>, heißt Involution oder selbstinvers. Die Involutionen sind genau die Permutationen der Ordnung 2 sowie die Identität selbst (die einzige Permutation der Ordnung 1). Eine Permutation ist genau dann eine Involution, wenn ihre Zykeldarstellung maximal Zykel der Länge 2 (also Transpositionen) enthält.

== Einige Eigenschaften von endlichen Permutationen ==
Nur falls die Menge aus der die Elemente der Permutation stammen, mit einer Totalordnung versehen ist, machen folgende Begriffe einen Sinn:
* „left-to-right maximum“ (Links-Rechts-Maximum, kurz: ''LR-Maximum''). Bei einer Permutation in Wortschreibweise <math>a = a_1 \dotso a_i \dotso a_n</math> nennt man <math>a_i</math> genau dann ein ''LR-Maximum'', wenn <math>a_i > a_j</math> mit <math>1 \leq j \leq i-1</math>. Diese Eigenschaft ist von Nutzen, wenn man die normalisierte Zykeldarstellung ohne Klammern schreiben möchte. Man kann unter Ausnutzung der LR-Maxima zeigen, dass dann eine [[Bijektion]] zwischen der normalisierten Zykeldarstellung in eine Permutation existiert.<ref>Vorlesungsskript Prof. Welker: [http://www.mathematik.uni-marburg.de/~welker/vorlesung/dima07/kapitel1.pdf Kapitel 1] & [http://www.mathematik.uni-marburg.de/~welker/vorlesung/dima07/kapitel3.pdf Kapitel 3] ([[Portable Document Format|PDF]])</ref> Bemerkung: <math>a_1</math> ist immer ein LR-Maximum.
* ''alternierend'' nennt man eine Permutation, wenn beim durchlaufen dieser sich die Ordnungsrelation der vorgegebenen Totalordnung von nebeneinanderstehenden Elementen dauernd ändert. Formal, wenn für keinen Index i, mit <math>1 , weder <math>a_{i-1} < a_i < a_{i+1}</math> noch <math>a_{i-1} > a_i > a_{i+1}</math> ist, wobei <math>a_k</math> das k-te Element einer n-elementigen Permutation bezeichnet.
* Inversion/[[Fehlstand]]: Man nennt ein Paar <math> (i,j) </math> von Elementen Inversion bzgl. <math> \sigma </math>, falls gilt
*: <math> i < j </math> und <math> \sigma\left(i\right) > \sigma\left(j\right) </math>. Zwei Elemente bilden also genau dann eine Inversion, wenn nach Anwenden der Permutation das größere vor dem kleineren Element steht.

'''Beispiel:''' Gegeben sei die Permutation <math> \pi = \left(3\ 2\ 5\ 1\ 4\right) </math> (in Tupelschreibweise). <math> 1 < 2 </math>, aber 2 steht hier vor 1, also sind 1, 2 eine Inversion bezüglich <math> \pi </math>.

Ordnet man in einer Tabelle jedem Element die Anzahl derjenigen Elemente zu, die nach der Permutation links von ihm stehen, obwohl sie größer sind, so erhält man die sogenannte [[Inversionstafel]] der Permutation. Umgekehrt kann man aus jeder solchen Tafel die Permutation eindeutig bestimmen.

'''Beispiel:''' Gegeben sei die Permutation <math> \left(3\ 2\ 5\ 1\ 4\right) </math> (in Tupelschreibweise). Dann haben wir als Inversionstafel:

:<math>
\begin{pmatrix}1&2&3&4&5 \\ 3 & 1 & 0 & 1 & 0 \end{pmatrix}
</math>

* [[Signum (Mathematik)#Signum von Permutationen|Signum]]: Sei mit <math>i\left(\sigma\right)</math> die Anzahl der Inversionen von <math>\sigma</math> bezeichnet. Dann ist das [[Signum (Mathematik)|Signum]] von <math>\sigma</math> gegeben durch <math>\mathrm{sgn}\left(\sigma\right) = \left(-1\right)^{i\left(\sigma\right)}</math>.
Eine Permutation hat also Signum 1, falls die Anzahl ihrer Inversionen gerade ist, ansonsten Signum −1.

Das Signum lässt sich auch über folgende Formel bestimmen:
: <math>\mathrm{sgn}(\sigma) = (-1)^{m_1+m_2+\dotsb+m_r+r},</math>
wobei <math>r</math> die Anzahl der Zykel und <math>m_i</math> die Länge des <math>i</math>-ten Zykels sind <math>\left(i=1,\dotsc,r\right)</math>.

* Typ: Sei mit <math> b_i </math> die Anzahl der Zykel von <math> \pi </math> bezeichnet, welche die Länge <math> i </math> haben. Dann ist der Typ einer Permutation der formale Ausdruck
*: <math>1^{b_1} 2^{b_2} 3^{b_3} \dotsm n^{b_n}.</math>

Formal bedeutet hierbei, dass das Produkt und die Potenzen nicht tatsächlich ausgerechnet werden.

* Auf weitere Eigenschaften der Permutation und der Verkettung wird bei der [[Symmetrische Gruppe|Symmetrischen Gruppe]] eingegangen.

== Der Permutaeder ==
[[File:Bitruncated cubic honeycomb2.png|thumb|Tesselation des Raumes durch Permutaeder]]
Der Permutaeder <math>P_n</math> ist ein konvexer [[Polyeder]], welcher wie folgt definiert ist: Jede Permutation
<math>\sigma \in S_n</math> wird in Tupelschreibweise geschrieben als Vektor im <math>\mathbb{R}^n</math> interpretiert.
Die [[Konvexe Hülle|konvexe Hülle]] dieser Vektoren ergibt dann <math>P_n</math> :

:<math>
P_n := \operatorname{conv} \left\{ \sigma = (\sigma(1), \sigma(2), \ldots, \sigma(n)) \mid \sigma \in S_n \right\}
</math>

Der Permutaeder lässt sich außerdem auch durch den Schnitt von [[Halbraum|Halbräumen]] beschreiben:

:<math>
P_n = \{ x \in \mathbb{R}^n \mid
\sum_{i=1}^n x_i = { n + 1 \choose 2 } , \;
\forall S \subset \{1,\ldots, n\} : \sum_{i \in S} x_i \geq { | S | + 1 \choose 2 } \}
</math>

Die Ecken des Permutaeders sind gerade die Permutationen in Tupelschreibweise, zwei Permutationen
sind genau dann durch eine Kante des Permutaeders verbunden, wenn sie sich durch eine Transposition
benachbarter Elemente ineinander überführen lassen.

Der Permutaeder <math>P_n</math> liegt in der <math>(n-1)</math>-dimensionalen Hyperebene

:<math> H = \{ x \in \mathbb{R}^n \mid x_1 + x_2 + \ldots + x_n = {n + 1 \choose 2} \}</math>

Die Hyperebene <math>H</math> besteht gerade aus den Punkten,
deren Koordinatensumme <math>{n + 1 \choose 2} = \frac{n(n + 1)}{2}</math> ist.
Sie hat eine [[Tessellation]] durch unendlich viele [[Parallelverschiebung|parallelverschobene]] Kopien des Permutaeders. Die Symmetriegruppe dieser Tesselation ist das durch die folgenden Gleichungen gegebene <math>(n-1)</math>-dimensionale [[Gitter (Mathematik)|Gitter]]:

:<math>
x_1 + x_2 + \ldots + x_n = 0, \; x_1 \equiv x_2 \equiv \ldots x_n \mod n
</math>

== Siehe auch ==
* [[Permutiertes Register]]
* [[Fakultätsbasiertes Zahlensystem]]
* [[Kombinatorik]]

== Literatur ==
* [[Albrecht Beutelspacher]]: ''Lineare Algebra.'' 6. durchgesehene und ergänzte Auflage. Vieweg, Wiesbaden 2003, ISBN 3-528-56508-X, Kapitel 7.2 ''Permutationen''.
* [[Michael Artin]]: ''Algebra.'' Birkhäuser, Basel u. a. 1993, ISBN 3-7643-2927-0, Kapitel 1.4 ''Permutationsmatrizen''.

== Weblinks ==
{{Wiktionary|Permutation}}
* [http://www.reiter1.com/Glossar/Kombinatorik.htm Kombinatorik: Anwendung Permutation, Kombination und Variation]

== Einzelnachweise ==
<references />

[[Kategorie:Gruppentheorie]]
[[Kategorie:Kombinatorik]]
[[Kategorie:Lineare Algebra]]

[[am:ሰልፍ]]
[[ar:تبديل (رياضيات)]]
[[bg:Пермутация]]
[[bn:বিন্যাস]]
[[ca:Permutació]]
[[cs:Permutace]]
[[da:Permutation]]
[[el:Μετάθεση (μαθηματικά)]]
[[en:Permutation]]
[[eo:Permutaĵo]]
[[es:Permutación]]
[[et:Permutatsioon]]
[[eu:Permutazio]]
[[fa:جایگشت]]
[[fi:Permutaatio]]
[[fr:Permutation]]
[[gu:ક્રમચય]]
[[he:תמורה (מתמטיקה)]]
[[hi:क्रमचय]]
[[hr:Permutacija]]
[[hu:Permutáció]]
[[id:Permutasi]]
[[it:Permutazione]]
[[ja:置換 (数学)]]
[[kk:Алмастыру]]
[[kn:ಕ್ರಮಪಲ್ಲಟನೆ]]
[[ko:순열]]
[[lt:Kėliniai]]
[[mk:Пермутација]]
[[nl:Permutatie]]
[[nn:Permutasjon]]
[[no:Permutasjon]]
[[pl:Permutacja]]
[[pt:Permutação]]
[[ro:Permutare]]
[[ru:Перестановка]]
[[scn:Pirmutazzioni]]
[[simple:Permutation]]
[[sk:Permutácia (algebra)]]
[[sl:Permutacija]]
[[sq:Permutacioni]]
[[sr:Пермутација]]
[[sv:Permutation]]
[[ta:வரிசைமாற்றம்]]
[[te:ప్రస్తారణ]]
[[th:การเรียงสับเปลี่ยน]]
[[tr:Permütasyon]]
[[uk:Перестановка]]
[[ur:تبدل کامل]]
[[vi:Hoán vị]]
[[zh:置換]]

Permutation

2012-11-07T16:58:30Z

Mathmon: /* Der Permutaeder */

[[Datei:Permutations RGB.svg|thumb|120px|Alle 6 Permutationen dreier Kugeln]]

Unter einer '''Permutation''' (von {{laS|''permutare''}} ‚(ver)tauschen‘) versteht man die Veränderung der Anordnung von (meistens verschiedenen) Objekten in einer [[Reihenfolge]] durch Vertauschen ihrer [[Element (Mathematik)|Elemente]]. In der Mathematik ist eine Permutation eine [[bijektiv]]e Selbstabbildung einer in der Regel endlichen Menge. Umgangssprachlich findet der Begriff bisweilen auch als Synonym für „(lineare bzw. der-Reihe-nach) Anordnung“ Verwendung.

== Beispiele ==
* „ANGSTBUDE“ entsteht aus „BUNDESTAG“ durch Permutation der Buchstaben ([[Anagramm]]).
* Das Mischen der Karten eines Kartenspiels ist eine Permutation auf der Menge der Karten.
* Der Stellungswechsel nach Eroberung des Aufschlagsrechts im [[Volleyball]] (Rotieren) ist eine Permutation der Spieler.
* Sortieralgorithmen wie zum Beispiel der [[Bubble Sort]] arbeiten mit sukzessivem Vertauschen, d. h. mit der Hintereinanderausführung von speziellen Permutationen, sogenannten Transpositionen (siehe unten).

== Formale Definition ==
Eine <math>n</math>-stellige Permutation ist eine [[bijektiv]]e [[Funktion (Mathematik)|Abbildung]] <math>\sigma \colon X \rightarrow X</math> einer <math>n</math>-elementigen Menge <math>X</math> auf sich selbst. Für eine <math>n</math>-elementige Menge gibt es genau [[Fakultät (Mathematik)|''n''!]] mögliche Permutationen. Durch eine Permutation wird somit eine [[Ordnungsrelation#Totalordnung | Totalordnung]] zwischen den Elementen festgelegt. Da umgekehrt jede Totalordnung durch eine Permutation vermittelt wird, kann man sich bei der mathematischen Betrachtung von Permutationen stets auf die ersten n natürlichen Zahlen als Referenzmenge bei endlichen Permutationen beschränken.

Die <math>n</math>-stelligen Permutationen der ersten <math>n</math> natürlichen Zahlen <math>1, 2, 3, \dotsc, n</math> bilden mit der Komposition von Abbildungen als Verknüpfung die [[symmetrische Gruppe]] <math>S_n</math> (mit <math>n!</math> Elementen). Für die symmetrische Gruppe einer beliebigen Menge <math>X_n</math> schreibt man allgemein <math>S(X_n)</math>. Ihr neutrales Element ist die [[Identische Abbildung|Identität]] (abgekürzt id), also diejenige Permutation, die alle Elemente an ihrem Platz belässt. Zu jeder Permutation <math>\sigma</math> gibt es genau eine inverse Permutation <math>\sigma^{-1}</math> mit <math>\sigma \circ \sigma^{-1} = \sigma^{-1} \circ \sigma = \mathrm{id}</math>.

Die symmetrischen Gruppen spielen in der Mathematik eine bedeutende Rolle. Beispielsweise ist nach dem [[Satz von Cayley]] jede [[endliche Gruppe]] zu einer Untergruppe einer symmetrischen Gruppe [[Isomorphismus|isomorph]].

== Mathematische Schreibweisen und Darstellungen ==
Es gibt im Wesentlichen vier Arten zur Beschreibung einer <math>n</math>-stelligen Permutation: Matrixdarstellung, Zykelschreibweise, Tupelschreibweise und Permutationsmatrix. Im Folgenden bezeichnen wir die <math>n</math> Elemente von <math>X_n</math> mit <math>1,2,\dotsc,n</math> und es sei <math>\sigma \in S_n</math>.

=== Matrixdarstellung ===
In der ausführlichen Darstellung der Permutation <math>\sigma</math> schreibt man diese als <math>(2\times n)</math>-[[Matrix (Mathematik)|Matrix]]. In der oberen Zeile stehen die Elemente von <math>X_n</math> (in beliebiger Reihenfolge). Ist <math> X_n = \{1,\dotsc,n\} </math>, dann schreibt man im Allgemeinen die Zahlen von <math>1</math> bis <math>n</math> nacheinander in die erste Zeile. Unter jedes <math>x\in X_n</math> schreibt man in die zweite Zeile den Funktionswert <math>\sigma(x)</math>. Auch in der zweiten Zeile steht somit jedes Element von <math>X_n</math> genau einmal.

:<math>\sigma = \begin{pmatrix} 1 & 2 & \cdots & n \\ \sigma\left(1\right) & \sigma\left(2\right) & \cdots & \sigma\left(n\right) \end{pmatrix}</math>

=== Zykelschreibweise ===
Die Zykelschreibweise ist kompakter und benötigt nur eine Zeile. Man beginnt mit einem beliebigen Element <math>a\in X_n</math> und schreibt
:<math>\left(a \; \sigma(a) \; \sigma^2(a) \; \cdots \; \sigma^{\ell_a-1}(a)\right)</math>,
wobei <math>\sigma^k</math> die <math>k</math>-fache Hintereinanderausführung von <math>\sigma</math> bezeichnet und <math>\ell_a</math> die kleinste natürliche Zahl mit <math>\sigma^{\ell_a}(a) = a</math> ist. Eine solche Klammer heißt ein ''Zykel'' und <math>\ell_a</math> ist seine Länge. Gibt es weitere Elemente in <math>X_n</math>, die noch nicht notiert wurden, so wählt man ein solches Element <math>b</math> und schreibt einen weiteren Zykel <math>(b \; \sigma(b) \; \cdots \; \sigma^{\ell_b-1}(b))</math> der Länge <math>\ell_b</math>. Man fährt so lange fort, bis jedes Element genau einmal notiert wurde. Klammern, in denen nur ein Element steht, können anschließend wieder gestrichen werden.
Diese Darstellung ist nicht eindeutig: Die Reihenfolge der Zykel ist beliebig wählbar und in jedem Zykel dürfen die Elemente zyklisch vertauscht werden.
Die Identität id notiert man auch als leere Klammer (), als (1) oder als <math>\epsilon</math>. Die inverse Permutation erhält man, indem man in der Zykelschreibweise in jedem Zykel die Elemente in der umgekehrten Reihenfolge schreibt.

: <math>\sigma = (124)(35)</math> bedeutet beispielsweise, dass <math>\sigma</math> 1 auf 2, 2 auf 4 und 4 auf 1 abbildet und zusätzlich 3 auf 5 und 5 auf 3. Es gilt <math>\sigma^{-1} = (421)(53) = (142)(35)</math>.

Eine Permutation, die <math>r</math> Elemente zyklisch vertauscht und die übrigen Elemente fest lässt, wird in dieser Notation als ein einzelner Zykel der Länge <math>r</math> geschrieben und <math>r</math>-Zykel genannt. Ein 2-Zykel, also eine Vertauschung zweier Elemente, heißt auch Transposition. Jeder Zykel und damit auch jede Permutation lässt sich als Komposition von Transpositionen schreiben.

=== Tupelschreibweise ===
Bei der Tupelschreibweise schreibt man die Funktionswerte <math>\sigma(x)</math> in eine Zeile.
:<math>\sigma = \left(\sigma\left(1\right),\sigma\left(2\right),\dotsc,\sigma\left(n\right)\right)</math>
Sie enthält somit nur noch die zweite Zeile der Matrixdarstellung. Da dadurch die Information über den <math>x</math>-Wert zu den <math>\sigma(x)</math> verloren geht, kann die Tupelschreibweise nur verwendet werden, wenn für die zugrundeliegende Menge eine Reihenfolge festgelegt wurde. Anhand dieser Reihenfolge lässt sich dann die erste Zeile der Matrixdarstellung rekonstruieren.

Die Tupelschreibweise wird leicht mit der Zykelschreibweise verwechselt, besonders da manche Autoren die Kommata weglassen.

=== Permutationsmatrix ===
[[Datei:Symmetric group 3; Cayley table; matrices.svg|thumb|Matrizen der Permutationen dreier Elemente]]
{{Hauptartikel|Permutationsmatrix}}

Diese Darstellung ist nicht zu verwechseln mit der Matrixdarstellung. Bei dieser Darstellung wird ein [[Vektor]] von links mit einer Permutationsmatrix multipliziert, wodurch die Elemente des Vektors permutiert werden.

;Definition:

Sei <math>X_n=(x_1,x_2,\dotsc,x_n) </math> das <math>n</math>-Tupel und <math>P_\sigma \in \mathbb{N}^{n\times n}</math> die Permutationsmatrix.

Der Permutation <math>\sigma = \begin{pmatrix} x_1 & x_2 & \dotso & x_n \\ \sigma\left(x_1\right) & \sigma\left(x_2\right) & \dotso & \sigma\left(x_n\right) \end{pmatrix}</math> entspricht dann die Matrix
:<math> P_\sigma=
\begin{pmatrix}
p_{11} & \dots &p_{1n} \\
\vdots &\ddots &\vdots \\
p_{n1} & \dots &p_{nn}
\end{pmatrix}
= (p_{j,k})_{1\leq j,k \leq n} \quad\text{ mit }\quad p_{j,k}=\begin{cases} 1, & \text{wenn }\sigma(x_j)=x_k\text{ gilt } \\ 0, & \text{wenn } \sigma(x_j) \ne x_k\text{ gilt }\end{cases}
</math>

Der Vektor <math>\overline{x} =\begin{pmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \\\end{pmatrix}</math> wird permutiert, indem man ihn von links mit <math>P_\sigma</math> multipliziert:
<math>P_\sigma \cdot \begin{pmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \\\end{pmatrix} = \begin{pmatrix} \sigma(x_1) \\ \sigma(x_2) \\ \vdots \\ \sigma(x_n) \\\end{pmatrix}</math>

;Bemerkung:

Die [[identische Abbildung]] wird dargestellt durch die [[Einheitsmatrix]] .

=== Beispiele ===
* Ein einfaches Beispiel in verschiedenen Schreibweisen: Es sei <math>\sigma_1 \colon \{a,b,c \} \rightarrow \{a,b,c \}</math> durch <math>\sigma_1\left(a\right):=b, \sigma_1\left(b\right):=a \mbox{ und } \sigma_1\left(c\right):=c </math> gegeben. Dann gilt
:{|
|-
| '''Matrixdarstellung:'''
| <math>\sigma_1 = \begin{pmatrix} a & b & c \\ b & a & c \end{pmatrix}</math>
|-
| '''Zykelschreibweise:'''
| <math>\sigma_1 = \left(a b\right)\left(c\right) = \left(a b\right)</math> – <math>a</math> und <math>b</math> werden vertauscht, <math>c</math> wird gehalten
|-
| '''Tupelschreibweise:'''
| <math>\sigma_1 = \left(b,a,c\right)</math> oder auch <math>\sigma_1 = \left(b\ a\ c\right)</math>
|-
| '''Permutationsmatrix:'''
| <math>P \cdot \overline{x}=
\begin{pmatrix}
0 & 1 & 0 \\
1 & 0 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}
\cdot \begin{pmatrix}a \\ b \\ c \\\end{pmatrix}
= \begin{pmatrix}b \\ a \\ c \\\end{pmatrix}</math> – <math>a</math> und <math>b</math> werden vertauscht, <math>c</math> wird gehalten
|}

* Ein weiteres Beispiel: Sei <math>\sigma_2 \in S_4</math> durch <math>\sigma_2 \colon \{1, 2, 3, 4 \} \rightarrow \{1, 2, 3, 4 \}</math> und <math>\sigma_2\left(1\right):=4, \sigma_2\left(2\right):=3, \sigma_2\left(3\right):=2 \mbox{ und } \sigma_2\left(4\right):=1 </math> gegeben. Dann schreibt man
:{|
|-
| '''Matrixdarstellung:'''
| <math>\sigma_2 = \begin{pmatrix} 1 & 2 & 3 & 4 \\ 4 & 3 & 2 & 1 \end{pmatrix}</math>
|-
| '''Zykelschreibweise:'''
| <math>\sigma_2 = \left(1\ 4\right)\left(2\ 3\right)</math>
|-
| '''Tupelschreibweise:'''
| <math>\sigma_2 = \left(4,3,2,1\right)</math> oder auch <math>\sigma_2 = \left(4\ 3\ 2\ 1\right)</math>
|-
| '''Permutationsmatrix:'''
| <math>P \cdot \overline{x}=
\begin{pmatrix}
0 & 0 & 0 & 1\\
0 & 0 & 1 & 0\\
0 & 1 & 0 & 0\\
1 & 0 & 0 & 0\\
\end{pmatrix}
\cdot \begin{pmatrix}1 \\ 2 \\ 3 \\ 4 \\\end{pmatrix}
= \begin{pmatrix}4 \\ 3 \\ 2 \\ 1 \\\end{pmatrix}</math>
|}

Keine der Darstellungen ist eindeutig.

== Fixpunkte ==
Elemente, deren Positionen sich bei der Permutation nicht ändern, nennt man [[Fixpunkt (Mathematik)|Fixpunkte]] der Permutation. Bei der Permutation
:<math>\begin{pmatrix} 1 & 2 & 3 & 4 \\ 1 & 3 & 2 & 4 \end{pmatrix}</math>
sind dies beispielsweise die Zahlen 1 und 4. In der Matrixdarstellung erkennt man Fixpunkte daran, dass der obere und untere Eintrag der jeweiligen Spalte gleich ist. In der Zykelschreibweise sind Fixpunkte genau die Elemente, die nicht erscheinen. Für das obige Beispiel lautet die Zykelschreibweise <math>(2 3)</math>; die Fixpunkte 1 und 4 erscheinen hier nicht. In der Permutationsmatrix sind die den Fixpunkten zugewiesenen Einträge der Hauptdiagonale 1. In der Permutationsmatrix zum obigen Beispiel sind dies die Einträge <math>p_{1,1}</math> und <math>p_{4,4}</math>:
:<math>\begin{pmatrix}
1 & 0 & 0 & 0\\
0 & 0 & 1 & 0\\
0 & 1 & 0 & 0\\
0 & 0 & 0 & 1
\end{pmatrix}</math>.

Eine Permutation ohne Fixpunkte wird auch [[Derangement]] genannt. Ein Derangement ist also ein „totale Versetzung“, bei der kein einziges Element auf seinem Platz bleibt. Die Anzahl der Derangements einer Menge mit <math>n</math> Elementen ist
:<math>n! \cdot\sum_{i=0}^n {\left(-1\right)^i \over i!}.</math>
Diese Zahl heißt [[Subfakultät]] und wird mit <math>!n</math> bezeichnet.

Allgemeiner lässt sich die Anzahl der Permutationen mit einer gegebenen Anzahl von Fixpunkten (sog. partielle Derangements) mit Hilfe der [[Rencontres-Zahl]]en bestimmen.

== Verknüpfung von Permutationen ==
Zwei <math>n</math>-stellige Permutationen lassen sich nacheinander ausführen, indem man die erste Permutation anwendet und auf deren Resultat dann die zweite Permutation. Diese Hintereinanderausführung wird auch [[Komposition (Mathematik)|Komposition]] , Verknüpfung oder Produkt zweier Permutationen genannt und ist selbst wieder eine <math>n</math>-stellige Permutation.

Eine Menge von Permutationen einer endlichen Menge ''M'', erzeugt mit der Komposition als Verknüpfung eine [[Permutationsgruppe]] auf ''M''.

=== Beispiele zur Komposition von Permutationen ===
Beispiele zur Verknüpfung:
* <math>\begin{pmatrix}
1 & 2 & 3 \\
3 & 1 & 2
\end{pmatrix} \circ \begin{pmatrix}
1 & 2 & 3 \\
1 & 3 & 2
\end{pmatrix} = \begin{pmatrix}
1 & 2 & 3 \\
3 & 2 & 1
\end{pmatrix}</math>
:Man beachte, dass die Verknüpfungen von rechts nach links ausgewertet werden: In der zweiten Matrix geht die 1 in die 1, in der ersten die 1 in die 3. Im Ergebnis der Verknüpfung geht also die 1 in die 3. Ebenso: zweite Matrix 2 → 3, erste Matrix 3 → 2, Ergebnis 2 → 2. Und: zweite Matrix 3 → 2, erste Matrix 2 → 1, Ergebnis 3 → 1.
* <math>(132)\circ(23)=(1 3)</math>
* <math>(23)\circ(132)=(1 2)</math>

Die beiden letzten Beispiele zeigen, dass die Reihenfolge im Allgemeinen von Bedeutung ist: Die symmetrische Gruppe <math>S_n</math> ist für <math>n > 2</math> nicht [[Abelsche Gruppe|abelsch]].
Die Reihenfolge kann nur unbeachtet bleiben, wenn die miteinander verknüpften Zykel [[disjunkt]] sind, d. h. jedes Element der Permutation kommt nur in einem Zykel vor. Beispiel:
* <math>\begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 4 & 5
\end{pmatrix} \circ \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
1 & 2 & 3 & 5 & 4
\end{pmatrix} = \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 5 & 4
\end{pmatrix} = \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
1 & 2 & 3 & 5 & 4
\end{pmatrix} \circ \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 4 & 5
\end{pmatrix}</math>

* <math>(132)\circ(45)=
\begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 5 & 4
\end{pmatrix} =
(45) \circ(132)</math>

== Ordnung ==
Für jede Permutation <math>\sigma</math> gibt es eine kleinste natürliche Zahl <math>k</math> derart, dass die <math>k</math>-malige Hintereinanderausführung von <math>\sigma</math> die Identität ergibt: <math>\sigma^k = \mbox{id}</math>. Diese Zahl wird Ordnung von <math>\sigma</math> genannt. Sie ist die [[Elementordnung]] von <math>\sigma</math> als Gruppenelement der Symmetrischen Gruppe. Die Ordnung einer Permutation lässt sich leicht aus der Zykeldarstellung bestimmen: Sie ist das [[Kleinstes gemeinsames Vielfaches|kleinste gemeinsame Vielfache]] (kgV) der Längen der disjunkten Zykeln von <math>\sigma</math>. Beispielsweise ist die Ordnung der Permutation <math>(1 2 4)(3 5)</math> das kgV von 3 und 2, also 6.

Eine Permutation <math>\sigma</math> mit <math>\sigma^2 = \mbox{id}</math>, oder äquivalent <math>\sigma^{-1} = \sigma</math>, heißt Involution oder selbstinvers. Die Involutionen sind genau die Permutationen der Ordnung 2 sowie die Identität selbst (die einzige Permutation der Ordnung 1). Eine Permutation ist genau dann eine Involution, wenn ihre Zykeldarstellung maximal Zykel der Länge 2 (also Transpositionen) enthält.

== Einige Eigenschaften von endlichen Permutationen ==
Nur falls die Menge aus der die Elemente der Permutation stammen, mit einer Totalordnung versehen ist, machen folgende Begriffe einen Sinn:
* „left-to-right maximum“ (Links-Rechts-Maximum, kurz: ''LR-Maximum''). Bei einer Permutation in Wortschreibweise <math>a = a_1 \dotso a_i \dotso a_n</math> nennt man <math>a_i</math> genau dann ein ''LR-Maximum'', wenn <math>a_i > a_j</math> mit <math>1 \leq j \leq i-1</math>. Diese Eigenschaft ist von Nutzen, wenn man die normalisierte Zykeldarstellung ohne Klammern schreiben möchte. Man kann unter Ausnutzung der LR-Maxima zeigen, dass dann eine [[Bijektion]] zwischen der normalisierten Zykeldarstellung in eine Permutation existiert.<ref>Vorlesungsskript Prof. Welker: [http://www.mathematik.uni-marburg.de/~welker/vorlesung/dima07/kapitel1.pdf Kapitel 1] & [http://www.mathematik.uni-marburg.de/~welker/vorlesung/dima07/kapitel3.pdf Kapitel 3] ([[Portable Document Format|PDF]])</ref> Bemerkung: <math>a_1</math> ist immer ein LR-Maximum.
* ''alternierend'' nennt man eine Permutation, wenn beim durchlaufen dieser sich die Ordnungsrelation der vorgegebenen Totalordnung von nebeneinanderstehenden Elementen dauernd ändert. Formal, wenn für keinen Index i, mit <math>1 , weder <math>a_{i-1} < a_i < a_{i+1}</math> noch <math>a_{i-1} > a_i > a_{i+1}</math> ist, wobei <math>a_k</math> das k-te Element einer n-elementigen Permutation bezeichnet.
* Inversion/[[Fehlstand]]: Man nennt ein Paar <math> (i,j) </math> von Elementen Inversion bzgl. <math> \sigma </math>, falls gilt
*: <math> i < j </math> und <math> \sigma\left(i\right) > \sigma\left(j\right) </math>. Zwei Elemente bilden also genau dann eine Inversion, wenn nach Anwenden der Permutation das größere vor dem kleineren Element steht.

'''Beispiel:''' Gegeben sei die Permutation <math> \pi = \left(3\ 2\ 5\ 1\ 4\right) </math> (in Tupelschreibweise). <math> 1 < 2 </math>, aber 2 steht hier vor 1, also sind 1, 2 eine Inversion bezüglich <math> \pi </math>.

Ordnet man in einer Tabelle jedem Element die Anzahl derjenigen Elemente zu, die nach der Permutation links von ihm stehen, obwohl sie größer sind, so erhält man die sogenannte [[Inversionstafel]] der Permutation. Umgekehrt kann man aus jeder solchen Tafel die Permutation eindeutig bestimmen.

'''Beispiel:''' Gegeben sei die Permutation <math> \left(3\ 2\ 5\ 1\ 4\right) </math> (in Tupelschreibweise). Dann haben wir als Inversionstafel:

:<math>
\begin{pmatrix}1&2&3&4&5 \\ 3 & 1 & 0 & 1 & 0 \end{pmatrix}
</math>

* [[Signum (Mathematik)#Signum von Permutationen|Signum]]: Sei mit <math>i\left(\sigma\right)</math> die Anzahl der Inversionen von <math>\sigma</math> bezeichnet. Dann ist das [[Signum (Mathematik)|Signum]] von <math>\sigma</math> gegeben durch <math>\mathrm{sgn}\left(\sigma\right) = \left(-1\right)^{i\left(\sigma\right)}</math>.
Eine Permutation hat also Signum 1, falls die Anzahl ihrer Inversionen gerade ist, ansonsten Signum −1.

Das Signum lässt sich auch über folgende Formel bestimmen:
: <math>\mathrm{sgn}(\sigma) = (-1)^{m_1+m_2+\dotsb+m_r+r},</math>
wobei <math>r</math> die Anzahl der Zykel und <math>m_i</math> die Länge des <math>i</math>-ten Zykels sind <math>\left(i=1,\dotsc,r\right)</math>.

* Typ: Sei mit <math> b_i </math> die Anzahl der Zykel von <math> \pi </math> bezeichnet, welche die Länge <math> i </math> haben. Dann ist der Typ einer Permutation der formale Ausdruck
*: <math>1^{b_1} 2^{b_2} 3^{b_3} \dotsm n^{b_n}.</math>

Formal bedeutet hierbei, dass das Produkt und die Potenzen nicht tatsächlich ausgerechnet werden.

* Auf weitere Eigenschaften der Permutation und der Verkettung wird bei der [[Symmetrische Gruppe|Symmetrischen Gruppe]] eingegangen.

== Der Permutaeder ==
[[File:Bitruncated cubic honeycomb2.png|thumb|Tesselation des Raumes durch Permutaeder]]
Der Permutaeder <math>P_n</math> ist ein konvexer [[Polyeder]], welcher wie folgt definiert ist: Jede Permutation
<math>\sigma \in S_n</math> wird in Tupelschreibweise geschrieben als Vektor im <math>\mathbb{R}^n</math> interpretiert.
Die [[Konvexe Hülle|konvexe Hülle]] dieser Vektoren ergibt dann <math>P_n</math> :

:<math>
P_n := \operatorname{conv} \left\{ \sigma = (\sigma(1), \sigma(2), \ldots, \sigma(n)) | \sigma \in S_n \right\}
</math>

Der Permutaeder lässt sich außerdem auch durch den Schnitt von [[Halbraum|Halbräumen]] beschreiben:

:<math>
P_n = \{ x \in \mathbb{R}^n \; |
\; \sum_{i=1}^n x_i = { n + 1 \choose 2 } , \;
\forall S \subset \{1,\ldots, n\} : \sum_{i \in S} x_i \geq { | S | + 1 \choose 2 } \}
</math>

Die Ecken des Permutaeders sind gerade die Permutationen in Tupelschreibweise, zwei Permutationen
sind genau dann durch eine Kante des Permutaeders verbunden, wenn sie sich durch eine Transposition
benachbarter Elemente ineinander überführen lassen.

Der Permutaeder <math>P_n</math> liegt in der <math>(n-1)</math>-dimensionalen Hyperebene

:<math> H = \{ x \in \mathbb{R}^n \; | \; x_1 + x_2 + \ldots + x_n = {n + 1 \choose 2} \}</math>

Die Hyperebene <math>H</math> besteht gerade aus den Punkten,
deren Koordinatensumme <math>{n + 1 \choose 2} = \frac{n(n + 1)}{2}</math> ist.
<math>H</math> besitzt außerdem eine [[Tessellation]] durch unendlich viele [[Parallelverschiebung|parallelverschobene]] Kopien des Permutaeders. Die Symmetriegruppe dieser Tesselation ist das durch die folgenden Gleichungen gegebene <math>(n-1)</math>-dimensionale [[Gitter (Mathematik)|Gitter]]:

:<math>
x_1 + x_2 + \ldots + x_n = 0, \; x_1 \equiv x_2 \equiv \ldots x_n \mod n
</math>

== Siehe auch ==
* [[Permutiertes Register]]
* [[Fakultätsbasiertes Zahlensystem]]
* [[Kombinatorik]]

== Literatur ==
* [[Albrecht Beutelspacher]]: ''Lineare Algebra.'' 6. durchgesehene und ergänzte Auflage. Vieweg, Wiesbaden 2003, ISBN 3-528-56508-X, Kapitel 7.2 ''Permutationen''.
* [[Michael Artin]]: ''Algebra.'' Birkhäuser, Basel u. a. 1993, ISBN 3-7643-2927-0, Kapitel 1.4 ''Permutationsmatrizen''.

== Weblinks ==
{{Wiktionary|Permutation}}
* [http://www.reiter1.com/Glossar/Kombinatorik.htm Kombinatorik: Anwendung Permutation, Kombination und Variation]

== Einzelnachweise ==
<references />

[[Kategorie:Gruppentheorie]]
[[Kategorie:Kombinatorik]]
[[Kategorie:Lineare Algebra]]

[[am:ሰልፍ]]
[[ar:تبديل (رياضيات)]]
[[bg:Пермутация]]
[[bn:বিন্যাস]]
[[ca:Permutació]]
[[cs:Permutace]]
[[da:Permutation]]
[[el:Μετάθεση (μαθηματικά)]]
[[en:Permutation]]
[[eo:Permutaĵo]]
[[es:Permutación]]
[[et:Permutatsioon]]
[[eu:Permutazio]]
[[fa:جایگشت]]
[[fi:Permutaatio]]
[[fr:Permutation]]
[[gu:ક્રમચય]]
[[he:תמורה (מתמטיקה)]]
[[hi:क्रमचय]]
[[hr:Permutacija]]
[[hu:Permutáció]]
[[id:Permutasi]]
[[it:Permutazione]]
[[ja:置換 (数学)]]
[[kk:Алмастыру]]
[[kn:ಕ್ರಮಪಲ್ಲಟನೆ]]
[[ko:순열]]
[[lt:Kėliniai]]
[[mk:Пермутација]]
[[nl:Permutatie]]
[[nn:Permutasjon]]
[[no:Permutasjon]]
[[pl:Permutacja]]
[[pt:Permutação]]
[[ro:Permutare]]
[[ru:Перестановка]]
[[scn:Pirmutazzioni]]
[[simple:Permutation]]
[[sk:Permutácia (algebra)]]
[[sl:Permutacija]]
[[sq:Permutacioni]]
[[sr:Пермутација]]
[[sv:Permutation]]
[[ta:வரிசைமாற்றம்]]
[[te:ప్రస్తారణ]]
[[th:การเรียงสับเปลี่ยน]]
[[tr:Permütasyon]]
[[uk:Перестановка]]
[[ur:تبدل کامل]]
[[vi:Hoán vị]]
[[zh:置換]]

Permutation

2012-11-06T17:09:33Z

Mathmon: Sektion Permutaeder hinzugefügt

[[Datei:Permutations RGB.svg|thumb|120px|Alle 6 Permutationen dreier Kugeln]]

Unter einer '''Permutation''' (von {{laS|''permutare''}} ‚(ver)tauschen‘) versteht man die Veränderung der Anordnung von (meistens verschiedenen) Objekten in einer [[Reihenfolge]] durch Vertauschen ihrer [[Element (Mathematik)|Elemente]]. In der Mathematik ist eine Permutation eine [[bijektiv]]e Selbstabbildung einer in der Regel endlichen Menge. Umgangssprachlich findet der Begriff bisweilen auch als Synonym für „(lineare bzw. der-Reihe-nach) Anordnung“ Verwendung.

== Beispiele ==
* „ANGSTBUDE“ entsteht aus „BUNDESTAG“ durch Permutation der Buchstaben ([[Anagramm]]).
* Das Mischen der Karten eines Kartenspiels ist eine Permutation auf der Menge der Karten.
* Der Stellungswechsel nach Eroberung des Aufschlagsrechts im [[Volleyball]] (Rotieren) ist eine Permutation der Spieler.
* Sortieralgorithmen wie zum Beispiel der [[Bubble Sort]] arbeiten mit sukzessivem Vertauschen, d. h. mit der Hintereinanderausführung von speziellen Permutationen, sogenannten Transpositionen (siehe unten).

== Formale Definition ==
Eine <math>n</math>-stellige Permutation ist eine [[bijektiv]]e [[Funktion (Mathematik)|Abbildung]] <math>\sigma \colon X \rightarrow X</math> einer <math>n</math>-elementigen Menge <math>X</math> auf sich selbst. Für eine <math>n</math>-elementige Menge gibt es genau [[Fakultät (Mathematik)|''n''!]] mögliche Permutationen. Durch eine Permutation wird somit eine [[Ordnungsrelation#Totalordnung | Totalordnung]] zwischen den Elementen festgelegt. Da umgekehrt jede Totalordnung durch eine Permutation vermittelt wird, kann man sich bei der mathematischen Betrachtung von Permutationen stets auf die ersten n natürlichen Zahlen als Referenzmenge bei endlichen Permutationen beschränken.

Die <math>n</math>-stelligen Permutationen der ersten <math>n</math> natürlichen Zahlen <math>1, 2, 3, \dotsc, n</math> bilden mit der Komposition von Abbildungen als Verknüpfung die [[symmetrische Gruppe]] <math>S_n</math> (mit <math>n!</math> Elementen). Für die symmetrische Gruppe einer beliebigen Menge <math>X_n</math> schreibt man allgemein <math>S(X_n)</math>. Ihr neutrales Element ist die [[Identische Abbildung|Identität]] (abgekürzt id), also diejenige Permutation, die alle Elemente an ihrem Platz belässt. Zu jeder Permutation <math>\sigma</math> gibt es genau eine inverse Permutation <math>\sigma^{-1}</math> mit <math>\sigma \circ \sigma^{-1} = \sigma^{-1} \circ \sigma = \mathrm{id}</math>.

Die symmetrischen Gruppen spielen in der Mathematik eine bedeutende Rolle. Beispielsweise ist nach dem [[Satz von Cayley]] jede [[endliche Gruppe]] zu einer Untergruppe einer symmetrischen Gruppe [[Isomorphismus|isomorph]].

== Mathematische Schreibweisen und Darstellungen ==
Es gibt im Wesentlichen vier Arten zur Beschreibung einer <math>n</math>-stelligen Permutation: Matrixdarstellung, Zykelschreibweise, Tupelschreibweise und Permutationsmatrix. Im Folgenden bezeichnen wir die <math>n</math> Elemente von <math>X_n</math> mit <math>1,2,\dotsc,n</math> und es sei <math>\sigma \in S_n</math>.

=== Matrixdarstellung ===
In der ausführlichen Darstellung der Permutation <math>\sigma</math> schreibt man diese als <math>(2\times n)</math>-[[Matrix (Mathematik)|Matrix]]. In der oberen Zeile stehen die Elemente von <math>X_n</math> (in beliebiger Reihenfolge). Ist <math> X_n = \{1,\dotsc,n\} </math>, dann schreibt man im Allgemeinen die Zahlen von <math>1</math> bis <math>n</math> nacheinander in die erste Zeile. Unter jedes <math>x\in X_n</math> schreibt man in die zweite Zeile den Funktionswert <math>\sigma(x)</math>. Auch in der zweiten Zeile steht somit jedes Element von <math>X_n</math> genau einmal.

:<math>\sigma = \begin{pmatrix} 1 & 2 & \cdots & n \\ \sigma\left(1\right) & \sigma\left(2\right) & \cdots & \sigma\left(n\right) \end{pmatrix}</math>

=== Zykelschreibweise ===
Die Zykelschreibweise ist kompakter und benötigt nur eine Zeile. Man beginnt mit einem beliebigen Element <math>a\in X_n</math> und schreibt
:<math>\left(a \; \sigma(a) \; \sigma^2(a) \; \cdots \; \sigma^{\ell_a-1}(a)\right)</math>,
wobei <math>\sigma^k</math> die <math>k</math>-fache Hintereinanderausführung von <math>\sigma</math> bezeichnet und <math>\ell_a</math> die kleinste natürliche Zahl mit <math>\sigma^{\ell_a}(a) = a</math> ist. Eine solche Klammer heißt ein ''Zykel'' und <math>\ell_a</math> ist seine Länge. Gibt es weitere Elemente in <math>X_n</math>, die noch nicht notiert wurden, so wählt man ein solches Element <math>b</math> und schreibt einen weiteren Zykel <math>(b \; \sigma(b) \; \cdots \; \sigma^{\ell_b-1}(b))</math> der Länge <math>\ell_b</math>. Man fährt so lange fort, bis jedes Element genau einmal notiert wurde. Klammern, in denen nur ein Element steht, können anschließend wieder gestrichen werden.
Diese Darstellung ist nicht eindeutig: Die Reihenfolge der Zykel ist beliebig wählbar und in jedem Zykel dürfen die Elemente zyklisch vertauscht werden.
Die Identität id notiert man auch als leere Klammer (), als (1) oder als <math>\epsilon</math>. Die inverse Permutation erhält man, indem man in der Zykelschreibweise in jedem Zykel die Elemente in der umgekehrten Reihenfolge schreibt.

: <math>\sigma = (124)(35)</math> bedeutet beispielsweise, dass <math>\sigma</math> 1 auf 2, 2 auf 4 und 4 auf 1 abbildet und zusätzlich 3 auf 5 und 5 auf 3. Es gilt <math>\sigma^{-1} = (421)(53) = (142)(35)</math>.

Eine Permutation, die <math>r</math> Elemente zyklisch vertauscht und die übrigen Elemente fest lässt, wird in dieser Notation als ein einzelner Zykel der Länge <math>r</math> geschrieben und <math>r</math>-Zykel genannt. Ein 2-Zykel, also eine Vertauschung zweier Elemente, heißt auch Transposition. Jeder Zykel und damit auch jede Permutation lässt sich als Komposition von Transpositionen schreiben.

=== Tupelschreibweise ===
Bei der Tupelschreibweise schreibt man die Funktionswerte <math>\sigma(x)</math> in eine Zeile.
:<math>\sigma = \left(\sigma\left(1\right),\sigma\left(2\right),\dotsc,\sigma\left(n\right)\right)</math>
Sie enthält somit nur noch die zweite Zeile der Matrixdarstellung. Da dadurch die Information über den <math>x</math>-Wert zu den <math>\sigma(x)</math> verloren geht, kann die Tupelschreibweise nur verwendet werden, wenn für die zugrundeliegende Menge eine Reihenfolge festgelegt wurde. Anhand dieser Reihenfolge lässt sich dann die erste Zeile der Matrixdarstellung rekonstruieren.

Die Tupelschreibweise wird leicht mit der Zykelschreibweise verwechselt, besonders da manche Autoren die Kommata weglassen.

=== Permutationsmatrix ===
[[Datei:Symmetric group 3; Cayley table; matrices.svg|thumb|Matrizen der Permutationen dreier Elemente]]
{{Hauptartikel|Permutationsmatrix}}

Diese Darstellung ist nicht zu verwechseln mit der Matrixdarstellung. Bei dieser Darstellung wird ein [[Vektor]] von links mit einer Permutationsmatrix multipliziert, wodurch die Elemente des Vektors permutiert werden.

;Definition:

Sei <math>X_n=(x_1,x_2,\dotsc,x_n) </math> das <math>n</math>-Tupel und <math>P_\sigma \in \mathbb{N}^{n\times n}</math> die Permutationsmatrix.

Der Permutation <math>\sigma = \begin{pmatrix} x_1 & x_2 & \dotso & x_n \\ \sigma\left(x_1\right) & \sigma\left(x_2\right) & \dotso & \sigma\left(x_n\right) \end{pmatrix}</math> entspricht dann die Matrix
:<math> P_\sigma=
\begin{pmatrix}
p_{11} & \dots &p_{1n} \\
\vdots &\ddots &\vdots \\
p_{n1} & \dots &p_{nn}
\end{pmatrix}
= (p_{j,k})_{1\leq j,k \leq n} \quad\text{ mit }\quad p_{j,k}=\begin{cases} 1, & \text{wenn }\sigma(x_j)=x_k\text{ gilt } \\ 0, & \text{wenn } \sigma(x_j) \ne x_k\text{ gilt }\end{cases}
</math>

Der Vektor <math>\overline{x} =\begin{pmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \\\end{pmatrix}</math> wird permutiert, indem man ihn von links mit <math>P_\sigma</math> multipliziert:
<math>P_\sigma \cdot \begin{pmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \\\end{pmatrix} = \begin{pmatrix} \sigma(x_1) \\ \sigma(x_2) \\ \vdots \\ \sigma(x_n) \\\end{pmatrix}</math>

;Bemerkung:

Die [[identische Abbildung]] wird dargestellt durch die [[Einheitsmatrix]] .

=== Beispiele ===
* Ein einfaches Beispiel in verschiedenen Schreibweisen: Es sei <math>\sigma_1 \colon \{a,b,c \} \rightarrow \{a,b,c \}</math> durch <math>\sigma_1\left(a\right):=b, \sigma_1\left(b\right):=a \mbox{ und } \sigma_1\left(c\right):=c </math> gegeben. Dann gilt
:{|
|-
| '''Matrixdarstellung:'''
| <math>\sigma_1 = \begin{pmatrix} a & b & c \\ b & a & c \end{pmatrix}</math>
|-
| '''Zykelschreibweise:'''
| <math>\sigma_1 = \left(a b\right)\left(c\right) = \left(a b\right)</math> – <math>a</math> und <math>b</math> werden vertauscht, <math>c</math> wird gehalten
|-
| '''Tupelschreibweise:'''
| <math>\sigma_1 = \left(b,a,c\right)</math> oder auch <math>\sigma_1 = \left(b\ a\ c\right)</math>
|-
| '''Permutationsmatrix:'''
| <math>P \cdot \overline{x}=
\begin{pmatrix}
0 & 1 & 0 \\
1 & 0 & 0 \\
0 & 0 & 1 \\
\end{pmatrix}
\cdot \begin{pmatrix}a \\ b \\ c \\\end{pmatrix}
= \begin{pmatrix}b \\ a \\ c \\\end{pmatrix}</math> – <math>a</math> und <math>b</math> werden vertauscht, <math>c</math> wird gehalten
|}

* Ein weiteres Beispiel: Sei <math>\sigma_2 \in S_4</math> durch <math>\sigma_2 \colon \{1, 2, 3, 4 \} \rightarrow \{1, 2, 3, 4 \}</math> und <math>\sigma_2\left(1\right):=4, \sigma_2\left(2\right):=3, \sigma_2\left(3\right):=2 \mbox{ und } \sigma_2\left(4\right):=1 </math> gegeben. Dann schreibt man
:{|
|-
| '''Matrixdarstellung:'''
| <math>\sigma_2 = \begin{pmatrix} 1 & 2 & 3 & 4 \\ 4 & 3 & 2 & 1 \end{pmatrix}</math>
|-
| '''Zykelschreibweise:'''
| <math>\sigma_2 = \left(1\ 4\right)\left(2\ 3\right)</math>
|-
| '''Tupelschreibweise:'''
| <math>\sigma_2 = \left(4,3,2,1\right)</math> oder auch <math>\sigma_2 = \left(4\ 3\ 2\ 1\right)</math>
|-
| '''Permutationsmatrix:'''
| <math>P \cdot \overline{x}=
\begin{pmatrix}
0 & 0 & 0 & 1\\
0 & 0 & 1 & 0\\
0 & 1 & 0 & 0\\
1 & 0 & 0 & 0\\
\end{pmatrix}
\cdot \begin{pmatrix}1 \\ 2 \\ 3 \\ 4 \\\end{pmatrix}
= \begin{pmatrix}4 \\ 3 \\ 2 \\ 1 \\\end{pmatrix}</math>
|}

Keine der Darstellungen ist eindeutig.

== Fixpunkte ==
Elemente, deren Positionen sich bei der Permutation nicht ändern, nennt man [[Fixpunkt (Mathematik)|Fixpunkte]] der Permutation. Bei der Permutation
:<math>\begin{pmatrix} 1 & 2 & 3 & 4 \\ 1 & 3 & 2 & 4 \end{pmatrix}</math>
sind dies beispielsweise die Zahlen 1 und 4. In der Matrixdarstellung erkennt man Fixpunkte daran, dass der obere und untere Eintrag der jeweiligen Spalte gleich ist. In der Zykelschreibweise sind Fixpunkte genau die Elemente, die nicht erscheinen. Für das obige Beispiel lautet die Zykelschreibweise <math>(2 3)</math>; die Fixpunkte 1 und 4 erscheinen hier nicht. In der Permutationsmatrix sind die den Fixpunkten zugewiesenen Einträge der Hauptdiagonale 1. In der Permutationsmatrix zum obigen Beispiel sind dies die Einträge <math>p_{1,1}</math> und <math>p_{4,4}</math>:
:<math>\begin{pmatrix}
1 & 0 & 0 & 0\\
0 & 0 & 1 & 0\\
0 & 1 & 0 & 0\\
0 & 0 & 0 & 1
\end{pmatrix}</math>.

Eine Permutation ohne Fixpunkte wird auch [[Derangement]] genannt. Ein Derangement ist also ein „totale Versetzung“, bei der kein einziges Element auf seinem Platz bleibt. Die Anzahl der Derangements einer Menge mit <math>n</math> Elementen ist
:<math>n! \cdot\sum_{i=0}^n {\left(-1\right)^i \over i!}.</math>
Diese Zahl heißt [[Subfakultät]] und wird mit <math>!n</math> bezeichnet.

Allgemeiner lässt sich die Anzahl der Permutationen mit einer gegebenen Anzahl von Fixpunkten (sog. partielle Derangements) mit Hilfe der [[Rencontres-Zahl]]en bestimmen.

== Verknüpfung von Permutationen ==
Zwei <math>n</math>-stellige Permutationen lassen sich nacheinander ausführen, indem man die erste Permutation anwendet und auf deren Resultat dann die zweite Permutation. Diese Hintereinanderausführung wird auch [[Komposition (Mathematik)|Komposition]] , Verknüpfung oder Produkt zweier Permutationen genannt und ist selbst wieder eine <math>n</math>-stellige Permutation.

Eine Menge von Permutationen einer endlichen Menge ''M'', erzeugt mit der Komposition als Verknüpfung eine [[Permutationsgruppe]] auf ''M''.

=== Beispiele zur Komposition von Permutationen ===
Beispiele zur Verknüpfung:
* <math>\begin{pmatrix}
1 & 2 & 3 \\
3 & 1 & 2
\end{pmatrix} \circ \begin{pmatrix}
1 & 2 & 3 \\
1 & 3 & 2
\end{pmatrix} = \begin{pmatrix}
1 & 2 & 3 \\
3 & 2 & 1
\end{pmatrix}</math>
:Man beachte, dass die Verknüpfungen von rechts nach links ausgewertet werden: In der zweiten Matrix geht die 1 in die 1, in der ersten die 1 in die 3. Im Ergebnis der Verknüpfung geht also die 1 in die 3. Ebenso: zweite Matrix 2 → 3, erste Matrix 3 → 2, Ergebnis 2 → 2. Und: zweite Matrix 3 → 2, erste Matrix 2 → 1, Ergebnis 3 → 1.
* <math>(132)\circ(23)=(1 3)</math>
* <math>(23)\circ(132)=(1 2)</math>

Die beiden letzten Beispiele zeigen, dass die Reihenfolge im Allgemeinen von Bedeutung ist: Die symmetrische Gruppe <math>S_n</math> ist für <math>n > 2</math> nicht [[Abelsche Gruppe|abelsch]].
Die Reihenfolge kann nur unbeachtet bleiben, wenn die miteinander verknüpften Zykel [[disjunkt]] sind, d. h. jedes Element der Permutation kommt nur in einem Zykel vor. Beispiel:
* <math>\begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 4 & 5
\end{pmatrix} \circ \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
1 & 2 & 3 & 5 & 4
\end{pmatrix} = \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 5 & 4
\end{pmatrix} = \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
1 & 2 & 3 & 5 & 4
\end{pmatrix} \circ \begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 4 & 5
\end{pmatrix}</math>

* <math>(132)\circ(45)=
\begin{pmatrix}
1 & 2 & 3 & 4 & 5 \\
3 & 1 & 2 & 5 & 4
\end{pmatrix} =
(45) \circ(132)</math>

== Ordnung ==
Für jede Permutation <math>\sigma</math> gibt es eine kleinste natürliche Zahl <math>k</math> derart, dass die <math>k</math>-malige Hintereinanderausführung von <math>\sigma</math> die Identität ergibt: <math>\sigma^k = \mbox{id}</math>. Diese Zahl wird Ordnung von <math>\sigma</math> genannt. Sie ist die [[Elementordnung]] von <math>\sigma</math> als Gruppenelement der Symmetrischen Gruppe. Die Ordnung einer Permutation lässt sich leicht aus der Zykeldarstellung bestimmen: Sie ist das [[Kleinstes gemeinsames Vielfaches|kleinste gemeinsame Vielfache]] (kgV) der Längen der disjunkten Zykeln von <math>\sigma</math>. Beispielsweise ist die Ordnung der Permutation <math>(1 2 4)(3 5)</math> das kgV von 3 und 2, also 6.

Eine Permutation <math>\sigma</math> mit <math>\sigma^2 = \mbox{id}</math>, oder äquivalent <math>\sigma^{-1} = \sigma</math>, heißt Involution oder selbstinvers. Die Involutionen sind genau die Permutationen der Ordnung 2 sowie die Identität selbst (die einzige Permutation der Ordnung 1). Eine Permutation ist genau dann eine Involution, wenn ihre Zykeldarstellung maximal Zykel der Länge 2 (also Transpositionen) enthält.

== Einige Eigenschaften von endlichen Permutationen ==
Nur falls die Menge aus der die Elemente der Permutation stammen, mit einer Totalordnung versehen ist, machen folgende Begriffe einen Sinn:
* „left-to-right maximum“ (Links-Rechts-Maximum, kurz: ''LR-Maximum''). Bei einer Permutation in Wortschreibweise <math>a = a_1 \dotso a_i \dotso a_n</math> nennt man <math>a_i</math> genau dann ein ''LR-Maximum'', wenn <math>a_i > a_j</math> mit <math>1 \leq j \leq i-1</math>. Diese Eigenschaft ist von Nutzen, wenn man die normalisierte Zykeldarstellung ohne Klammern schreiben möchte. Man kann unter Ausnutzung der LR-Maxima zeigen, dass dann eine [[Bijektion]] zwischen der normalisierten Zykeldarstellung in eine Permutation existiert.<ref>Vorlesungsskript Prof. Welker: [http://www.mathematik.uni-marburg.de/~welker/vorlesung/dima07/kapitel1.pdf Kapitel 1] & [http://www.mathematik.uni-marburg.de/~welker/vorlesung/dima07/kapitel3.pdf Kapitel 3] ([[Portable Document Format|PDF]])</ref> Bemerkung: <math>a_1</math> ist immer ein LR-Maximum.
* ''alternierend'' nennt man eine Permutation, wenn beim durchlaufen dieser sich die Ordnungsrelation der vorgegebenen Totalordnung von nebeneinanderstehenden Elementen dauernd ändert. Formal, wenn für keinen Index i, mit <math>1 , weder <math>a_{i-1} < a_i < a_{i+1}</math> noch <math>a_{i-1} > a_i > a_{i+1}</math> ist, wobei <math>a_k</math> das k-te Element einer n-elementigen Permutation bezeichnet.
* Inversion/[[Fehlstand]]: Man nennt ein Paar <math> (i,j) </math> von Elementen Inversion bzgl. <math> \sigma </math>, falls gilt
*: <math> i < j </math> und <math> \sigma\left(i\right) > \sigma\left(j\right) </math>. Zwei Elemente bilden also genau dann eine Inversion, wenn nach Anwenden der Permutation das größere vor dem kleineren Element steht.

'''Beispiel:''' Gegeben sei die Permutation <math> \pi = \left(3\ 2\ 5\ 1\ 4\right) </math> (in Tupelschreibweise). <math> 1 < 2 </math>, aber 2 steht hier vor 1, also sind 1, 2 eine Inversion bezüglich <math> \pi </math>.

Ordnet man in einer Tabelle jedem Element die Anzahl derjenigen Elemente zu, die nach der Permutation links von ihm stehen, obwohl sie größer sind, so erhält man die sogenannte [[Inversionstafel]] der Permutation. Umgekehrt kann man aus jeder solchen Tafel die Permutation eindeutig bestimmen.

'''Beispiel:''' Gegeben sei die Permutation <math> \left(3\ 2\ 5\ 1\ 4\right) </math> (in Tupelschreibweise). Dann haben wir als Inversionstafel:

:<math>
\begin{pmatrix}1&2&3&4&5 \\ 3 & 1 & 0 & 1 & 0 \end{pmatrix}
</math>

* [[Signum (Mathematik)#Signum von Permutationen|Signum]]: Sei mit <math>i\left(\sigma\right)</math> die Anzahl der Inversionen von <math>\sigma</math> bezeichnet. Dann ist das [[Signum (Mathematik)|Signum]] von <math>\sigma</math> gegeben durch <math>\mathrm{sgn}\left(\sigma\right) = \left(-1\right)^{i\left(\sigma\right)}</math>.
Eine Permutation hat also Signum 1, falls die Anzahl ihrer Inversionen gerade ist, ansonsten Signum −1.

Das Signum lässt sich auch über folgende Formel bestimmen:
: <math>\mathrm{sgn}(\sigma) = (-1)^{m_1+m_2+\dotsb+m_r+r},</math>
wobei <math>r</math> die Anzahl der Zykel und <math>m_i</math> die Länge des <math>i</math>-ten Zykels sind <math>\left(i=1,\dotsc,r\right)</math>.

* Typ: Sei mit <math> b_i </math> die Anzahl der Zykel von <math> \pi </math> bezeichnet, welche die Länge <math> i </math> haben. Dann ist der Typ einer Permutation der formale Ausdruck
*: <math>1^{b_1} 2^{b_2} 3^{b_3} \dotsm n^{b_n}.</math>

Formal bedeutet hierbei, dass das Produkt und die Potenzen nicht tatsächlich ausgerechnet werden.

* Auf weitere Eigenschaften der Permutation und der Verkettung wird bei der [[Symmetrische Gruppe|Symmetrischen Gruppe]] eingegangen.

== Der Permutaeder ==

Der Permutaeder <math>P_n</math> ist ein konvexer [[Polyeder]], welcher wie folgt definiert ist: Jede Permutation
<math>\sigma \in S_n</math> wird in Tupelschreibweise geschrieben als Vektor im <math>\mathbb{R}^n</math> interpretiert.
Die [[Konvexe Hülle|konvexe Hülle]] dieser Vektoren ergibt dann <math>P_n</math> :

:<math>
P_n := \operatorname{conv} \{ \sigma = (\sigma(1), \sigma(2), \ldots, \sigma(n)) \: | \: \sigma \in S_n \}
</math>

Der Permutaeder lässt sich außerdem auch durch den Schnitt von [[Halbraum|Halbräumen]] beschreiben:

:<math>
P_n = \{ x \in \mathbb{R}^n \; |
\; \sum_{i=1}^n x_i = { n + 1 \choose 2 } , \;
\forall S \subset \{1,\ldots, n\} : \sum_{i \in S} x_i \geq { | S | + 1 \choose 2 } \}
</math>

Die Ecken des Permutaeders sind gerade die Permutationen in Tupelschreibweise, zwei Permutationen
sind genau dann durch eine Kante des Permutaeders verbunden, wenn sie sich durch eine Transposition
benachbarter Elemente ineinander überführen lassen.

== Siehe auch ==
* [[Permutiertes Register]]
* [[Fakultätsbasiertes Zahlensystem]]
* [[Kombinatorik]]

== Literatur ==
* [[Albrecht Beutelspacher]]: ''Lineare Algebra.'' 6. durchgesehene und ergänzte Auflage. Vieweg, Wiesbaden 2003, ISBN 3-528-56508-X, Kapitel 7.2 ''Permutationen''.
* [[Michael Artin]]: ''Algebra.'' Birkhäuser, Basel u. a. 1993, ISBN 3-7643-2927-0, Kapitel 1.4 ''Permutationsmatrizen''.

== Weblinks ==
{{Wiktionary|Permutation}}
* [http://www.reiter1.com/Glossar/Kombinatorik.htm Kombinatorik: Anwendung Permutation, Kombination und Variation]

== Einzelnachweise ==
<references />

[[Kategorie:Gruppentheorie]]
[[Kategorie:Kombinatorik]]
[[Kategorie:Lineare Algebra]]

[[am:ሰልፍ]]
[[ar:تبديل (رياضيات)]]
[[bg:Пермутация]]
[[bn:বিন্যাস]]
[[ca:Permutació]]
[[cs:Permutace]]
[[da:Permutation]]
[[el:Μετάθεση (μαθηματικά)]]
[[en:Permutation]]
[[eo:Permutaĵo]]
[[es:Permutación]]
[[et:Permutatsioon]]
[[eu:Permutazio]]
[[fa:جایگشت]]
[[fi:Permutaatio]]
[[fr:Permutation]]
[[gu:ક્રમચય]]
[[he:תמורה (מתמטיקה)]]
[[hi:क्रमचय]]
[[hr:Permutacija]]
[[hu:Permutáció]]
[[id:Permutasi]]
[[it:Permutazione]]
[[ja:置換 (数学)]]
[[kk:Алмастыру]]
[[kn:ಕ್ರಮಪಲ್ಲಟನೆ]]
[[ko:순열]]
[[lt:Kėliniai]]
[[mk:Пермутација]]
[[nl:Permutatie]]
[[nn:Permutasjon]]
[[no:Permutasjon]]
[[pl:Permutacja]]
[[pt:Permutação]]
[[ro:Permutare]]
[[ru:Перестановка]]
[[scn:Pirmutazzioni]]
[[simple:Permutation]]
[[sk:Permutácia (algebra)]]
[[sl:Permutacija]]
[[sq:Permutacioni]]
[[sr:Пермутација]]
[[sv:Permutation]]
[[ta:வரிசைமாற்றம்]]
[[te:ప్రస్తారణ]]
[[th:การเรียงสับเปลี่ยน]]
[[tr:Permütasyon]]
[[uk:Перестановка]]
[[ur:تبدل کامل]]
[[vi:Hoán vị]]
[[zh:置換]]

Fourier-Motzkin-Elimination

2012-10-25T06:42:54Z

Mathmon: Kategorien hinzugefügt

{{QS-Antrag|25. Oktober 2012| [[WP:Wikifizieren]]: [[Wikipedia:Kategorien|Kategorien]] fehlen, verwaist -- [[Benutzer:MerlBot/AutoQS|MerlBot]] 03:03, 25. Okt. 2012 (CEST)}}
Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>, geriet jedoch in Vergessenheit und wurde schließlich 1936 in der Doktorarbeit von [[Theodore Motzkin]]
erneut entdeckt <ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion
<ref group="A.">
Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.
</ref>.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige zu einer Variable <math>x_k</math> gehörige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen <math>x_k</math> in dem Polyeder <math>P(A,b)</math> gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Entscheidung der Zulässigkeit ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U^{(2)} U^{(1)} = (1, 1, 1)</math>.

=== Lösung von [[Lineare Optimierung|linearen Programmen]] ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Das resultierende Intervall <math>I</math> beschreibt die Menge der möglichen Werte
für die Variable <math>y</math>. Es treten folgende Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>\gamma</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^* := \gamma</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>
<ref group="A.">
Das hier vorgestellte Verfahren des ''Rückwärtseinsetzens'' lässt sich stets anwenden, um eine zulässige Lösung
des Polyeders zu erhalten.
</ref>.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{so dass } & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}{}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}{}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>. Diese hat natürlich auch den erwarteten
Zielfunktionswert von <math>y^*=4</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Anmerkungen ==

<references group="A." />

== Einzelnachweise ==

<references />

== Literatur ==

* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]

[[Kategorie:Optimierung]]
[[Kategorie:Polyeder]]
[[Kategorie:Geometrische Abbildung]]

Fourier-Motzkin-Elimination

2012-10-24T21:10:00Z

Mathmon: Mathmon verschob Seite Benutzer:Mathmon/Fourier-Motzkin-Elimination nach Fourier-Motzkin-Elimination: Fertig geschrieben, sollte den Qualitätsansprüchen genügen

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>, geriet jedoch in Vergessenheit und wurde schließlich 1936 in der Doktorarbeit von [[Theodore Motzkin]]
erneut entdeckt <ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion
<ref group="A.">
Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.
</ref>.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige zu einer Variable <math>x_k</math> gehörige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen <math>x_k</math> in dem Polyeder <math>P(A,b)</math> gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Entscheidung der Zulässigkeit ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U^{(2)} U^{(1)} = (1, 1, 1)</math>.

=== Lösung von [[Lineare Optimierung|linearen Programmen]] ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Das resultierende Intervall <math>I</math> beschreibt die Menge der möglichen Werte
für die Variable <math>y</math>. Es treten folgende Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>\gamma</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^* := \gamma</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>
<ref group="A.">
Das hier vorgestellte Verfahren des ''Rückwärtseinsetzens'' lässt sich stets anwenden, um eine zulässige Lösung
des Polyeders zu erhalten.
</ref>.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{so dass } & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}{}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}{}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>. Diese hat natürlich auch den erwarteten
Zielfunktionswert von <math>y^*=4</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Anmerkungen ==

<references group="A." />

== Einzelnachweise ==

<references />

== Literatur ==

* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]

Fourier-Motzkin-Elimination

2012-10-24T21:08:08Z

Mathmon: /* Beispiel zur Lösung eines linearen Programms */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>, geriet jedoch in Vergessenheit und wurde schließlich 1936 in der Doktorarbeit von [[Theodore Motzkin]]
erneut entdeckt <ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion
<ref group="A.">
Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.
</ref>.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige zu einer Variable <math>x_k</math> gehörige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen <math>x_k</math> in dem Polyeder <math>P(A,b)</math> gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Entscheidung der Zulässigkeit ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U^{(2)} U^{(1)} = (1, 1, 1)</math>.

=== Lösung von [[Lineare Optimierung|linearen Programmen]] ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Das resultierende Intervall <math>I</math> beschreibt die Menge der möglichen Werte
für die Variable <math>y</math>. Es treten folgende Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>\gamma</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^* := \gamma</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>
<ref group="A.">
Das hier vorgestellte Verfahren des ''Rückwärtseinsetzens'' lässt sich stets anwenden, um eine zulässige Lösung
des Polyeders zu erhalten.
</ref>.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{so dass } & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}{}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}{}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>. Diese hat natürlich auch den erwarteten
Zielfunktionswert von <math>y^*=4</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Anmerkungen ==

<references group="A." />

== Einzelnachweise ==

<references />

== Literatur ==

* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]

Fourier-Motzkin-Elimination

2012-10-24T21:06:47Z

Mathmon:

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>, geriet jedoch in Vergessenheit und wurde schließlich 1936 in der Doktorarbeit von [[Theodore Motzkin]]
erneut entdeckt <ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion
<ref group="A.">
Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.
</ref>.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige zu einer Variable <math>x_k</math> gehörige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen <math>x_k</math> in dem Polyeder <math>P(A,b)</math> gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Entscheidung der Zulässigkeit ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U^{(2)} U^{(1)} = (1, 1, 1)</math>.

=== Lösung von [[Lineare Optimierung|linearen Programmen]] ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Das resultierende Intervall <math>I</math> beschreibt die Menge der möglichen Werte
für die Variable <math>y</math>. Es treten folgende Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>\gamma</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^* := \gamma</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>
<ref group="A.">
Das hier vorgestellte Verfahren des ''Rückwärtseinsetzens'' lässt sich stets anwenden, um eine zulässige Lösung
des Polyeders zu erhalten.
</ref>.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{so dass } & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}{}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}{}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Anmerkungen ==

<references group="A." />

== Einzelnachweise ==

<references />

== Literatur ==

* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]

Fourier-Motzkin-Elimination

2012-10-24T21:00:48Z

Mathmon: /* Lösung von linearen Programmen */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion
<ref group="A.">
Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.
</ref>.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Entscheidung der Zulässigkeit ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U^{(2)} U^{(1)} = (1, 1, 1)</math>.

=== Lösung von [[Lineare Optimierung|linearen Programmen]] ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Das resultierende Intervall <math>I</math> beschreibt die Menge der möglichen Werte
für die Variable <math>y</math>. Es treten folgende Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>\gamma</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^* := \gamma</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>
<ref group="A.">
Das hier vorgestellte Verfahren des ''Rückwärtseinsetzens'' lässt sich stets anwenden, um eine zulässige Lösung
des Polyeders zu erhalten.
</ref>.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{so dass } & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}{}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}{}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Anmerkungen ==

<references group="A." />

== Einzelnachweise ==

<references />

== Literatur ==

* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]

Fourier-Motzkin-Elimination

2012-10-24T20:59:48Z

Mathmon:

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion
<ref group="A.">
Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.
</ref>.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Entscheidung der Zulässigkeit ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U^{(2)} U^{(1)} = (1, 1, 1)</math>.

=== Lösung von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Das resultierende Intervall <math>I</math> beschreibt die Menge der möglichen Werte
für die Variable <math>y</math>. Es treten folgende Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>\gamma</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^* := \gamma</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>
<ref group="A.">
Das hier vorgestellte Verfahren des ''Rückwärtseinsetzens'' lässt sich stets anwenden, um eine zulässige Lösung
des Polyeders zu erhalten.
</ref>.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{so dass } & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}{}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}{}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Anmerkungen ==

<references group="A." />

== Einzelnachweise ==

<references />

== Literatur ==

* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]

Fourier-Motzkin-Elimination

2012-10-24T20:56:50Z

Mathmon: /* Beispiel zur Lösung eines Zulässigkeitsproblems */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion
<ref group="A.">
Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.
</ref>.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Entscheidung der Zulässigkeit ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U^{(2)} U^{(1)} = (1, 1, 1)</math>.

=== Lösung von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Das resultierende Intervall <math>I</math> beschreibt die Menge der möglichen Werte
für die Variable <math>y</math>. Es treten folgende Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>\gamma</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^* := \gamma</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>
<ref group="A.">
Das hier vorgestellte Verfahren des ''Rückwärtseinsetzens'' lässt sich stets anwenden, um eine zulässige Lösung
des Polyeders zu erhalten.
</ref>.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Anmerkungen ==

<references group="A." />

== Einzelnachweise ==

<references />

== Literatur ==

* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]

Fourier-Motzkin-Elimination

2012-10-24T20:56:14Z

Mathmon:

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion
<ref group="A.">
Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.
</ref>.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Lösung eines Zulässigkeitsproblems ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U^{(2)} U^{(1)} = (1, 1, 1)</math>.

=== Lösung von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Das resultierende Intervall <math>I</math> beschreibt die Menge der möglichen Werte
für die Variable <math>y</math>. Es treten folgende Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>\gamma</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^* := \gamma</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>
<ref group="A.">
Das hier vorgestellte Verfahren des ''Rückwärtseinsetzens'' lässt sich stets anwenden, um eine zulässige Lösung
des Polyeders zu erhalten.
</ref>.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Anmerkungen ==

<references group="A." />

== Einzelnachweise ==

<references />

== Literatur ==

* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]

Fourier-Motzkin-Elimination

2012-10-24T20:51:44Z

Mathmon:

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion
<ref group="A.">
Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.
</ref>.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Lösung eines Zulässigkeitsproblems ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U^{(2)} U^{(1)} = (1, 1, 1)</math>.

=== Lösung von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Das resultierende Intervall <math>I</math> beschreibt die Menge der möglichen Werte
für die Variable <math>y</math>. Es treten folgende Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>\gamma</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^* := \gamma</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>
<ref group="A.">
Das hier vorgestellte Verfahren des ''Rückwärtseinsetzens'' lässt sich stets anwenden, um eine zulässige Lösung
des Polyeders zu erhalten.
</ref>.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Anmerkungen ==

<references group="A." />

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-24T20:44:03Z

Mathmon: /* Lösung von linearen Programmen */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Lösung eines Zulässigkeitsproblems ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U^{(2)} U^{(1)} = (1, 1, 1)</math>.

=== Lösung von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Das resultierende Intervall <math>I</math> beschreibt die Menge der möglichen Werte
für die Variable <math>y</math>. Es treten folgende Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>\gamma</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^* := \gamma</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-24T20:40:46Z

Mathmon: /* Beispiel zur Lösung eines Zulässigkeitsproblems */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Lösung eines Zulässigkeitsproblems ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U^{(2)} U^{(1)} = (1, 1, 1)</math>.

=== Lösung von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-24T20:40:00Z

Mathmon:

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
Im obigen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^{(1)},d^{(1)}) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^{(2)},d^{(2)}) \ \cdots \ P(D^{(n)},d^{(n)})
</math>

Die resultierende Matrix <math>D^{(n)}</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^{(j)}</math> ausführen lässt, gilt außerdem:

<math>
D^{(n)} = U \cdot A,\ d^{(n)} = U \cdot b, \; \text{wobei} \; U := U^{(n)} \cdot U^{(n-1)} \ldots U^{(1)}
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^{(n)}</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^{(j)}</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Lösung eines Zulässigkeitsproblems ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^{(1)} = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^{(2)} = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U_2 U_1 = (1, 1, 1)</math>.

=== Lösung von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^{(n)}_{1,n+1} y &\leq d^{(n)}_1 \\
\vdots & \\
D^{(n)}_{l,n+1} y &\leq d^{(n)}_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^{(j)}</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^{(j)},d^{(j)})</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-24T20:33:48Z

Mathmon: /* Beispiel zur Lösung eines Zulässigkeitsproblems */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
In dem angegebenen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^1,d^1) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^2,d^2) \ \cdots \ P(D^n,d^n)
</math>

Die resultierende Matrix <math>D^n</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^j</math> ausführen lässt, gilt außerdem:

<math>
D^n = U \cdot A,\ d^n = U \cdot b, \; \text{wobei} \; U := U^n \cdot U^{n-1} \ldots U^1
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^n</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^j</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Lösung eines Zulässigkeitsproblems ===

Wir wollen entscheiden, ob der folgende konvexe Polyeder eine zulässige Lösung hat:

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^1 = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^2 = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U_2 U_1 = (1, 1, 1)</math>.

=== Lösung von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^n_{1,n+1} y &\leq d^n_1 \\
\vdots & \\
D^n_{l,n+1} y &\leq d^n_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^j</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^j,d^j)</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-24T20:32:56Z

Mathmon: /* Beispiel zur Lösung eines Zulässigkeitsproblems */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
In dem angegebenen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^1,d^1) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^2,d^2) \ \cdots \ P(D^n,d^n)
</math>

Die resultierende Matrix <math>D^n</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^j</math> ausführen lässt, gilt außerdem:

<math>
D^n = U \cdot A,\ d^n = U \cdot b, \; \text{wobei} \; U := U^n \cdot U^{n-1} \ldots U^1
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^n</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^j</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Lösung eines Zulässigkeitsproblems ===

Zur Verdeutlichung des Verfahrens betrachten wir den Polyeder

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}{}
- x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}{}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^1 = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) , \;\;
U^2 = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U_2 U_1 = (1, 1, 1)</math>.

=== Lösung von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^n_{1,n+1} y &\leq d^n_1 \\
\vdots & \\
D^n_{l,n+1} y &\leq d^n_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^j</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^j,d^j)</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-24T20:28:37Z

Mathmon: /* Beispiel zur Lösung eines Zulässigkeitsproblems */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
In dem angegebenen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^1,d^1) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^2,d^2) \ \cdots \ P(D^n,d^n)
</math>

Die resultierende Matrix <math>D^n</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^j</math> ausführen lässt, gilt außerdem:

<math>
D^n = U \cdot A,\ d^n = U \cdot b, \; \text{wobei} \; U := U^n \cdot U^{n-1} \ldots U^1
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^n</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^j</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Lösung eines Zulässigkeitsproblems ===

Zur Verdeutlichung des Verfahrens betrachten wir den Polyeder

<math>
P(A,b) = \{ x \in \mathbb{R}^2 \ |\ x_1 + x_2 \geq 4,\ x_1 \leq 1,\ x_2 \leq 1 \}
</math>

Dies entspricht in der Form <math>Ax \leq b</math> dem System

:<math>
\left[
\begin{array}
-x_1 - x_2 & \leq -4 \\
x_1 & \leq 1 \\
1x_2 & \leq 1 \\
\end{array}
\right]
\;\;

</math>

Nach den einzelnen Projektionsschritten ergeben sich folgenden Systeme:

:<math>

\left[
\begin{array}
-x_2 & \leq -3 \\
x_2 & \leq 1 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq -2 \\
\end{align}
\right]
</math>

Es offenbart sich also ein Widerspruch, der Polyeder <math>P(A,b)</math> entspricht der leeren Menge.
Die resultierenden Matrizen sind gegeben durch

:<math>
U^1 = \left(
\begin{array}{rrr}
1 & 1 & 0 \\
0 & 0 & 1 \\
\end{array}
\right) \;\;
U^2 = \left(
\begin{array}{rr}
1 & 1 \\
\end{array}
\right)</math>

Ein Zertifikat für die Nichtzulässigkeit ist also der Vektor <math>e_1 U_2 U_1 = (1, 1, 1)</math>.

=== Lösung von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^n_{1,n+1} y &\leq d^n_1 \\
\vdots & \\
D^n_{l,n+1} y &\leq d^n_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^j</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^j,d^j)</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-24T20:17:13Z

Mathmon: /* Anwendungen */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
In dem angegebenen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^1,d^1) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^2,d^2) \ \cdots \ P(D^n,d^n)
</math>

Die resultierende Matrix <math>D^n</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^j</math> ausführen lässt, gilt außerdem:

<math>
D^n = U \cdot A,\ d^n = U \cdot b, \; \text{wobei} \; U := U^n \cdot U^{n-1} \ldots U^1
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^n</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^j</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Beispiel zur Lösung eines Zulässigkeitsproblems ===

Zur Demonstration des Verfahrens betrachten wir den Polyeder

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x + y \geq 4,\ x \leq 1,\ y \leq 1 \}
</math>

=== Lösung von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^n_{1,n+1} y &\leq d^n_1 \\
\vdots & \\
D^n_{l,n+1} y &\leq d^n_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^j</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^j,d^j)</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-24T20:13:12Z

Mathmon: /* Zulässigkeitsprobleme */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
In dem angegebenen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem [[Intervall (Mathematik)|Intervall]] <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^1,d^1) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^2,d^2) \ \cdots \ P(D^n,d^n)
</math>

Die resultierende Matrix <math>D^n</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^j</math> ausführen lässt, gilt außerdem:

<math>
D^n = U \cdot A,\ d^n = U \cdot b, \; \text{wobei} \; U := U^n \cdot U^{n-1} \ldots U^1
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^n</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^j</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Lösen von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^n_{1,n+1} y &\leq d^n_1 \\
\vdots & \\
D^n_{l,n+1} y &\leq d^n_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^j</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^j,d^j)</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-24T20:11:40Z

Mathmon: /* Zulässigkeitsprobleme */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
In dem angegebenen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math> die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math> nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so entspricht Entspricht die Projektion einem Intervall <math>I</math>. Ist dieses nicht leer, so ist auch das System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math> gegeben

Diese Erkenntnis lässt sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^1,d^1) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^2,d^2) \ \cdots \ P(D^n,d^n)
</math>

Die resultierende Matrix <math>D^n</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^j</math> ausführen lässt, gilt außerdem:

<math>
D^n = U \cdot A,\ d^n = U \cdot b, \; \text{wobei} \; U := U^n \cdot U^{n-1} \ldots U^1
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^n</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^j</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Lösen von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^n_{1,n+1} y &\leq d^n_1 \\
\vdots & \\
D^n_{l,n+1} y &\leq d^n_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^j</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^j,d^j)</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-24T20:10:16Z

Mathmon:

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierenden neuen Ungleichungen die Variable <math>x_j</math> nicht länger beinhalten.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ==

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
In dem angegebenen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass das
System <math>Ax \leq b</math> eine Lösung besitzt genau dann wenn dies auch auf das
System <math>D x \leq d</math> zutrifft.

Während es im allgemeinen schwierig ist, zu entscheiden, ob ein konvexer Polyeder eine zulässige
Lösung besitzt, lässt sich dies in einigen Spezialfällen recht leicht bewerkstelligen:

* Verbleibt keine Variable in dem resultierenden System <math>Dx \leq d</math>, ist also <math>D</math>
die [[Nullmatrix]], so ist das System dann und nur dann lösbar, wenn die rechte Seite <math>d</math>
nicht negativ ist
* Enthält nur eine einzige Spalte der Matrix <math>D</math> von Null verschiedene Einträge, so
entspricht Entspricht die Projektion einem Intervall <math>I</math>. Ist dieses nicht leer, so ist auch das
System <math>A x \leq b</math> lösbar. Weiterhin sind die möglichen Werte der Variablen, welche zu der
nicht verschwindenden Spalte von <math>D</math> gehört, gerade durch das Intervall <math>I</math>
gegeben

Diese Tatsachen lassen sich nutzen, um zu überprüfen, ob ein beliebiges Polyeder <math>P(A,b)</math>
eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^1,d^1) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^2,d^2) \ \cdots \ P(D^n,d^n)
</math>

Die resultierende Matrix <math>D^n</math> ist dann die [[Nullmatrix]] und man kann entscheiden, ob
<math>P(A,b) = \emptyset </math>

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^j</math> ausführen lässt, gilt außerdem:

<math>
D^n = U \cdot A,\ d^n = U \cdot b, \; \text{wobei} \; U := U^n \cdot U^{n-1} \ldots U^1
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^n</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^j</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Lösen von linearen Programmen ===

Durch Ausnutzen der [[Lineare Optimierung#Dualität|Dualität der linearen Optimierung]] lässt sich
jedes lineare Programm auf ein Zulässigkeitsproblem reduzieren, welches sich dann durch die Anwendung
der Fourier-Motzkin-Elimination lösen lässt. In diesem Fall benötigt man jedoch recht viele neue
Variablen und Ungleichungen, was die Anwendung des Verfahrens verlangsamt.
Alternativ kann man den folgende Ansatz wählen: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^n_{1,n+1} y &\leq d^n_1 \\
\vdots & \\
D^n_{l,n+1} y &\leq d^n_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^j</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^j,d^j)</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-24T19:48:37Z

Mathmon:

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierende neue Ungleichung einen Eintrag von <math>0</math> an der Stelle von <math> x_j </math> hat.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

=== Die Fourier-Motzkin-Elimination aus Sicht der linearen Algebra ===

Die im Algorithmus angewandten Zeilenoperationen lassen sich durch die Multiplikation der Matrix <math>A</math> bzw der
rechten Seite <math>b</math> mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math>
darstellen, deren <math>i</math>-te Zeile gegeben ist durch

:<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

Da die Matrix <math>U</math> eine konische Kombination der Zeilen von <math>A</math> beschreibt, sind alle Einträge
von <math>U</math> nicht negativ.
In dem angegebenen Beispiel ist

:<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat als Projektionsverfahren die Eigenschaft, dass
<math>P(A,b) \neq \emptyset \ \Leftrightarrow P(D,d) \neq \emptyset \</math>, die Zulässigkeit bleibt also erhalten.
Diese Tatsachen lassen sich nutzen, um zu überprüfen, ob ein Polyeder <math>P(A,b)</math> eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

:<math>
P(A,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^1,d^1) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^2,d^2) \ \cdots \ P(D^n,d^n)
</math>

Die resultierende Matrix <math>D^n</math> ist allerdings die [[Nullmatrix]]. Damit ist <math>P(D^n,d^n) = \emptyset </math> genau dann, wenn der Vektor <math>d^n</math> einen negativen Eintrag <math>d^n_k < 0</math> hat.

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^j</math> ausführen lässt, gilt außerdem:

<math>
D^n = U \cdot A,\ d^n = U \cdot b, \; \text{wobei} \; U := U^n \cdot U^{n-1} \ldots U^1
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^n</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^j</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Lösen von linearen Programmen ===

Da lineare Optimierungsprobleme und Zulässigkeitsprobleme über die [[Lineare_Optimierung#Dualität|Dualität]]
der linearen Optimierung aufeinander reduzierbar sind, kann man mit der Fourier-Motzkin-Elimination auch
beliebige lineare Programme lösen. Um eine Optimallösung von <math>\max \{ c^T x \; | \; A x \leq b \}</math>
zu bestimmen, finden man ein Paar <math>x,y</math> von zulässigen Lösungen von

:<math>
\begin{align}
A x & \leq b \\
y^T A & = c^T \\
y & \geq 0 \\
y^Tb & \leq c^Tx \\
\end{align}
</math>

Die zulässigen Lösungspaare sind genau solche <math>x, y</math>, die in <math>P(\tilde{A}, \tilde{b})</math>
enthalten sind, wobei

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & \\
& A^T \\
& -A^T \\
& -I \\
b^T & -c^T \\
\end{array}
\right) \in \mathbb{R}^{n + 3m \times m + n} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
c \\
-c \\
0 \\
0 \\
\end{array}
\right) \in \mathbb{R}^{n + 3m}
</math>

Dieses Verfahren hat allerdings den Nachteil, dass die Anzahl der Variablen und Ungleichungen stark anwächst,
was die Berechnung erheblich verlangsamt.

==== Ein beschleunigtes Verfahren ====

Eine Alternative zum obigen Verfahren ist der folgende Ansatz: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

:<math>
\begin{align}
D^n_{1,n+1} y &\leq d^n_1 \\
\vdots & \\
D^n_{l,n+1} y &\leq d^n_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

:<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

:<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

:<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

:<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

:<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^j</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^j,d^j)</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Datei:Projection polytop.svg

2012-10-17T05:55:02Z

Mathmon:

== Beschreibung, Quelle ==
{{Information
|Beschreibung = Projektion eines Polytops auf Hyperebenen
|Quelle = selbst erstellt
|Urheber = [[user:Mathmon]]
|Datum =
|Genehmigung =
|Andere Versionen =
|Anmerkungen =
}}
== Lizenz ==
{{Bild-CC-by-sa/3.0/de}}
{{Bild-CC-by-sa/3.0}}
{{Bild-GFDL-Neu}}

Fourier-Motzkin-Elimination

2012-10-10T18:58:51Z

Mathmon: /* Beispiel zur Lösung eines linearen Programms */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierende neue Ungleichung einen Eintrag von <math>0</math> an der Stelle von <math> x_j </math> hat.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat die folgende Eigenschaft: Die resultierende Matrix <math>D</math> und die rechte Seite
<math>d</math> lassen sich aus <math>A</math> und <math>b</math> durch Multiplikation von links mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math> gewinnen. Die <math>i</math>-te Zeile von <math>U</math> ist gegeben durch

<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

In dem angegebenen Beispiel ist damit

<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

Zusätzlich hat die Fourier-Motzkin-Elimination als Projektionsverfahren natürlich die Eigenschaft, dass
<math>P(A,b) \neq \emptyset \ \Leftrightarrow P(D,d) \neq \emptyset \</math>, die Zulässigkeit bleibt also erhalten.
Diese Tatsachen lassen sich nutzen, um zu überprüfen, ob ein Polyeder <math>P(A,b)</math> eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

<math>
P(a,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^1,d^1) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^2,d^2) \ \cdots \ P(D^n,d^n)
</math>

Die resultierende Matrix <math>D^n</math> ist allerdings die [[Nullmatrix]]. Damit ist <math>P(D^n,d^n) = \emptyset </math> genau dann, wenn der Vektor <math>d^n</math> einen negativen Eintrag <math>d^n_k < 0</math> hat.

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^j</math> ausführen lässt, gilt außerdem:

<math>
D^n = U \cdot A,\ d^n = U \cdot b, \; \text{wobei} \; U := U^n \cdot U^{n-1} \ldots U^1
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^n</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^j</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Lösen von linearen Programmen ===

Da lineare Optimierungsprobleme und Zulässigkeitsprobleme über die [[Lineare_Optimierung#Dualität|Dualität]]
der linearen Optimierung aufeinander reduzierbar sind, kann man mit der Fourier-Motzkin-Elimination auch
beliebige lineare Programme lösen. Um eine Optimallösung von <math>\max \{ c^T x \; | \; A x \leq b \}</math>
zu bestimmen, finden man ein Paar <math>x,y</math> von zulässigen Lösungen von

:<math>
\begin{align}
A x & \leq b \\
y^T A & = c^T \\
y & \geq 0 \\
y^Tb & \leq c^Tx \\
\end{align}
</math>

Die zulässigen Lösungspaare sind genau solche <math>x, y</math>, die in <math>P(\tilde{A}, \tilde{b})</math>
enthalten sind, wobei

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & \\
& A^T \\
& -A^T \\
& -I \\
b^T & -c^T \\
\end{array}
\right) \in \mathbb{R}^{n + 3m \times m + n} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
c \\
-c \\
0 \\
0 \\
\end{array}
\right) \in \mathbb{R}^{n + 3m}
</math>

Dieses Verfahren hat allerdings den Nachteil, dass die Anzahl der Variablen und Ungleichungen stark anwächst,
was die Berechnung erheblich verlangsamt.

==== Ein beschleunigtes Verfahren ====

Eine Alternative zum obigen Verfahren ist der folgende Ansatz: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

<math>
\begin{align}
D^n_{1,n+1} y &\leq d^n_1 \\
\vdots & \\
D^n_{l,n+1} y &\leq d^n_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^j</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^j,d^j)</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-10T09:50:48Z

Mathmon:

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut entdeckt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierende neue Ungleichung einen Eintrag von <math>0</math> an der Stelle von <math> x_j </math> hat.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Anwendungen ==
=== Zulässigkeitsprobleme ===

Die Fourier-Motzkin-Elimination hat die folgende Eigenschaft: Die resultierende Matrix <math>D</math> und die rechte Seite
<math>d</math> lassen sich aus <math>A</math> und <math>b</math> durch Multiplikation von links mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math> gewinnen. Die <math>i</math>-te Zeile von <math>U</math> ist gegeben durch

<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

In dem angegebenen Beispiel ist damit

<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

Zusätzlich hat die Fourier-Motzkin-Elimination als Projektionsverfahren natürlich die Eigenschaft, dass
<math>P(A,b) \neq \emptyset \ \Leftrightarrow P(D,d) \neq \emptyset \</math>, die Zulässigkeit bleibt also erhalten.
Diese Tatsachen lassen sich nutzen, um zu überprüfen, ob ein Polyeder <math>P(A,b)</math> eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

<math>
P(a,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^1,d^1) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^2,d^2) \ \cdots \ P(D^n,d^n)
</math>

Die resultierende Matrix <math>D^n</math> ist allerdings die [[Nullmatrix]]. Damit ist <math>P(D^n,d^n) = \emptyset </math> genau dann, wenn der Vektor <math>d^n</math> einen negativen Eintrag <math>d^n_k < 0</math> hat.

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^j</math> ausführen lässt, gilt außerdem:

<math>
D^n = U \cdot A,\ d^n = U \cdot b, \; \text{wobei} \; U := U^n \cdot U^{n-1} \ldots U^1
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^n</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^j</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

=== Lösen von linearen Programmen ===

Da lineare Optimierungsprobleme und Zulässigkeitsprobleme über die [[Lineare_Optimierung#Dualität|Dualität]]
der linearen Optimierung aufeinander reduzierbar sind, kann man mit der Fourier-Motzkin-Elimination auch
beliebige lineare Programme lösen. Um eine Optimallösung von <math>\max \{ c^T x \; | \; A x \leq b \}</math>
zu bestimmen, finden man ein Paar <math>x,y</math> von zulässigen Lösungen von

:<math>
\begin{align}
A x & \leq b \\
y^T A & = c^T \\
y & \geq 0 \\
y^Tb & \leq c^Tx \\
\end{align}
</math>

Die zulässigen Lösungspaare sind genau solche <math>x, y</math>, die in <math>P(\tilde{A}, \tilde{b})</math>
enthalten sind, wobei

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & \\
& A^T \\
& -A^T \\
& -I \\
b^T & -c^T \\
\end{array}
\right) \in \mathbb{R}^{n + 3m \times m + n} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
c \\
-c \\
0 \\
0 \\
\end{array}
\right) \in \mathbb{R}^{n + 3m}
</math>

Dieses Verfahren hat allerdings den Nachteil, dass die Anzahl der Variablen und Ungleichungen stark anwächst,
was die Berechnung erheblich verlangsamt.

==== Ein beschleunigtes Verfahren ====

Eine Alternative zum obigen Verfahren ist der folgende Ansatz: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

:<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

<math>
\begin{align}
D^n_{1,n+1} y &\leq d^n_1 \\
\vdots & \\
D^n_{l,n+1} y &\leq d^n_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt uns also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^j</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies in der Regel allerdings nicht effizient erkannt werden kann,
wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^j,d^j)</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Fourier-Motzkin-Elimination

2012-10-10T09:24:44Z

Mathmon: /* Beispiel für die Fourier-Motzkin-Elimination */

Die '''Fourier-Motzkin-Elimination''' ist ein Verfahren, um einen durch ein lineares Ungleichungssystem gegebenen [[Polyeder|konvexen Polyeder]]
<math>P(A,b) := \{x \;|\; A x \le b \}</math> auf eine [[Hyperebene]] der Form
<math> H := \{x \;|\; x_j = 0 \}</math> zu [[Projektion_(Mathematik)|projizieren]]. Dabei ist <math>A \in \mathbb{R}^{m \times n}</math> eine [[Matrix (Mathematik)|Matrix]] und <math>b \in \mathbb{R}^{n}</math> eine passende rechte Seite.

Das Verfahren wurde von [[Joseph Fourier]] im Jahr 1827 erstmals beschrieben
<ref>J.B.J. Fourier aus dem Journal: ''Analyse des travaux de l'Académie Royale des Sciences pendant l'année 1824, Partie mathématique, 1827''
</ref>
und 1936 in der Doktorarbeit von [[Theodore Motzkin]] erneut erwähnt
<ref>T.S. Motzkin: ''Beiträge zur Theorie der Linearen Ungleichungen'',</ref>.

== Beschreibung des Verfahrens ==

Der Algorithmus kombiniert die Zeilen <math>A_{i \cdot} \ i \in M := \{1 \ldots m\}</math> der Matrix <math>A</math> und die Einträge der rechten Seite <math>b</math> [[Linearkombination#Positive Koeffizienten|konisch]] zu neuen Ungleichungen. Dies geschieht in einer Weise, die
sicherstellt, dass die resultierende neue Ungleichung einen Eintrag von <math>0</math> an der Stelle von <math> x_j </math> hat.

Der Algorithmus wird durch folgenden [[Pseudocode]] beschrieben:

'''function''' FourierMotzkin(A, b, j) '''is'''
''' input:''' a matrix <math>A</math> of dimension <math>(m,n)</math>, a vector <math>b</math> of dimension <math>m</math> and an index ''j'' <math>\in \{1, \ldots, n\}</math>
'''output:''' a matrix <math>D</math> of dimension <math>(r,n)</math> such that <math>D_{ij}= 0</math> for all <math>i=1,\ldots,r</math> and a vector <math>d</math> with <math>r</math> entries

<math>Z \leftarrow \{i \in M \;|\; a_{ij} = 0 \}</math>
<math>N \leftarrow \{i \in M \;|\; a_{ij} < 0 \}</math>
<math>P \leftarrow \{i \in M \;|\; a_{ij} > 0 \}</math>
<math>R \leftarrow Z \cup (N \times P) </math>
<math>r \leftarrow | R | </math>
<math>p \leftarrow</math> an indexing of the elements in <math>R</math>, i.e. a function <math> p : R \rightarrow Z \cup (N \times P) </math>

'''for''' <math>i=1</math> '''to''' <math>r</math> '''do'''
'''if''' <math> p(i) \in Z </math> '''then'''
<math>D_{i \cdot} \leftarrow A_{p(i) \cdot}</math>
<math>d_{i}\ \leftarrow b_{p(i)}</math>
'''else if''' <math> p(i) = (s,t) \in N \times P </math> '''then'''
<math>D_{i \cdot} \leftarrow a_{tj} A_{s \cdot} - a_{sj} A_{t \cdot}</math>
<math>d_{i}\ \leftarrow a_{tj} b_{s} - a_{sj} b_{t}</math>
'''endif'''
'''endfor'''
'''return''' <math>(D,d)</math>

Der resultierende Polyeder <math>P(D,d)</math> beschreibt anschließend die gewünschte Projektion.

Da die Menge <math>R</math> im allgemeinen sehr groß werden kann, ist es ratsam, die Ungleichungen zunächst so zu skalieren, dass <math>a_{ij} \in \{ \pm 1, 0\}</math> für alle <math>i \in \{1, \ldots m\}</math>. Zur Bestimmung
von <math>D</math> und <math>d</math> müssen die Spalten dann nur noch voneinander subtrahiert werden.

== Beispiel für die Fourier-Motzkin-Elimination ==

[[Datei:Projection_polytop.svg|miniatur|Die Projektion eines Polyeders auf verschiedene (lineare) [[Hyperebene|Hyperebenen]]]]

Als Beispiel wählen wir den Polyeder <math>P(A,b)</math>, der durch das folgende Ungleichungssystem gegeben ist:

<math>
P(A,b) = \{ (x,y) \in \mathbb{R}^2 \ |\ x \geq 1,\ 2x + 4y \leq 14,\ x - 2y \leq -1 \}
</math>

Die entsprechende Matrix und rechte Seite sind folglich

<math>
A = \left(
\begin{array}{rr}
-1 & 0 \\
2 & 4 \\
1 & -2 \\
\end{array}
\right),\

b = \left(
\begin{array}{r}
-1 \\
14 \\
-1 \\
\end{array}
\right)
</math>

Für die Projektion auf die Hyperebene <math>x=0</math>, also für <math>j=1</math>, erhalten wir die folgenden Mengen:

<math>Z= \emptyset</math>, <math>N=\{1\}</math> und <math>P=\{2,3\}</math>.

Damit ist <math>r=2</math> und <math>R=\{(1,2),\ (1,3)\}</math>. Wir setzen <math>p(1) = (1,2),\ p(2) = (1,3)</math>.

Für <math>i = 1</math> kombinieren wir die erste und zweite Ungleichung:

<math>
2 \cdot (-x) - (-1) \cdot (2x+4y) \leq 2 \cdot (-1) - (-1) \cdot (14) \; \Longrightarrow \; 4y \leq 12
</math>

Für <math>i = 2</math> erhalten wir durch die Kombination der ersten und dritten Ungleichung die folgende neue Ungleichung:

<math>
1 \cdot (-x) - (-1) \cdot (x -2y) \leq 1 \cdot (-1) - (-1) \cdot (-1) \; \Longrightarrow \; -2y \leq -2
</math>

Das Bild der Projektion ist also gegeben durch <math>\{ (0,y) \in \mathbb{R}^2 \ | \ 1 \leq y \leq 3 \}</math>,
während die resultierende Matrix <math>D</math> bzw.
die rechte Seite <math>d</math> die folgende Gestalt haben:

<math>
D = \left(
\begin{array}{rr}
0 & 4 \\
0 & -2 \\
\end{array}
\right),\

d = \left(
\begin{array}{r}
12 \\
-2 \\
\end{array}
\right)
</math>

== Theoretische Resultate ==

Die Fourier-Motzkin-Elimination hat die folgende Eigenschaft: Die resultierende Matrix <math>D</math> und die rechte Seite
<math>d</math> lassen sich aus <math>A</math> und <math>b</math> durch Multiplikation von links mit einer Matrix <math>U \in \mathbb{R}_+^{d \times m}</math> gewinnen. Die <math>i</math>-te Zeile von <math>U</math> ist gegeben durch

<math>
U_{i \cdot} =
\begin{cases}
e_k & \text{falls } p(i) = k \in Z \\
a_{tj} e_s - a_{sj} e_t & \text{falls } p(i) = (s,t) \in N \times P \\
\end{cases}
</math>

In dem angegebenen Beispiel ist damit

<math>
U = \left(
\begin{array}{rrr}
2 & 1 & 0 \\
1 & 0 & 1 \\
\end{array}
\right)</math>

Zusätzlich hat die Fourier-Motzkin-Elimination als Projektionsverfahren natürlich die Eigenschaft, dass
<math>P(A,b) \neq \emptyset \ \Leftrightarrow P(D,d) \neq \emptyset \</math>, die Zulässigkeit bleibt also erhalten.
Diese Tatsachen lassen sich nutzen, um zu überprüfen, ob ein Polyeder <math>P(A,b)</math> eine zulässige Lösung hat oder nicht: Zunächst werden ''sämtliche'' Variablen nacheinander herausprojiziert:

<math>
P(a,b) \xrightarrow{\text{FourierMotzkin}(A,b,1)} P(D^1,d^1) \xrightarrow{\text{FourierMotzkin}(A,b,2)} P(D^2,d^2) \ \cdots \ P(D^n,d^n)
</math>

Die resultierende Matrix <math>D^n</math> ist allerdings die [[Nullmatrix]]. Damit ist <math>P(D^n,d^n) = \emptyset </math> genau dann, wenn der Vektor <math>d^n</math> einen negativen Eintrag <math>d^n_k < 0</math> hat.

Da sich der <math>j</math>-te Projektionsschritt durch eine Multiplikation mit einer nichtnegativen Matrix <math>U^j</math> ausführen lässt, gilt außerdem:

<math>
D^n = U \cdot A,\ d^n = U \cdot b, \; \text{wobei} \; U := U^n \cdot U^{n-1} \ldots U^1
</math>.

Wenn der <math>k</math>-te Eintrag von <math>d^n</math> negativ ist,
so ist <math>u \cdot A = 0</math> und <math>u \cdot b < 0</math>, wobei <math>u := e_k \cdot U</math>. Diese Aussage entspricht dem [[Lemma von Farkas|Farkas' Lemma]]. Da sich die Matrizen <math>U^j</math> während der Ausführung des Algorithmus aufstellen lassen, bietet die Fourier-Motzkin-Elimination damit die Möglichkeit, das Zertifikat für
<math>P(A,b) = \emptyset</math> explizit zu berechnen.

Zusätzlich impliziert die Fourier-Motzkin-Elimination, dass die Projektion eines Polyeders wieder ein Polyeder ist.
Dieses Resultat kann benutzt werden, um die Äquivalenz der <math>\mathcal{V}</math>- und <math>\mathcal{H}</math>-Darstellung von Polyedern zu zeigen.

== Lösen von linearen Programmen ==

Die Fourier-Motzkin-Elimination kann zusätzlich benutzt werden, um [[Lineare Optimierung|lineare Programme]] zu lösen.
Man kann dazu entweder das Optimierungsproblem auf ein Zulässigkeitsproblem reduzieren, oder eine zusätzliche Variable einführen, die durch den Zielfunktionswert auf dem Polyeder beschränkt ist.

=== Reduktion auf ein Zulässigkeitsproblem ===
Gegeben sei ein Optimierungsproblem der Form <math>\max \{ c^T x \; | \; A x \leq b \}</math>,
dann sind die folgenden Aussagen sind äquivalent:

# Der Vektor <math>x^*</math> ist optimal für <math>\max \{ c^T x \; | \; A x \leq b \}</math>
# Es gibt ein <math>y^* \in \mathbb{R}^m</math>, sodass <math>(x^*,y^*)</math> in dem Polyeder <math> \{ (x,y) \in \mathbb{R}^{n+m} \;|\; A x \leq b,\ y^T A = c,\ y \geq 0,\ c^T x \geq y^T b \} </math> liegt.

Dies folgt aus der [[Lineare_Optimierung#Dualität|Dualität]] der linearen Optimierung. Man kann also beliebige lineare Programme dadurch lösen, dass man diese zunächst in Zulässigkeitsprobleme umformt, dieses dann in die Form
<math>\{z \;|\; \tilde{A}z \leq \tilde{b} \}</math> bringt und mit der Fourier-Motzkin-Elimination löst. Man erhält damit nicht nur die Optimallösung <math>x^*</math>, sondern auch eine zugehörige Duallösung <math>y^*</math>.

Dieses Verfahren hat allerdings den Nachteil, dass die Matrix <math>\tilde{A}</math> eine Dimension von ungefähr
<math>(m + n) \times (m + n)</math> hat, wodurch die Berechnung stark verlängert wird.

=== Einführung einer neuen Variable ===

Eine Alternative zum obigen Verfahren ist der folgende Ansatz: Um das Problem
<math>\max \{ c^T x \; | \; A x \leq b \}</math> zu lösen, führt man eine zusätzliche Variable <math>y \in \mathbb{R}</math> ein, und fordert zusätzlich, dass <math>y \leq c^T x</math>. Der Wert der Variablen <math>y</math> ist also
durch die Optimallösung des Problems beschränkt. Man erhält dadurch einen Polyeder <math>P(\tilde{A},\tilde{b})</math>
mit

<math>
\tilde{A} = \left(
\begin{array}{rr}
A & 0 \\
-c^T & 1 \\
\end{array}
\right) \in \mathbb{R}^{m + 1 \times n + 1} ,\

\tilde{b} = \left(
\begin{array}{r}
b \\
0 \\
\end{array}
\right) \in \mathbb{R}^{m + 1}
</math>

Man projiziert anschließend die ersten <math>n</math> Einträge heraus, sodass man schließlich ein System der Form

<math>
\begin{align}
D^n_{1,n+1} y &\leq d^n_1 \\
\vdots & \\
D^n_{l,n+1} y &\leq d^n_l \\
\end{align}
</math>

erhält. Diese Ungleichungen beschreiben ein [[Intervall (Mathematik)|Intervall]] möglicher Werte für
die verbliebene Variable <math>y</math>. Es treten die folgenden Fälle auf:

# Das Intervall ist leer. In diesem Fall besitzt das Optimierungsproblem keine zulässige Lösung.
# Das Intervall ist nicht nach oben beschränkt. Damit ist auch das Optimierungsproblem unbeschränkt.
# Das Intervall ist nicht leer und besitzt ein maximales Element <math>b</math>. Damit ist der Zielfunktionswert der Optimallösung des Problems genau <math>b</math>.

Um eine Lösung <math>x^*</math> mit einem gegebenen Zielfunktionswert <math>y^*</math> zu erhalten,
geht man wie folgt vor:
Zunächst betrachtet man das System nach der {{nowrap|<math>n-1</math>-ten}} Iteration: Es treten nur noch die Variablen <math>y</math> und <math>x_n</math> auf, wobei der Wert von <math>y</math> schon auf <math>y^*</math> festgelegt ist:

<math>
\begin{align}
D^{n-1}_{1,n} x_n + D^{n-1}_{1,n+1} y &\leq d^{n-1}_1 \\
\vdots & \\
D^{n-1}_{l,n} x_n + D^{n-1}_{l,n+1} y &\leq d^{n-1}_l \\
\end{align}
</math>

Man erhält somit ein (nicht leeres) Intervall von möglichen Lösungen für <math>x_n</math>, von denen man eine beliebige auswählt. Diesen Prozess iteriert man für <math>x_{n-1}, \ldots, x_{1}</math>.

Es ist außerdem möglich, durch Fourier-Motzkin-Elimination simultan zusätzlich das Minimierungsproblem über den selben Polyeder zu lösen: Dazu verlangt man, dass anstelle der Ungleichung <math>y \leq c^T x</math> die Gleichung <math>y = c^T x</math> gilt. Damit ist <math>y</math> auch nach unten durch den Zielfunktionswert auf dem Polyeder beschränkt; nach dem Ausführen der Projektionen ist also das minimale Element des Intervalls der gesuchte Zielfunktionswert.

=== Beispiel zur Lösung eines linearen Programms ===

Zur Illustration des Verfahrens wählen wir das Programm

<math>
\begin{align}

\max & x_1 \\
\text{s. t.} & x_1 + x_2 \leq 4 \\
& x_1 \geq 0 \\
& x_2 \geq 0 \\
\end{align}

</math>

Um das Problem zu lösen, fügen wir die Variable <math>y</math> zusammen mit der Ungleichung <math>y \leq x_1</math>
zu dem Problem hinzu. Die folgenden Systeme zeigen den Polyeder <math>P(\tilde{A},\tilde{b})</math>, sowie
die veränderten Systeme nach der Projektion auf <math>\{x_1=0\}</math> und <math>\{x_2 = 0\}</math>:

<math>
\left[
\begin{array}
x_1 + x_2 & \leq 4 \\
-x_1 & \leq 0 \\
-x_2 & \leq 0 \\
-x_1 + y & \leq 0 \\
\end{array}
\right]
\;\;

\left[
\begin{array}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 + y & \leq 4 \\
\end{array}
\right]

\;\;

\left[
\begin{align}
0 & \leq 0 \\
y & \leq 4 \\
\end{align}
\right]
</math>

Damit steht fest, dass die Optimallösung des Problems den Zielfunktionswert 4 hat. Um eine entsprechende Lösung
zu erhalten, setzen wir <math>y^*=4</math> und kehren zum vorletzten Schritt zurück. Es ergibt sich das System

<math>
\begin{align}
-x_2 & \leq 0 \\
x_2 & \leq 4 \\
x_2 & \leq 0 \\
\end{align}
</math>

Es bleibt uns also nichts anderes übrig, als <math>x_2^* = 0</math> zu setzen. Der Wert von <math>x_1^*</math> ergibt
sich schlussendlich aus dem System

<math>
\begin{align}
x_1 & \leq 4 \\
-x_1 & \leq 0 \\
-x_1 & \leq -4 \\
\end{align}
</math>

Damit ist die Optimallösung <math>(x_1^*,x_2^*) = (4,0)</math>.

== Laufzeit ==

Obwohl die Fourier-Motzkin-Elimination zur Lösung von linearen Programmen verwendet werden kann, gibt man in der
Praxis anderen Algorithmen den Vorzug. Das Problem der Fourier-Motzkin-Elimination ist, dass im ungünstigsten Fall
die Anzahl der Ungleichungen bzw. die Größe der Matrizen <math>D^j</math> in jeden Projektionsschritt
von vorher <math>m</math> auf
<math>\left( \frac{m}{2} \right)^2</math> anwächst.
In diesem Fall ist die Laufzeit des Algorithmus nicht mehr [[Polynomialzeit|polynomiell]].
Im allgemeinen sind außerdem die meisten der erzeugten Ungleichungen redundant.
Da dies allerdings nicht effizient erkannt werden kann, wird für die Fourier-Motzkin-Elimination weit mehr Speicher
gebraucht als nötig wäre, um die Polyeder <math>P(D^j,d^j)</math> zu beschreiben.

== Einzelnachweise ==

<references />

== Weblinks ==

* [http://www.zib.de/groetschel/teaching/WS0910/skriptADMII-WS0910neu.pdf Ein Vorlesungsskript zur linearen Optimierung]
* {{Cite book |last=Schrijver |first=Alexander|authorlink=Alexander Schrijver |title=Theory of Linear and Integer Programming |location= |publisher=John Wiley & sons |year=1998 |isbn=0-471-98232-6 |pages=155–156 }}
* {{Cite journal |last=Williams |first=H. P. |title=Fourier's Method of Linear Programming and its Dual |journal=American Mathematical Monthly |volume=93 |year=1986 |issue= |pages=681–695 |doi= }}

Benutzer:Mathmon/Zweite Quantisierung

2012-10-10T09:03:44Z

Mathmon: /* Operatoren */

Die '''Zweite Quantisierung''' (oft auch ''Zweite Quantelung'' oder ''Feldquantisierung'' genannt) ist eine Methode zur [[Quantenmechanik|quantenmechanischen]] Behandlung von [[Vielteilchentheorie|Vielteilchenproblemen]], insbesondere auch der Prozesse, bei denen Teilchen entstehen oder vernichtet werden. Sie wurde kurz nach der Entdeckung der Quantenmechanik (siehe [[Erste Quantisierung]]) entwickelt, um auch Photonen und deren Erzeugung und Vernichtung quantenmechanisch beschreiben zu können. Die Photonen erscheinen in der Zweiten Quantisierung als die Feldquanten des quantisierten elektromagnetischen Felds, was auf den zweiten angegebenen Namen führte. Als in den 1930er Jahren entdeckt wurde, dass auch „materielle“ Teilchen erzeugt und vernichtet werden können, wurde der Anwendungsbereich der Methode auf alle Teilchen ausgedehnt. Damit war in der Physik der anschauliche Gegensatz zwischen [[Welle-Teilchen-Dualismus|Teilchen und Wellen]] in seiner früheren grundsätzlichen Bedeutung aufgehoben.

Die Zweite Quantisierung wird im Bereich der [[Festkörperphysik]], der [[Quantenfeldtheorie]] und anderen Vielteilchentheorien angewandt. Sie ist häufig der angemessenste Rahmen, um physikalische Probleme theoretisch zu behandeln.

== Vielteilchensysteme in der Quantenmechanik ==

=== Hilbertraum und Zustände ===

In der Vielteilchentheorien betrachtet man <math>N</math> verschiedene Teilchen, welche man von <math>1</math> bis
<math>N</math> durchnummeriert. Zu jedem Teilchen gehört ein Hilbertraum <math>\mathcal{H}^{(i)}</math>, welcher die
möglichen Zustände des <math>i</math>-ten Teilchens enthält. Der Hilbertraum des Gesamtsystems ist gegeben als das
Tensorprodukt der einzelnen Hilberträume:

:<math>
\mathcal{H} = \mathcal{H}^{(1)} \otimes \mathcal{H}^{(2)} \otimes \ldots \otimes \mathcal{H}^{(N)}
</math>

Falls <math>\{ \vert \alpha_i \rangle \}</math> eine Basis des Raumes <math>\mathcal{H}^{(i)}</math> ist, so lässt
sich eine Basis des gesamtes Hilbertraumes konstruieren als

:<math>
\{ \vert \alpha_1 \rangle \otimes \vert \alpha_2 \rangle \otimes \ldots \otimes \vert \alpha_N \rangle
=: \vert \alpha_1 \alpha_2 \ldots \alpha_N \rangle \}
</math>

Ein beliebiger Zustand <math>\vert \Psi \rangle \in \mathcal{H}</math> lässt sich somit schreiben als

:<math>
\vert \Psi \rangle = \sum_ {\alpha_1, \ldots, \alpha_N} c_{\alpha_1, \ldots, \alpha_N} \cdot
\vert \alpha_1 \ldots \alpha_N \rangle
</math>

Eine anschauliche Interpretation eines solchen Zustandes erhält man beispielsweise durch dessen
Projektion auf den Ortsraum:

:<math>
\langle x_1 ,\ldots, x_N \vert \Psi \rangle = \Psi(x_1, \ldots, x_N)
</math>

Ein Vielteilchenzustand im Ortsraum ist also eine Funktion, die von <math>N</math> verschiedenen Koordinaten
abhängt. Die [[Wellenfunktion#Teilcheninterpretation|Teilcheninterpretation]] ist analog zu der Interpretation
im Fall <math>N=1</math>: Die Wahrscheinlichkeit, das erste Teilchen im Volumen <math>V_1</math> anzutreffen,
das zweite in <math>V_2</math> und so weiter ist gegeben durch

:<math>
\int_{V_1} \int_{V_2} \cdots \int_{V_N} \vert \Psi(x_1, \ldots, x_N) \vert^2 \mathrm dx_N \ldots \mathrm dx_2 \mathrm dx_1
</math>

In diesem Fall fordert man natürlich die korrekte Normierung der Wellenfunktion:

:<math>
\int_{\mathbb{R}^d} \int_{\mathbb{R}^d} \cdots \int_{\mathbb{R}^d}
\vert \Psi(x_1, \ldots, x_N) \vert^2 \mathrm dx_N \ldots \mathrm dx_2 \mathrm dx_1
\,\stackrel{!}{=}\, 1
</math>

Liegt ein Zustand der Form <math>\vert \alpha_1 \ldots \alpha_N \rangle</math> vor, so hat die Wellenfunktion
im Ortsraum die Gestalt

:<math>
\langle x_1 ,\ldots, x_N \vert \alpha_1 \ldots \alpha_N \rangle =
\alpha_1(x_1) \cdot \alpha_2(x_2) \cdot \ldots \cdot \alpha_N(x_N)
</math>

In diesem Fall vereinfacht sich die Berechnung der Aufenthaltswahrscheinlichkeit, da das Integral in ein
Produkt zerfällt:

:<math>
\int_{V_1} \int_{V_2} \cdots \int_{V_N} \vert \Psi(x_1, \ldots, x_N) \vert^2 \mathrm dx_N \ldots \mathrm dx_2 \mathrm dx_1
= \left( \int_{V_1} \vert \alpha_1(x_1) \vert^2 \mathrm dx_1 \right) \cdot
\left( \int_{V_2} \vert \alpha_1(x_2) \vert^2 \mathrm dx_2 \right) \ldots
\left( \int_{V_N} \vert \alpha_1(x_N) \vert^2 \mathrm dx_N \right)
</math>

Einen Zustand, welcher in dieser Form vorliegt, bezeichnet man als ''reinen'' oder ''separablen'' Zustand,
während ein jeglicher
anderer Zustand als ''gemischt'' oder ''verschränkt'' bezeichnet wird. Bei einem reinen Zustand sind die
Aufenthaltswahrscheinlichkeiten also unabhängig voneinander, während bei einem verschränkten Zustand die
Aufenthaltswahrscheinlichkeit jedes Teilchens von den Aufenthaltswahrscheinlichkeiten aller anderen Teilchen
abhängt.

=== Operatoren ===

Ein Operator <math>\hat A</math> eines Vielteilchensystems ist ein Funktional
<math>\hat A : \mathcal{H} \mapsto \mathcal{H}</math>. Eine Besonderheit sind hier Operatoren aus
den einzelnen Räumen <math>\mathcal{H}^{(i)}</math>: Diese werden durch Tensorprodukte zu Operatoren
des Raumes <math>\mathcal{H}</math> gemacht. Beispielsweise wird der Ortsoperator <math> \hat x_1</math> zu

:<math>
\hat x_1 \otimes \mathbb{1}_2 \otimes \ldots \otimes \mathbb{1}_N
</math>

Dabei bezeichnet <math>\mathbb{1}_i</math> die [[Identische Abbildung|identische Abbildung]] im Raum
<math>\mathcal{H}^{(i)}</math>. Aus Gründen der Notation schreibt man die identischen Abbildungen im
Allgemeinen nicht mit.

Die Dynamik eines Vielteilchensystems wird weiterhin durch die [[Schrödingergleichung]] beschrieben:

:<math>
\mathrm{i} \hbar \frac{\partial}{\partial t} |\,\psi (t) \rangle
= \hat{H}(\hat x_1, \ldots, \hat x_N, \hat p_1, \ldots, \hat p_N, t) |\,\psi (t) \rangle
</math>

Der [[Hamiltonoperator]] hängt im allgemeinen Fall von sämtlichen Orts- und Impulsoperatoren sowie von der Zeit
ab. Ein Beispiel für wechselwirkende Teilchen ist gegeben durch

:<math>
\hat{H} = \sum_{i=1}^{N} \frac{\hat p_i^2}{2 m_i} + \sum_{i \neq j}^N \hat V (\hat x_i, \hat x_j)
</math>

== Grundbegriffe ==
Kurze Zusammenstellung einiger der wesentlichen neuen Begriffe und ihrer unmittelbaren Folgen:
* Der [[Zustand (Quantenmechanik)|Zustand]] des betrachteten Systems wird wie in der gewöhnlichen Quantenmechanik durch einen normierten Vektor in einem [[Hilbertraum]] angegeben, der aber jetzt [[Fockraum]] genannt wird, weil er Zustände mit unterschiedlichen Teilchenzahlen enthält.
* Es gibt einen Zustand ohne jedes Teilchen, das absolute [[Vakuum]], Symbol <math>\vert O\rangle</math>.
:: (Der Vakuumzustand ist normiert, <math>\langle O\vert O\rangle=1</math>, darf also nicht mit dem [[Nullvektor]] verwechselt werden.)
* Es gibt für jede Teilchenart einen Erzeugungsoperator, der es in einem definierten Zustand in die Welt setzt, Symbol <math>a^\dagger</math> (für eine andere Teilchenart <math>b^\dagger</math> etc.). Der 1-Teilchenzustand mit einem Teilchen im Zustand ''p'' ist dann gegeben durch <math>a^\dagger_p \vert O \rangle</math>. Der 2-Teilchenzustand mit einem zweiten Teilchen gleicher Art, aber im Zustand ''k'', ist dann gegeben durch nochmaliges Anwenden des Erzeugers: <math>a^\dagger_k a^\dagger_p \vert O \rangle</math>. Für weitere Teilchen entsprechend weitere Erzeugungsoperatoren.
* Da die „a“-Teilchen unter sich identisch sind, darf bei einer Vertauschung in der Reihenfolge der Erzeugung kein anderer Zustand herauskommen. Allenfalls muss sich das Vorzeichen ändern. Das wird gewährleistet durch die Bedingungen
:: <math>a^\dagger_k a^\dagger_p = +a^\dagger_p a^\dagger_k</math> für [[Boson]]en („vertauschbar“)
:: <math>a^\dagger_k a^\dagger_p = -a^\dagger_p a^\dagger_k</math> für [[Fermion]]en („antivertauschbar“).
:Erzeuger verschiedener Teilchenarten sind immer vertauschbar. Damit ist schon früh im Formalismus zweierlei erreicht:
# Die [[Ununterscheidbare Teilchen|''absolute'' Ununterscheidbarkeit]] gleicher Teilchen ist eingebaut. Die Teilchen bekommen noch nicht einmal mehr eine Nummer, um ihre Koordinaten voneinander unterscheiden zu können.
# Bosonen-Zustände sind immer symmetrisch gegen Vertauschung, Fermionenzustände immer antisymmetrisch. Das [[Pauli-Prinzip]] ist automatisch berücksichtigt und die unterschiedlichen [[Quantenstatistik]]en ergeben sich zwangsläufig.
* Der Operator für die Vernichtung eines Teilchens im Zustand ''p'' ist <math>\,a_p</math>. Ein Anwendungsbeispiel: Hier lässt die Vernichtung eines existierenden Teilchens im Vakuum das leere Vakuum zurück, <math>a_p\,a^\dagger_p \vert O \rangle = \vert O \rangle</math>. Der Vernichter ist der zum Erzeuger [[hermitescher Operator#Definitionen|hermitesch adjungierte Operator]]. Dass das so richtig ist, sieht man z. B. beim Ausrechnen der Norm von <math>a^\dagger_p\vert O \rangle</math>, d.h. beim Skalarprodukt mit seinem adjungierten Vektor <math>\langle O \vert a_p </math> :
:: <math>\vert\vert a^\dagger_p \vert O \rangle \vert\vert^2 = \langle O \vert a_p a^\dagger_p \vert O \rangle = \langle O \vert \left(a_p a^\dagger_p \vert O \rangle\right) =\langle O \vert O \rangle = 1</math>
:Für die Vernichtungsoperatoren gelten deshalb dieselben Vertauschungsregeln wie für die Erzeuger. Anwendung eines Vernichters auf den Vakuumzustand ergibt Null (den Nullvektor).
* Der Übergang eines Teilchens vom Zustand ''p'' nach ''k'' wird durch den Operator <math>a^\dagger_k a_p </math> bewerkstelligt. Man vernichtet das Teilchen in ''p'' und erzeugt sich ein neues in ''k'' - sie sind ja identisch. Begriffliche Vorteile:
#Die für Alltagsgegenstände so unvermeidliche Frage, ob nicht jemand den „Betrug“ bemerken könnte, dass ihm mit dem bei ''k'' auftauchenden Teilchen gar nicht das originale Teilchen untergeschoben werden soll, kann gar nicht gestellt werden.
#Die ebenso naheliegende Alltagsfrage, wo das Teilchen während des ''Quantensprungs'' von ''p'' nach ''k'' gewesen sei, kann auch nicht mehr gestellt werden.

* Vernichter ''k'' sind mit Erzeugern ''p'' vertauschbar, außer sie beziehen sich auf denselben Zustand. Dann gilt:

:: <math>a_p a^\dagger_p = +a^\dagger_p a_p + 1</math> für Bosonen („vertauschbar“)
:: <math>a_p a^\dagger_p = -a^\dagger_p a_p + 1</math> für Fermionen („antivertauschbar“)

* Der Operator, der die Anzahl der im Zustand ''p'' anwesenden Teilchen als Eigenwert angibt, ist der Teilchenzahloperator <math>\hat n_p = a^\dagger_p a_p</math>. Er ist gleich für Fermionen und Bosonen. (Für Fermionen hat er keine Eigenwerte außer 0 und 1.)

* Der Zusammenhang eines 1-Teilchenzustands <math>a^\dagger_p \vert O \rangle</math> mit seiner „alten“ [[Wellenfunktion]] <math>\psi_p(\vec r)</math> ergibt sich, indem man sich ein am Ort <math>\vec r</math> lokalisiertes Teilchen erzeugt (Zustand <math>a^\dagger_{\vec r} \vert O \rangle</math> ) und mit <math>a^\dagger_p \vert O \rangle</math> das Skalarprodukt bildet, das ja die Amplitude des einen Zustands im anderen angibt:
:: <math>\psi_p(\vec r) = \langle O \vert a_{\vec r} a^\dagger_p \vert O \rangle</math>

== Mathematische Konstruktion ==
Die entscheidende Arbeit, ''Konfigurationsraum und zweite Quantelung''<ref>[http://www.springerlink.com/content/p210670017185u60/ Konfigurationsraum und zweite Quantelung] - vollständiges Dokument bei springerlink.com</ref>, stammt von dem russischen Physiker [[Wladimir Fock]] aus dem Jahre 1932.

Sei <math>\{ |\phi_j\rangle \}_j</math> eine orthonormale Einteilchen-Basis eines quantenmechanischen Systems (, d. h. ein Satz an [[Wellenfunktion]]en, nach denen sich jede beliebige Einteilchenwellenfunktion entwickeln lässt). Dann ist bekannt, dass sich jede fermionische (bzw. bosonische) Vielteilchen-Wellenfunktion, die ja von Natur aus antisymmetrisch (bzw. symmetrisch) ist, nach [[Determinante (Mathematik)|Determinanten]] (bzw. [[Permanente]]n) bezüglich dieser Einteilchenbasis entwickeln lässt:
Sei <math>\Psi(x_1, \ldots, x_N)</math> antisymmetrisch (<math>x_j = (\mathbf{r}_j, s_j)</math>, z. B. Orts- und Spinkoordinaten eines Elektrons). Dann gibt es komplexe Zahlen <math>c_L \in \mathbb{C}^N</math> (d. h. zu jeder „Konfiguration“ <math>L = (l_1,\ldots,l_N)</math>, worin <math>l_x</math> Index in die Einteilchenbasis ist, gibt es ''N'' komplexe Koeffizienten) mit

<math>\Psi(x_1,\ldots,x_N) = \sum_{L\subset \mathbb{N}, |L|=N, \textrm{ geordnet}} c_L \frac{1}{\sqrt{N}} \det
\left|\left\langle x_j | \phi_{l_k}\right\rangle\right|_{(j,k)} </math><math>= \sum_L \frac{c_L}{\sqrt{N}} \det \begin{pmatrix} \phi_{l_1}(x_1) & \cdots & \phi_{l_N}(x_1) \\ \vdots & \ddots & \vdots \\ \phi_{l_1}(x_N) & \cdots & \phi_{l_N}(x_N)\end{pmatrix}</math>

Man kann also jede Vielteilchen-Wellenfunktion als Linearkombination solcher Determinanten-Zustände darstellen (bzw. entsprechender Permanenten-Zustände im bosonischen Fall). Diese Determinantenzustände sind neben der rein mathematischen Bedeutung als Entwicklungsbasis häufig auch von großer physikalischer Bedeutung, da sich Grundzustands-Wellenfunktionen nicht wechselwirkender Systeme als reine Determinantenzustände (bzw. Permanentenzustände) darstellen lassen.

Der Determinante/Permanente zur Konfiguration <math>L = (l_1,\ldots,l_N)</math> kann man nun die Bezeichnung

<math>| 0, 0, \underbrace{n_1}_{\nwarrow l_1\textrm{te Stelle}}, 0, 0, 0, \underbrace{n_2}_{\nwarrow l_{1+n_1}\textrm{te Stelle}}, \ldots \rangle</math>

zuordnen, mit <math>n_1 = </math> Anzahl Vorkommen des Wertes von <math>l_1</math> in <math>L</math>, <math>n_2 = </math> Anzahl Vorkommen des Wertes von <math>l_2</math> in <math>L</math>, …. Die Werte <math>n_j</math> nennt man ''Besetzungszahlen'' der zugehörigen Basiszustände. Die Besetzungszahlen können bei Fermionen nur 1 oder 0 sein, da sonst die Determinante verschwinden würde (zwei gleiche Spalten).

In dieser Bezeichnungsweise ist also die allgemeine Darstellung eines N-Teilchen Vielteilchenzustands <math>|\Psi\rangle</math>:

<math>|\Psi\rangle = \sum_{n_1, n_2, \ldots = 0; n_1+n_2+\ldots=N}^{1 \textrm{\,bzw.\,}\infty}c_{n_1,\ldots,n_\infty} |n_1, n_2, \ldots, n_\infty\rangle</math>

die ''Besetzungszahldarstellung''. Der antisymmetrische bzw. symmetrische N-Teilchen-Hilbertraum <math>\mathcal H_N</math> wird also durch diese Zustände <math>|n_1, n_2, \ldots\rangle</math> mit <math>\sum n_j = N</math> aufgespannt. Es liegt nun nahe, einen allgemeineren Raum namens Fockraum einzuführen, der durch die <math>|n_1, n_2, \ldots\rangle</math>-Zustände mit beliebiger endlicher Teilchenzahl aufgespannt wird:

<math>F := \textrm{clin}\{ |n_1, n_2, \ldots\rangle;\; \sum n_j\, \textrm{endl.} \} = \bigoplus_N \mathcal H_N</math>.

Da sich Operatoren unabhängig von der konkreten Teilchenzahl darstellen lassen (s.u.), ist diese Konstruktion sinnvoll. In diesem Raum sind Zustände unbestimmter Teilchenzahl enthalten ([[Linearkombination]] von Zuständen verschiedener bestimmter Teilchenzahlen). In ihm wird Vielteilchentheorie normalerweise betrieben.

Einzelne Determinantenzustände, die wie schon gesagt z. B. besondere Zustände eines wechselwirkungsfreien Systems sein könnten, kann man in der Form <math>|\Psi\rangle = |n_1, n_2, \ldots\rangle</math> eindeutig angeben, wenn man dazu sagt, auf welche Einteilchenbasis man sich bezieht.

Siehe dazu auch: [[Slater-Determinante]]

== [[Erzeugungs- und Vernichtungsoperator|Erzeugungs-, Vernichtungs-]] und Teilchenzahloperatoren ==

Man führt nun, zunächst recht willkürlich, neue Operatoren ein, die Teilchen im Basiszustand <math>j\equiv|\phi_j\rangle</math>„erzeugen“ bzw. „vernichten“ (d. h. die entsprechende Besetzungszahl erhöhen oder verringern):

Definition (auf der Basis des Zustandsraumes, auf dem Rest durch lineare Fortsetzung):

*Im bosonischen Fall

<math>
c_j^\dagger: H_N^S \rightarrow H_{N+1}^S,\quad c_j^\dagger | \ldots n_j \ldots \rangle := \sqrt{n_j+1} |\ldots n_j+1 \ldots \rangle</math>

<math>
c_j: H_N^S \rightarrow H_{N-1}^S,\quad c_j | \ldots n_j \ldots \rangle := \sqrt{n_j} |\ldots n_j-1 \ldots \rangle
</math>

*Im fermionischen Fall

<math>
c_j^\dagger: H_N^A \rightarrow H_{N+1}^A,\quad c_j^\dagger | \ldots n_j \ldots \rangle := (-1)^{\sum_{i<j}n_i}\;(1-n_j) |\ldots \underbrace{n_j+1}_{=1} \ldots \rangle
</math>

<math>
c_j: H_N^A \rightarrow H_{N-1}^A,\quad c_j | \ldots n_j \ldots \rangle := (-1)^{\sum_{i<j}n_i}\; n_j |\ldots \underbrace{n_j-1}_{=0} \ldots \rangle
</math>

Die Vorfaktoren sorgen dabei jeweils für das Nichtauftreten unmöglicher Zustände (z. B. mit Besetzungszahlen < 0 oder > 1 bei Fermionen), für das Wegkapseln der Antisymmetrie bei Fermionen in anderen Ausdrücken und dafür, dass sich die Besetzungszahloperatoren in beiden Fällen als

<math> \hat n_j := c_j^\dagger c_j </math>

ergeben. Nachrechnen zeigt, dass diese Operatoren bei Determinantenzuständen die Besetzungszahlen reproduzieren:

<math> \hat n_j | \ldots, n_j, \ldots\rangle = n_j |\ldots, n_j,\ldots\rangle </math>.

=== Vertauschungsrelationen ===
Für die so konstruierten Operatoren gelten im fermionischen Fall die Antivertauschungsrelationen

<math> \{c_i, c_j^\dagger\} = \delta_{ij} \qquad \{c_i, c_j\} = 0 \qquad \{c_i^\dagger, c_j^\dagger\} = 0, </math>

wobei <math>\{A,B\}:= AB+BA</math> den [[Kommutator (Mathematik)#Antikommutator|Antikommutator]] bedeutet.

Im bosonischen Fall gelten die Vertauschungsrelationen

<math> [c_i, c_j^\dagger] = \delta_{ij} \qquad [c_i, c_j] = 0 \qquad [c_i^\dagger, c_j^\dagger] = 0.</math>

Darin ist <math>[A,B] := AB-BA</math> der [[Kommutator (Mathematik)|Kommutator]].

== Ein- und Zweiteilchenoperatoren ==
Es lässt sich zeigen, dass sich sämtliche linearen Operatoren auf dem Fockraum als Linearkombination von Polynomen in den Erzeugungs/Vernichtungsoperatoren darstellen lassen. Darin liegt ein wesentlicher Aspekt ihrer Wichtigkeit. Besonders bedeutend sind dabei die sogenannten Einteilchen- bzw. Zweiteilchen-Operatoren, die ihrem Namen nach entweder [[Observable]]n einzelner Teilchen repräsentieren (z. B. kinetische Energie, Position, Spin) oder Wechselwirkungen zwischen zwei Teilchen (z. B. [[Coulomb-Wechselwirkung]] zwischen zwei Elektronen).

Es ergeben sich dabei einfache Ausdrücke: Sei

<math>A = \sum_\alpha h_\alpha \,</math>

ein Einteilchen-Operator (d. h. jedes <math>h_\alpha \,</math> wirkt nur auf die Koordinaten des <math>\alpha\,</math>-ten Teilchens, von der Struktur her sind die <math>h_\alpha \,</math>s aber alle gleich), so ergibt sich (durch Ausrechnen):

<math>A = \sum_\alpha h_\alpha = \sum_{i,j} \langle i|h|j\rangle c_i^\dagger c_j = \sum_{i,j} \langle \phi_i|h|\phi_j\rangle c_i^\dagger c_j </math>

wobei <math>\langle i|h|j\rangle</math> das Matrixelement des Einteilchenoperators ist, aus dem sich die <math>h_i \,</math> ergeben, gebildet mit den Basiszuständen <math>|\phi_j\rangle</math>, bezüglich denen quantisiert wurde.
Für Zweiteilchenoperatoren ergibt sich analog:

<math>A = \sum_{\alpha,\beta\neq\alpha} w(\alpha,\beta) = \sum_{i,j,k,l} \langle ij|w|lk\rangle c_i^\dagger c_j^\dagger c_k c_l </math><math>= \sum_{i,j,k,l} \langle \phi_i^{(1)} \phi_j^{(2)}|w(1,2)|\phi_l^{(1)}\phi_k^{(2)}\rangle c_i^\dagger c_j^\dagger c_k c_l </math>.

Bei den Ausdrücken handelt es sich um echte Gleichheit der Operatoren, so lange sie auf eine feste Teilchenzahl bezogen sind. Man sieht aber, dass die zweitquantisierte Form der Operatoren die Teilchenzahl nicht mehr explizit enthält. Die zweitquantisierten Operatoren nehmen in Systemen verschiedener Teilchenzahl also jeweils dieselbe Form an.

=== Konkrete Beispiele ===
==== Einteilchen-Operatoren ====
Teilchendichte in Zweitquantisierung bezüglich Impulsbasis (diskrete Impulsbasis, endliches Volumen mit [[periodische Randbedingung|periodischen Randbedingungen]]):

<math>\rho(r) = \sum_{\alpha=1}^N \delta(r - \hat x_\alpha)
</math>

<math>\qquad = \sum_{k,k'} \langle k| \delta(r-\hat x) | k' \rangle c^\dagger_k c_{k'}
</math>

<math>\qquad =\sum_{k,k'} \int_{x \in V} \mathrm{d}^3x\, \langle k| \delta(r-\hat x) |x\rangle\langle x |\,| k' \rangle c^\dagger_k c_{k'}
</math>

<math>\qquad =\sum_{k,k'} \int_{x \in V} \mathrm{d}^3x\, \langle k|x\rangle \delta(r-x) \langle x | k' \rangle c^\dagger_k c_{k'}
</math>

<math>\qquad =\sum_{k,k'} \int_{x \in V} \mathrm{d}^3x\, \frac{1}{V} e^{i(k'-k)x} \delta(r - x) c^\dagger_k c_{k'}
</math>

<math>\qquad =\sum_{k,k'} \frac{1}{V} e^{i (k'-k) r} c^\dagger_k c_{k'}
</math>

<math>\qquad = \frac{1}{V} \sum_{k,q} e^{iqr}c^\dagger_k c_{k + q}
</math>

==== Coulomb-Wechselwirkung ====
In Zweitquantisierung bezüglich (diskreter) Impulsbasis.

<math>W_\textrm{Coul.} = \frac{1}{2} \sum_{\alpha,\alpha\neq\beta} \frac{e^2}{|\mathbf{r_\alpha - r_\beta|}} =
\frac{1}{2V} \sum_{q\neq 0,k_1,\sigma_1,k_2,\sigma_2} \frac{4\pi e^2}{q^2} c^\dagger_{k_1,\sigma_1} c^\dagger_{k_2,\sigma_2} c_{k_2-q,\sigma_2} c_{k_1+q,\sigma_1}
</math>
====Supraleitung====
Die Zweite Quantisierung ermöglicht mit der Fock-Darstellung auch die explizite Berücksichtigung von Zuständen, die ''keine''  Eigenzustände des Teichenzahloperators <math>\hat N=\sum_{k,\sigma} c_{k,\sigma}^\dagger c_{k,\sigma}</math> sind. Solche Zustände spielen in der Theorie der [[Supraleitung]] eine große Rolle.

== Transformation zwischen Einteilchenbasen ==
Erzeugungs- und Vernichtungsoperatoren bezüglich einer gegebenen Einteilchenbasis <math>|i\rangle</math> lassen sich durch entsprechende Operatoren bezüglich einer anderen Einteilchenbasis <math>|\alpha\rangle</math> ausdrücken:

<math>c_i^\dagger = \sum_\alpha \langle \alpha|i \rangle c^\dagger_\alpha</math>

<math>c_i = \sum_\alpha \langle i|\alpha \rangle c_\alpha.</math>

Durch diese Beziehungen ist es möglich, einen [[Basiswechsel]] im Fockraum durchzuführen und somit gegebene Ausdrücke auf für die gerade anliegende Situation besser geeignete Formen zu transformieren. Auf ähnliche Art werden aus den Erzeugungs-/Vernichtungs-Operatoren für diskrete Einteilchenbasen auch [[Feldoperator]]en bezüglich kontinuierlicher Orts- bzw. Impulsbasen erzeugt, wie sie vor allem in den [[Quantenfeldtheorie]]n verwendet werden.

== Verallgemeinerung: Relativistische Quantenfeldtheorien ==
Als Verallgemeinerung entstehen, wie in der Fußnote <ref name="relativistische QFT">Man kann die ''Zweite Quantisierung'' auch als ''[[Quantenfeldtheorie#Feldquantisierung|Feldquantisierung]]'' eines bestimmten, mit der Schrödingergleichung kompatiblen klassischen Feldes, des sog. „Schrödinger-Feldes“, formulieren. Statt der Schrödingergleichung kann man auch ''relativistische'' klassische, zur Quantentheorie kompatible Gleichungen bzw. deren Feldtheorien behandeln. Die resultierenden Gleichungen wären z. B. in der Struktur analog zu denen der [[Maxwellsche Gleichungen|Maxwellschen Theorie]] und müssen in den Spezialfällen des Schrödingerfeldes oder der sog. [[Quantenelektrodynamik|QED]] oder [[Quantenchromodynamik|QCD]] u.a. die Maxwellsche Feldenergie als Beitrag zur Potentiellen Energie der Elektronen enthalten, in deren kinetischer Energie aber auch die [[Plancksche Konstante]] ''h'' als Feldparameter. Es entstehen so anstelle der nicht-relativistischen [[Vielteilchentheorie]] relativistische [[Quantenfeldtheorie]]n.</ref> angedeutet, anstelle der nicht-relativistischen [[Vielteilchentheorie]] relativistische [[Quantenfeldtheorie]]n.

== Literatur ==
* Alexander Altland, Ben Simons: ''Condensed matter field theory'', Cambridge Univ. Press, 2009, ISBN 978-0-521-84508-3
* Eugen Fick: ''Einführung in die Grundlagen der Quantentheorie'', Wiesbaden, 1988, ISBN 3-89104-472-0
* Wolfgang Nolting: ''Grundkurs theoretische Physik'', Band 7: ''Vielteilchenphysik'', Berlin u.a., 2009, ISBN 978-3-642-01605-9
* Franz Schwabl: ''Quantenmechanik für Fortgeschrittene (QM II)'', Berlin u.a., 2008, ISBN 978-3-540-85075-5

== Einzelnachweise und Fußnoten ==
<references />

[[Kategorie:Quantenfeldtheorie]]
[[Kategorie:Statistische Physik]]
[[Kategorie:Festkörperphysik]]

[[en:Canonical quantization]]
[[es:Segunda cuantización]]
[[fr:Seconde quantification]]
[[it:Seconda quantizzazione]]
[[ja:第二量子化]]
[[ko:정준 양자화]]
[[ru:Вторичное квантование]]
[[uk:Вторинне квантування ферміонів]]
[[zh:正則量子化]]

Benutzer:Mathmon/Zweite Quantisierung

2012-10-10T09:00:48Z

Mathmon: /* Hilbertraum und Zustände */

Die '''Zweite Quantisierung''' (oft auch ''Zweite Quantelung'' oder ''Feldquantisierung'' genannt) ist eine Methode zur [[Quantenmechanik|quantenmechanischen]] Behandlung von [[Vielteilchentheorie|Vielteilchenproblemen]], insbesondere auch der Prozesse, bei denen Teilchen entstehen oder vernichtet werden. Sie wurde kurz nach der Entdeckung der Quantenmechanik (siehe [[Erste Quantisierung]]) entwickelt, um auch Photonen und deren Erzeugung und Vernichtung quantenmechanisch beschreiben zu können. Die Photonen erscheinen in der Zweiten Quantisierung als die Feldquanten des quantisierten elektromagnetischen Felds, was auf den zweiten angegebenen Namen führte. Als in den 1930er Jahren entdeckt wurde, dass auch „materielle“ Teilchen erzeugt und vernichtet werden können, wurde der Anwendungsbereich der Methode auf alle Teilchen ausgedehnt. Damit war in der Physik der anschauliche Gegensatz zwischen [[Welle-Teilchen-Dualismus|Teilchen und Wellen]] in seiner früheren grundsätzlichen Bedeutung aufgehoben.

Die Zweite Quantisierung wird im Bereich der [[Festkörperphysik]], der [[Quantenfeldtheorie]] und anderen Vielteilchentheorien angewandt. Sie ist häufig der angemessenste Rahmen, um physikalische Probleme theoretisch zu behandeln.

== Vielteilchensysteme in der Quantenmechanik ==

=== Hilbertraum und Zustände ===

In der Vielteilchentheorien betrachtet man <math>N</math> verschiedene Teilchen, welche man von <math>1</math> bis
<math>N</math> durchnummeriert. Zu jedem Teilchen gehört ein Hilbertraum <math>\mathcal{H}^{(i)}</math>, welcher die
möglichen Zustände des <math>i</math>-ten Teilchens enthält. Der Hilbertraum des Gesamtsystems ist gegeben als das
Tensorprodukt der einzelnen Hilberträume:

:<math>
\mathcal{H} = \mathcal{H}^{(1)} \otimes \mathcal{H}^{(2)} \otimes \ldots \otimes \mathcal{H}^{(N)}
</math>

Falls <math>\{ \vert \alpha_i \rangle \}</math> eine Basis des Raumes <math>\mathcal{H}^{(i)}</math> ist, so lässt
sich eine Basis des gesamtes Hilbertraumes konstruieren als

:<math>
\{ \vert \alpha_1 \rangle \otimes \vert \alpha_2 \rangle \otimes \ldots \otimes \vert \alpha_N \rangle
=: \vert \alpha_1 \alpha_2 \ldots \alpha_N \rangle \}
</math>

Ein beliebiger Zustand <math>\vert \Psi \rangle \in \mathcal{H}</math> lässt sich somit schreiben als

:<math>
\vert \Psi \rangle = \sum_ {\alpha_1, \ldots, \alpha_N} c_{\alpha_1, \ldots, \alpha_N} \cdot
\vert \alpha_1 \ldots \alpha_N \rangle
</math>

Eine anschauliche Interpretation eines solchen Zustandes erhält man beispielsweise durch dessen
Projektion auf den Ortsraum:

:<math>
\langle x_1 ,\ldots, x_N \vert \Psi \rangle = \Psi(x_1, \ldots, x_N)
</math>

Ein Vielteilchenzustand im Ortsraum ist also eine Funktion, die von <math>N</math> verschiedenen Koordinaten
abhängt. Die [[Wellenfunktion#Teilcheninterpretation|Teilcheninterpretation]] ist analog zu der Interpretation
im Fall <math>N=1</math>: Die Wahrscheinlichkeit, das erste Teilchen im Volumen <math>V_1</math> anzutreffen,
das zweite in <math>V_2</math> und so weiter ist gegeben durch

:<math>
\int_{V_1} \int_{V_2} \cdots \int_{V_N} \vert \Psi(x_1, \ldots, x_N) \vert^2 \mathrm dx_N \ldots \mathrm dx_2 \mathrm dx_1
</math>

In diesem Fall fordert man natürlich die korrekte Normierung der Wellenfunktion:

:<math>
\int_{\mathbb{R}^d} \int_{\mathbb{R}^d} \cdots \int_{\mathbb{R}^d}
\vert \Psi(x_1, \ldots, x_N) \vert^2 \mathrm dx_N \ldots \mathrm dx_2 \mathrm dx_1
\,\stackrel{!}{=}\, 1
</math>

Liegt ein Zustand der Form <math>\vert \alpha_1 \ldots \alpha_N \rangle</math> vor, so hat die Wellenfunktion
im Ortsraum die Gestalt

:<math>
\langle x_1 ,\ldots, x_N \vert \alpha_1 \ldots \alpha_N \rangle =
\alpha_1(x_1) \cdot \alpha_2(x_2) \cdot \ldots \cdot \alpha_N(x_N)
</math>

In diesem Fall vereinfacht sich die Berechnung der Aufenthaltswahrscheinlichkeit, da das Integral in ein
Produkt zerfällt:

:<math>
\int_{V_1} \int_{V_2} \cdots \int_{V_N} \vert \Psi(x_1, \ldots, x_N) \vert^2 \mathrm dx_N \ldots \mathrm dx_2 \mathrm dx_1
= \left( \int_{V_1} \vert \alpha_1(x_1) \vert^2 \mathrm dx_1 \right) \cdot
\left( \int_{V_2} \vert \alpha_1(x_2) \vert^2 \mathrm dx_2 \right) \ldots
\left( \int_{V_N} \vert \alpha_1(x_N) \vert^2 \mathrm dx_N \right)
</math>

Einen Zustand, welcher in dieser Form vorliegt, bezeichnet man als ''reinen'' oder ''separablen'' Zustand,
während ein jeglicher
anderer Zustand als ''gemischt'' oder ''verschränkt'' bezeichnet wird. Bei einem reinen Zustand sind die
Aufenthaltswahrscheinlichkeiten also unabhängig voneinander, während bei einem verschränkten Zustand die
Aufenthaltswahrscheinlichkeit jedes Teilchens von den Aufenthaltswahrscheinlichkeiten aller anderen Teilchen
abhängt.

=== Operatoren ===

Ein Operator <math>\hat A</math> eines Vielteilchensystems ist ein Funktional
<math>\hat A : \mathcal{H} \mapsto \mathcal{H}</math>. Eine Besonderheit sind hier Operatoren aus
den einzelnen Räumen <math>\mathcal{H}^{(i)}</math>: Diese werden durch Tensorprodukte zu Operatoren
des Raumes <math>\mathcal{H}</math> gemacht. Beispielsweise wird der Ortsoperator <math> \hat x_1</math> zu

:<math>
\hat x_1 \otimes \mathbb{1}_2 \otimes \ldots \otimes \mathbb{1}_N
</math>

Dabei bezeichnet <math>\mathbb{1}_i</math> die [[Identische Abbildung|identische Abbildung]] im Raum
<math>\mathcal{H}^{(i)}</math>. Aus Gründen der Notation schreibt man die identischen Abbildungen im
Allgemeinen nicht mit.

Die Dynamik eines Vielteilchensystems wird weiterhin durch die [[Schrödingergleichung]] beschrieben:

:<math>
\mathrm{i} \hbar \frac{\partial}{\partial t} |\,\psi (t) \rangle
= \hat{H}(\hat x_1, \ldots, \hat x_N, \hat p_1, \ldots, \hat p_N, t) |\,\psi (t) \rangle
</math>

Der [[Hamiltonoperator]] hängt im allgemeinen Fall von sämtlichen Orts- und Impulsoperatoren sowie von der Zeit
ab. Ein Beispiel für wechselwirkende Teilchen ist gegeben durch

:<math>
\hat{H} = \sum_{i=1}^{N} \frac{\hat p_i^2}{2 m_i} + \sum_{i \neq j}^N \hat V (\hat x_i, \hat x_j, t)
</math>

== Grundbegriffe ==
Kurze Zusammenstellung einiger der wesentlichen neuen Begriffe und ihrer unmittelbaren Folgen:
* Der [[Zustand (Quantenmechanik)|Zustand]] des betrachteten Systems wird wie in der gewöhnlichen Quantenmechanik durch einen normierten Vektor in einem [[Hilbertraum]] angegeben, der aber jetzt [[Fockraum]] genannt wird, weil er Zustände mit unterschiedlichen Teilchenzahlen enthält.
* Es gibt einen Zustand ohne jedes Teilchen, das absolute [[Vakuum]], Symbol <math>\vert O\rangle</math>.
:: (Der Vakuumzustand ist normiert, <math>\langle O\vert O\rangle=1</math>, darf also nicht mit dem [[Nullvektor]] verwechselt werden.)
* Es gibt für jede Teilchenart einen Erzeugungsoperator, der es in einem definierten Zustand in die Welt setzt, Symbol <math>a^\dagger</math> (für eine andere Teilchenart <math>b^\dagger</math> etc.). Der 1-Teilchenzustand mit einem Teilchen im Zustand ''p'' ist dann gegeben durch <math>a^\dagger_p \vert O \rangle</math>. Der 2-Teilchenzustand mit einem zweiten Teilchen gleicher Art, aber im Zustand ''k'', ist dann gegeben durch nochmaliges Anwenden des Erzeugers: <math>a^\dagger_k a^\dagger_p \vert O \rangle</math>. Für weitere Teilchen entsprechend weitere Erzeugungsoperatoren.
* Da die „a“-Teilchen unter sich identisch sind, darf bei einer Vertauschung in der Reihenfolge der Erzeugung kein anderer Zustand herauskommen. Allenfalls muss sich das Vorzeichen ändern. Das wird gewährleistet durch die Bedingungen
:: <math>a^\dagger_k a^\dagger_p = +a^\dagger_p a^\dagger_k</math> für [[Boson]]en („vertauschbar“)
:: <math>a^\dagger_k a^\dagger_p = -a^\dagger_p a^\dagger_k</math> für [[Fermion]]en („antivertauschbar“).
:Erzeuger verschiedener Teilchenarten sind immer vertauschbar. Damit ist schon früh im Formalismus zweierlei erreicht:
# Die [[Ununterscheidbare Teilchen|''absolute'' Ununterscheidbarkeit]] gleicher Teilchen ist eingebaut. Die Teilchen bekommen noch nicht einmal mehr eine Nummer, um ihre Koordinaten voneinander unterscheiden zu können.
# Bosonen-Zustände sind immer symmetrisch gegen Vertauschung, Fermionenzustände immer antisymmetrisch. Das [[Pauli-Prinzip]] ist automatisch berücksichtigt und die unterschiedlichen [[Quantenstatistik]]en ergeben sich zwangsläufig.
* Der Operator für die Vernichtung eines Teilchens im Zustand ''p'' ist <math>\,a_p</math>. Ein Anwendungsbeispiel: Hier lässt die Vernichtung eines existierenden Teilchens im Vakuum das leere Vakuum zurück, <math>a_p\,a^\dagger_p \vert O \rangle = \vert O \rangle</math>. Der Vernichter ist der zum Erzeuger [[hermitescher Operator#Definitionen|hermitesch adjungierte Operator]]. Dass das so richtig ist, sieht man z. B. beim Ausrechnen der Norm von <math>a^\dagger_p\vert O \rangle</math>, d.h. beim Skalarprodukt mit seinem adjungierten Vektor <math>\langle O \vert a_p </math> :
:: <math>\vert\vert a^\dagger_p \vert O \rangle \vert\vert^2 = \langle O \vert a_p a^\dagger_p \vert O \rangle = \langle O \vert \left(a_p a^\dagger_p \vert O \rangle\right) =\langle O \vert O \rangle = 1</math>
:Für die Vernichtungsoperatoren gelten deshalb dieselben Vertauschungsregeln wie für die Erzeuger. Anwendung eines Vernichters auf den Vakuumzustand ergibt Null (den Nullvektor).
* Der Übergang eines Teilchens vom Zustand ''p'' nach ''k'' wird durch den Operator <math>a^\dagger_k a_p </math> bewerkstelligt. Man vernichtet das Teilchen in ''p'' und erzeugt sich ein neues in ''k'' - sie sind ja identisch. Begriffliche Vorteile:
#Die für Alltagsgegenstände so unvermeidliche Frage, ob nicht jemand den „Betrug“ bemerken könnte, dass ihm mit dem bei ''k'' auftauchenden Teilchen gar nicht das originale Teilchen untergeschoben werden soll, kann gar nicht gestellt werden.
#Die ebenso naheliegende Alltagsfrage, wo das Teilchen während des ''Quantensprungs'' von ''p'' nach ''k'' gewesen sei, kann auch nicht mehr gestellt werden.

* Vernichter ''k'' sind mit Erzeugern ''p'' vertauschbar, außer sie beziehen sich auf denselben Zustand. Dann gilt:

:: <math>a_p a^\dagger_p = +a^\dagger_p a_p + 1</math> für Bosonen („vertauschbar“)
:: <math>a_p a^\dagger_p = -a^\dagger_p a_p + 1</math> für Fermionen („antivertauschbar“)

* Der Operator, der die Anzahl der im Zustand ''p'' anwesenden Teilchen als Eigenwert angibt, ist der Teilchenzahloperator <math>\hat n_p = a^\dagger_p a_p</math>. Er ist gleich für Fermionen und Bosonen. (Für Fermionen hat er keine Eigenwerte außer 0 und 1.)

* Der Zusammenhang eines 1-Teilchenzustands <math>a^\dagger_p \vert O \rangle</math> mit seiner „alten“ [[Wellenfunktion]] <math>\psi_p(\vec r)</math> ergibt sich, indem man sich ein am Ort <math>\vec r</math> lokalisiertes Teilchen erzeugt (Zustand <math>a^\dagger_{\vec r} \vert O \rangle</math> ) und mit <math>a^\dagger_p \vert O \rangle</math> das Skalarprodukt bildet, das ja die Amplitude des einen Zustands im anderen angibt:
:: <math>\psi_p(\vec r) = \langle O \vert a_{\vec r} a^\dagger_p \vert O \rangle</math>

== Mathematische Konstruktion ==
Die entscheidende Arbeit, ''Konfigurationsraum und zweite Quantelung''<ref>[http://www.springerlink.com/content/p210670017185u60/ Konfigurationsraum und zweite Quantelung] - vollständiges Dokument bei springerlink.com</ref>, stammt von dem russischen Physiker [[Wladimir Fock]] aus dem Jahre 1932.

Sei <math>\{ |\phi_j\rangle \}_j</math> eine orthonormale Einteilchen-Basis eines quantenmechanischen Systems (, d. h. ein Satz an [[Wellenfunktion]]en, nach denen sich jede beliebige Einteilchenwellenfunktion entwickeln lässt). Dann ist bekannt, dass sich jede fermionische (bzw. bosonische) Vielteilchen-Wellenfunktion, die ja von Natur aus antisymmetrisch (bzw. symmetrisch) ist, nach [[Determinante (Mathematik)|Determinanten]] (bzw. [[Permanente]]n) bezüglich dieser Einteilchenbasis entwickeln lässt:
Sei <math>\Psi(x_1, \ldots, x_N)</math> antisymmetrisch (<math>x_j = (\mathbf{r}_j, s_j)</math>, z. B. Orts- und Spinkoordinaten eines Elektrons). Dann gibt es komplexe Zahlen <math>c_L \in \mathbb{C}^N</math> (d. h. zu jeder „Konfiguration“ <math>L = (l_1,\ldots,l_N)</math>, worin <math>l_x</math> Index in die Einteilchenbasis ist, gibt es ''N'' komplexe Koeffizienten) mit

<math>\Psi(x_1,\ldots,x_N) = \sum_{L\subset \mathbb{N}, |L|=N, \textrm{ geordnet}} c_L \frac{1}{\sqrt{N}} \det
\left|\left\langle x_j | \phi_{l_k}\right\rangle\right|_{(j,k)} </math><math>= \sum_L \frac{c_L}{\sqrt{N}} \det \begin{pmatrix} \phi_{l_1}(x_1) & \cdots & \phi_{l_N}(x_1) \\ \vdots & \ddots & \vdots \\ \phi_{l_1}(x_N) & \cdots & \phi_{l_N}(x_N)\end{pmatrix}</math>

Man kann also jede Vielteilchen-Wellenfunktion als Linearkombination solcher Determinanten-Zustände darstellen (bzw. entsprechender Permanenten-Zustände im bosonischen Fall). Diese Determinantenzustände sind neben der rein mathematischen Bedeutung als Entwicklungsbasis häufig auch von großer physikalischer Bedeutung, da sich Grundzustands-Wellenfunktionen nicht wechselwirkender Systeme als reine Determinantenzustände (bzw. Permanentenzustände) darstellen lassen.

Der Determinante/Permanente zur Konfiguration <math>L = (l_1,\ldots,l_N)</math> kann man nun die Bezeichnung

<math>| 0, 0, \underbrace{n_1}_{\nwarrow l_1\textrm{te Stelle}}, 0, 0, 0, \underbrace{n_2}_{\nwarrow l_{1+n_1}\textrm{te Stelle}}, \ldots \rangle</math>

zuordnen, mit <math>n_1 = </math> Anzahl Vorkommen des Wertes von <math>l_1</math> in <math>L</math>, <math>n_2 = </math> Anzahl Vorkommen des Wertes von <math>l_2</math> in <math>L</math>, …. Die Werte <math>n_j</math> nennt man ''Besetzungszahlen'' der zugehörigen Basiszustände. Die Besetzungszahlen können bei Fermionen nur 1 oder 0 sein, da sonst die Determinante verschwinden würde (zwei gleiche Spalten).

In dieser Bezeichnungsweise ist also die allgemeine Darstellung eines N-Teilchen Vielteilchenzustands <math>|\Psi\rangle</math>:

<math>|\Psi\rangle = \sum_{n_1, n_2, \ldots = 0; n_1+n_2+\ldots=N}^{1 \textrm{\,bzw.\,}\infty}c_{n_1,\ldots,n_\infty} |n_1, n_2, \ldots, n_\infty\rangle</math>

die ''Besetzungszahldarstellung''. Der antisymmetrische bzw. symmetrische N-Teilchen-Hilbertraum <math>\mathcal H_N</math> wird also durch diese Zustände <math>|n_1, n_2, \ldots\rangle</math> mit <math>\sum n_j = N</math> aufgespannt. Es liegt nun nahe, einen allgemeineren Raum namens Fockraum einzuführen, der durch die <math>|n_1, n_2, \ldots\rangle</math>-Zustände mit beliebiger endlicher Teilchenzahl aufgespannt wird:

<math>F := \textrm{clin}\{ |n_1, n_2, \ldots\rangle;\; \sum n_j\, \textrm{endl.} \} = \bigoplus_N \mathcal H_N</math>.

Da sich Operatoren unabhängig von der konkreten Teilchenzahl darstellen lassen (s.u.), ist diese Konstruktion sinnvoll. In diesem Raum sind Zustände unbestimmter Teilchenzahl enthalten ([[Linearkombination]] von Zuständen verschiedener bestimmter Teilchenzahlen). In ihm wird Vielteilchentheorie normalerweise betrieben.

Einzelne Determinantenzustände, die wie schon gesagt z. B. besondere Zustände eines wechselwirkungsfreien Systems sein könnten, kann man in der Form <math>|\Psi\rangle = |n_1, n_2, \ldots\rangle</math> eindeutig angeben, wenn man dazu sagt, auf welche Einteilchenbasis man sich bezieht.

Siehe dazu auch: [[Slater-Determinante]]

== [[Erzeugungs- und Vernichtungsoperator|Erzeugungs-, Vernichtungs-]] und Teilchenzahloperatoren ==

Man führt nun, zunächst recht willkürlich, neue Operatoren ein, die Teilchen im Basiszustand <math>j\equiv|\phi_j\rangle</math>„erzeugen“ bzw. „vernichten“ (d. h. die entsprechende Besetzungszahl erhöhen oder verringern):

Definition (auf der Basis des Zustandsraumes, auf dem Rest durch lineare Fortsetzung):

*Im bosonischen Fall

<math>
c_j^\dagger: H_N^S \rightarrow H_{N+1}^S,\quad c_j^\dagger | \ldots n_j \ldots \rangle := \sqrt{n_j+1} |\ldots n_j+1 \ldots \rangle</math>

<math>
c_j: H_N^S \rightarrow H_{N-1}^S,\quad c_j | \ldots n_j \ldots \rangle := \sqrt{n_j} |\ldots n_j-1 \ldots \rangle
</math>

*Im fermionischen Fall

<math>
c_j^\dagger: H_N^A \rightarrow H_{N+1}^A,\quad c_j^\dagger | \ldots n_j \ldots \rangle := (-1)^{\sum_{i<j}n_i}\;(1-n_j) |\ldots \underbrace{n_j+1}_{=1} \ldots \rangle
</math>

<math>
c_j: H_N^A \rightarrow H_{N-1}^A,\quad c_j | \ldots n_j \ldots \rangle := (-1)^{\sum_{i<j}n_i}\; n_j |\ldots \underbrace{n_j-1}_{=0} \ldots \rangle
</math>

Die Vorfaktoren sorgen dabei jeweils für das Nichtauftreten unmöglicher Zustände (z. B. mit Besetzungszahlen < 0 oder > 1 bei Fermionen), für das Wegkapseln der Antisymmetrie bei Fermionen in anderen Ausdrücken und dafür, dass sich die Besetzungszahloperatoren in beiden Fällen als

<math> \hat n_j := c_j^\dagger c_j </math>

ergeben. Nachrechnen zeigt, dass diese Operatoren bei Determinantenzuständen die Besetzungszahlen reproduzieren:

<math> \hat n_j | \ldots, n_j, \ldots\rangle = n_j |\ldots, n_j,\ldots\rangle </math>.

=== Vertauschungsrelationen ===
Für die so konstruierten Operatoren gelten im fermionischen Fall die Antivertauschungsrelationen

<math> \{c_i, c_j^\dagger\} = \delta_{ij} \qquad \{c_i, c_j\} = 0 \qquad \{c_i^\dagger, c_j^\dagger\} = 0, </math>

wobei <math>\{A,B\}:= AB+BA</math> den [[Kommutator (Mathematik)#Antikommutator|Antikommutator]] bedeutet.

Im bosonischen Fall gelten die Vertauschungsrelationen

<math> [c_i, c_j^\dagger] = \delta_{ij} \qquad [c_i, c_j] = 0 \qquad [c_i^\dagger, c_j^\dagger] = 0.</math>

Darin ist <math>[A,B] := AB-BA</math> der [[Kommutator (Mathematik)|Kommutator]].

== Ein- und Zweiteilchenoperatoren ==
Es lässt sich zeigen, dass sich sämtliche linearen Operatoren auf dem Fockraum als Linearkombination von Polynomen in den Erzeugungs/Vernichtungsoperatoren darstellen lassen. Darin liegt ein wesentlicher Aspekt ihrer Wichtigkeit. Besonders bedeutend sind dabei die sogenannten Einteilchen- bzw. Zweiteilchen-Operatoren, die ihrem Namen nach entweder [[Observable]]n einzelner Teilchen repräsentieren (z. B. kinetische Energie, Position, Spin) oder Wechselwirkungen zwischen zwei Teilchen (z. B. [[Coulomb-Wechselwirkung]] zwischen zwei Elektronen).

Es ergeben sich dabei einfache Ausdrücke: Sei

<math>A = \sum_\alpha h_\alpha \,</math>

ein Einteilchen-Operator (d. h. jedes <math>h_\alpha \,</math> wirkt nur auf die Koordinaten des <math>\alpha\,</math>-ten Teilchens, von der Struktur her sind die <math>h_\alpha \,</math>s aber alle gleich), so ergibt sich (durch Ausrechnen):

<math>A = \sum_\alpha h_\alpha = \sum_{i,j} \langle i|h|j\rangle c_i^\dagger c_j = \sum_{i,j} \langle \phi_i|h|\phi_j\rangle c_i^\dagger c_j </math>

wobei <math>\langle i|h|j\rangle</math> das Matrixelement des Einteilchenoperators ist, aus dem sich die <math>h_i \,</math> ergeben, gebildet mit den Basiszuständen <math>|\phi_j\rangle</math>, bezüglich denen quantisiert wurde.
Für Zweiteilchenoperatoren ergibt sich analog:

<math>A = \sum_{\alpha,\beta\neq\alpha} w(\alpha,\beta) = \sum_{i,j,k,l} \langle ij|w|lk\rangle c_i^\dagger c_j^\dagger c_k c_l </math><math>= \sum_{i,j,k,l} \langle \phi_i^{(1)} \phi_j^{(2)}|w(1,2)|\phi_l^{(1)}\phi_k^{(2)}\rangle c_i^\dagger c_j^\dagger c_k c_l </math>.

Bei den Ausdrücken handelt es sich um echte Gleichheit der Operatoren, so lange sie auf eine feste Teilchenzahl bezogen sind. Man sieht aber, dass die zweitquantisierte Form der Operatoren die Teilchenzahl nicht mehr explizit enthält. Die zweitquantisierten Operatoren nehmen in Systemen verschiedener Teilchenzahl also jeweils dieselbe Form an.

=== Konkrete Beispiele ===
==== Einteilchen-Operatoren ====
Teilchendichte in Zweitquantisierung bezüglich Impulsbasis (diskrete Impulsbasis, endliches Volumen mit [[periodische Randbedingung|periodischen Randbedingungen]]):

<math>\rho(r) = \sum_{\alpha=1}^N \delta(r - \hat x_\alpha)
</math>

<math>\qquad = \sum_{k,k'} \langle k| \delta(r-\hat x) | k' \rangle c^\dagger_k c_{k'}
</math>

<math>\qquad =\sum_{k,k'} \int_{x \in V} \mathrm{d}^3x\, \langle k| \delta(r-\hat x) |x\rangle\langle x |\,| k' \rangle c^\dagger_k c_{k'}
</math>

<math>\qquad =\sum_{k,k'} \int_{x \in V} \mathrm{d}^3x\, \langle k|x\rangle \delta(r-x) \langle x | k' \rangle c^\dagger_k c_{k'}
</math>

<math>\qquad =\sum_{k,k'} \int_{x \in V} \mathrm{d}^3x\, \frac{1}{V} e^{i(k'-k)x} \delta(r - x) c^\dagger_k c_{k'}
</math>

<math>\qquad =\sum_{k,k'} \frac{1}{V} e^{i (k'-k) r} c^\dagger_k c_{k'}
</math>

<math>\qquad = \frac{1}{V} \sum_{k,q} e^{iqr}c^\dagger_k c_{k + q}
</math>

==== Coulomb-Wechselwirkung ====
In Zweitquantisierung bezüglich (diskreter) Impulsbasis.

<math>W_\textrm{Coul.} = \frac{1}{2} \sum_{\alpha,\alpha\neq\beta} \frac{e^2}{|\mathbf{r_\alpha - r_\beta|}} =
\frac{1}{2V} \sum_{q\neq 0,k_1,\sigma_1,k_2,\sigma_2} \frac{4\pi e^2}{q^2} c^\dagger_{k_1,\sigma_1} c^\dagger_{k_2,\sigma_2} c_{k_2-q,\sigma_2} c_{k_1+q,\sigma_1}
</math>
====Supraleitung====
Die Zweite Quantisierung ermöglicht mit der Fock-Darstellung auch die explizite Berücksichtigung von Zuständen, die ''keine''  Eigenzustände des Teichenzahloperators <math>\hat N=\sum_{k,\sigma} c_{k,\sigma}^\dagger c_{k,\sigma}</math> sind. Solche Zustände spielen in der Theorie der [[Supraleitung]] eine große Rolle.

== Transformation zwischen Einteilchenbasen ==
Erzeugungs- und Vernichtungsoperatoren bezüglich einer gegebenen Einteilchenbasis <math>|i\rangle</math> lassen sich durch entsprechende Operatoren bezüglich einer anderen Einteilchenbasis <math>|\alpha\rangle</math> ausdrücken:

<math>c_i^\dagger = \sum_\alpha \langle \alpha|i \rangle c^\dagger_\alpha</math>

<math>c_i = \sum_\alpha \langle i|\alpha \rangle c_\alpha.</math>

Durch diese Beziehungen ist es möglich, einen [[Basiswechsel]] im Fockraum durchzuführen und somit gegebene Ausdrücke auf für die gerade anliegende Situation besser geeignete Formen zu transformieren. Auf ähnliche Art werden aus den Erzeugungs-/Vernichtungs-Operatoren für diskrete Einteilchenbasen auch [[Feldoperator]]en bezüglich kontinuierlicher Orts- bzw. Impulsbasen erzeugt, wie sie vor allem in den [[Quantenfeldtheorie]]n verwendet werden.

== Verallgemeinerung: Relativistische Quantenfeldtheorien ==
Als Verallgemeinerung entstehen, wie in der Fußnote <ref name="relativistische QFT">Man kann die ''Zweite Quantisierung'' auch als ''[[Quantenfeldtheorie#Feldquantisierung|Feldquantisierung]]'' eines bestimmten, mit der Schrödingergleichung kompatiblen klassischen Feldes, des sog. „Schrödinger-Feldes“, formulieren. Statt der Schrödingergleichung kann man auch ''relativistische'' klassische, zur Quantentheorie kompatible Gleichungen bzw. deren Feldtheorien behandeln. Die resultierenden Gleichungen wären z. B. in der Struktur analog zu denen der [[Maxwellsche Gleichungen|Maxwellschen Theorie]] und müssen in den Spezialfällen des Schrödingerfeldes oder der sog. [[Quantenelektrodynamik|QED]] oder [[Quantenchromodynamik|QCD]] u.a. die Maxwellsche Feldenergie als Beitrag zur Potentiellen Energie der Elektronen enthalten, in deren kinetischer Energie aber auch die [[Plancksche Konstante]] ''h'' als Feldparameter. Es entstehen so anstelle der nicht-relativistischen [[Vielteilchentheorie]] relativistische [[Quantenfeldtheorie]]n.</ref> angedeutet, anstelle der nicht-relativistischen [[Vielteilchentheorie]] relativistische [[Quantenfeldtheorie]]n.

== Literatur ==
* Alexander Altland, Ben Simons: ''Condensed matter field theory'', Cambridge Univ. Press, 2009, ISBN 978-0-521-84508-3
* Eugen Fick: ''Einführung in die Grundlagen der Quantentheorie'', Wiesbaden, 1988, ISBN 3-89104-472-0
* Wolfgang Nolting: ''Grundkurs theoretische Physik'', Band 7: ''Vielteilchenphysik'', Berlin u.a., 2009, ISBN 978-3-642-01605-9
* Franz Schwabl: ''Quantenmechanik für Fortgeschrittene (QM II)'', Berlin u.a., 2008, ISBN 978-3-540-85075-5

== Einzelnachweise und Fußnoten ==
<references />

[[Kategorie:Quantenfeldtheorie]]
[[Kategorie:Statistische Physik]]
[[Kategorie:Festkörperphysik]]

[[en:Canonical quantization]]
[[es:Segunda cuantización]]
[[fr:Seconde quantification]]
[[it:Seconda quantizzazione]]
[[ja:第二量子化]]
[[ko:정준 양자화]]
[[ru:Вторичное квантование]]
[[uk:Вторинне квантування ферміонів]]
[[zh:正則量子化]]

Benutzer:Mathmon/Zweite Quantisierung

2012-10-09T12:52:02Z

Mathmon: AZ: Die Seite wurde neu angelegt: Die '''Zweite Quantisierung''' (oft auch ''Zweite Quantelung'' oder ''Feldquantisierung'' genannt) ist…

Die '''Zweite Quantisierung''' (oft auch ''Zweite Quantelung'' oder ''Feldquantisierung'' genannt) ist eine Methode zur [[Quantenmechanik|quantenmechanischen]] Behandlung von [[Vielteilchentheorie|Vielteilchenproblemen]], insbesondere auch der Prozesse, bei denen Teilchen entstehen oder vernichtet werden. Sie wurde kurz nach der Entdeckung der Quantenmechanik (siehe [[Erste Quantisierung]]) entwickelt, um auch Photonen und deren Erzeugung und Vernichtung quantenmechanisch beschreiben zu können. Die Photonen erscheinen in der Zweiten Quantisierung als die Feldquanten des quantisierten elektromagnetischen Felds, was auf den zweiten angegebenen Namen führte. Als in den 1930er Jahren entdeckt wurde, dass auch „materielle“ Teilchen erzeugt und vernichtet werden können, wurde der Anwendungsbereich der Methode auf alle Teilchen ausgedehnt. Damit war in der Physik der anschauliche Gegensatz zwischen [[Welle-Teilchen-Dualismus|Teilchen und Wellen]] in seiner früheren grundsätzlichen Bedeutung aufgehoben.

Die Zweite Quantisierung wird im Bereich der [[Festkörperphysik]], der [[Quantenfeldtheorie]] und anderen Vielteilchentheorien angewandt. Sie ist häufig der angemessenste Rahmen, um physikalische Probleme theoretisch zu behandeln.

== Vielteilchensysteme in der Quantenmechanik ==

=== Hilbertraum und Zustände ===

In der Vielteilchentheorien betrachtet man <math>N</math> verschiedene Teilchen, welche man von <math>1</math> bis
<math>N</math> durchnummeriert. Zu jedem Teilchen gehört ein Hilbertraum <math>\mathcal{H}^{(i)}</math>, welcher die
möglichen Zustände des <math>i</math>-ten Teilchens enthält. Der Hilbertraum des Gesamtsystems ist gegeben als das
Tensorprodukt der einzelnen Hilberträume:

:<math>
\mathcal{H} = \mathcal{H}^{(1)} \otimes \mathcal{H}^{(2)} \otimes \ldots \otimes \mathcal{H}^{(N)}
</math>

Falls <math>\{ \vert \alpha_i \rangle \}</math> eine Basis des Raumes <math>\mathcal{H}^{(i)}</math> ist, so lässt
sich eine Basis des gesamtes Hilbertraumes konstruieren als

:<math>
\{ \vert \alpha_1 \rangle \otimes \vert \alpha_2 \rangle \otimes \ldots \otimes \vert \alpha_N \rangle \}
=: \vert \alpha_1 \alpha_2 \ldots \alpha_N \rangle
</math>

Ein beliebiger Zustand <math>\vert \Psi \rangle \in \mathcal{H}</math> lässt sich somit schreiben als

:<math>
\vert \Psi \rangle = \sum_ {\alpha_1, \ldots, \alpha_N} c_{\alpha_1, \ldots, \alpha_N} \cdot
\vert \alpha_1 \ldots \alpha_N \rangle
</math>

Eine anschauliche Interpretation eines solchen Zustandes erhält man beispielsweise durch dessen
Projektion auf den Ortsraum:

:<math>
\langle x_1 ,\ldots, x_N \vert \Psi \rangle = \Psi(x_1, \ldots, x_N)
</math>

Ein Vielteilchenzustand im Ortsraum ist also eine Funktion, die von <math>N</math> verschiedenen Koordinaten
abhängt. Die [[Wellenfunktion#Teilcheninterpretation|Teilcheninterpretation]] ist analog zu der Interpretation
im Fall <math>N=1</math>: Die Wahrscheinlichkeit, das erste Teilchen im Volumen <math>V_1</math> anzutreffen,
das zweite in <math>V_2</math> und so weiter ist gegeben durch

:<math>
\int_{V_1} \int_{V_2} \cdots \int_{V_N} \vert \Psi(x_1, \ldots, x_N) \vert^2 \mathrm dx_N \ldots \mathrm dx_2 \mathrm dx_1
</math>

In diesem Fall fordert man natürlich die korrekte Normierung der Wellenfunktion:

:<math>
\int_{\mathbb{R}^d} \int_{\mathbb{R}^d} \cdots \int_{\mathbb{R}^d}
\vert \Psi(x_1, \ldots, x_N) \vert^2 \mathrm dx_N \ldots \mathrm dx_2 \mathrm dx_1
\,\stackrel{!}{=}\, 1
</math>

Liegt ein Zustand der Form <math>\vert \alpha_1 \ldots \alpha_N \rangle</math> vor, so hat die Wellenfunktion
im Ortsraum die Gestalt

:<math>
\langle x_1 ,\ldots, x_N \vert \alpha_1 \ldots \alpha_N \rangle =
\alpha_1(x_1) \cdot \alpha_2(x_2) \cdot \ldots \cdot \alpha_N(x_N)
</math>

In diesem Fall vereinfacht sich die Berechnung der Aufenthaltswahrscheinlichkeit, da das Integral in ein
Produkt zerfällt:

:<math>
\int_{V_1} \int_{V_2} \cdots \int_{V_N} \vert \Psi(x_1, \ldots, x_N) \vert^2 \mathrm dx_N \ldots \mathrm dx_2 \mathrm dx_1
= \left( \int_{V_1} \vert \alpha_1(x_1) \vert^2 \mathrm dx_1 \right) \cdot
\left( \int_{V_2} \vert \alpha_1(x_2) \vert^2 \mathrm dx_2 \right) \ldots
\left( \int_{V_N} \vert \alpha_1(x_N) \vert^2 \mathrm dx_N \right)
</math>

Einen Zustand, welcher in dieser Form vorliegt, bezeichnet man als ''reinen'' oder ''separablen'' Zustand,
während ein jeglicher
anderer Zustand als ''gemischt'' oder ''verschränkt'' bezeichnet wird. Bei einem reinen Zustand sind die
Aufenthaltswahrscheinlichkeiten also unabhängig voneinander, während bei einem verschränkten Zustand die
Aufenthaltswahrscheinlichkeit jedes Teilchens von den Aufenthaltswahrscheinlichkeiten aller anderen Teilchen
abhängt.

=== Operatoren ===

Ein Operator <math>\hat A</math> eines Vielteilchensystems ist ein Funktional
<math>\hat A : \mathcal{H} \mapsto \mathcal{H}</math>. Eine Besonderheit sind hier Operatoren aus
den einzelnen Räumen <math>\mathcal{H}^{(i)}</math>: Diese werden durch Tensorprodukte zu Operatoren
des Raumes <math>\mathcal{H}</math> gemacht. Beispielsweise wird der Ortsoperator <math> \hat x_1</math> zu

:<math>
\hat x_1 \otimes \mathbb{1}_2 \otimes \ldots \otimes \mathbb{1}_N
</math>

Dabei bezeichnet <math>\mathbb{1}_i</math> die [[Identische Abbildung|identische Abbildung]] im Raum
<math>\mathcal{H}^{(i)}</math>. Aus Gründen der Notation schreibt man die identischen Abbildungen im
Allgemeinen nicht mit.

Die Dynamik eines Vielteilchensystems wird weiterhin durch die [[Schrödingergleichung]] beschrieben:

:<math>
\mathrm{i} \hbar \frac{\partial}{\partial t} |\,\psi (t) \rangle
= \hat{H}(\hat x_1, \ldots, \hat x_N, \hat p_1, \ldots, \hat p_N, t) |\,\psi (t) \rangle
</math>

Der [[Hamiltonoperator]] hängt im allgemeinen Fall von sämtlichen Orts- und Impulsoperatoren sowie von der Zeit
ab. Ein Beispiel für wechselwirkende Teilchen ist gegeben durch

:<math>
\hat{H} = \sum_{i=1}^{N} \frac{\hat p_i^2}{2 m_i} + \sum_{i \neq j}^N \hat V (\hat x_i, \hat x_j, t)
</math>

== Grundbegriffe ==
Kurze Zusammenstellung einiger der wesentlichen neuen Begriffe und ihrer unmittelbaren Folgen:
* Der [[Zustand (Quantenmechanik)|Zustand]] des betrachteten Systems wird wie in der gewöhnlichen Quantenmechanik durch einen normierten Vektor in einem [[Hilbertraum]] angegeben, der aber jetzt [[Fockraum]] genannt wird, weil er Zustände mit unterschiedlichen Teilchenzahlen enthält.
* Es gibt einen Zustand ohne jedes Teilchen, das absolute [[Vakuum]], Symbol <math>\vert O\rangle</math>.
:: (Der Vakuumzustand ist normiert, <math>\langle O\vert O\rangle=1</math>, darf also nicht mit dem [[Nullvektor]] verwechselt werden.)
* Es gibt für jede Teilchenart einen Erzeugungsoperator, der es in einem definierten Zustand in die Welt setzt, Symbol <math>a^\dagger</math> (für eine andere Teilchenart <math>b^\dagger</math> etc.). Der 1-Teilchenzustand mit einem Teilchen im Zustand ''p'' ist dann gegeben durch <math>a^\dagger_p \vert O \rangle</math>. Der 2-Teilchenzustand mit einem zweiten Teilchen gleicher Art, aber im Zustand ''k'', ist dann gegeben durch nochmaliges Anwenden des Erzeugers: <math>a^\dagger_k a^\dagger_p \vert O \rangle</math>. Für weitere Teilchen entsprechend weitere Erzeugungsoperatoren.
* Da die „a“-Teilchen unter sich identisch sind, darf bei einer Vertauschung in der Reihenfolge der Erzeugung kein anderer Zustand herauskommen. Allenfalls muss sich das Vorzeichen ändern. Das wird gewährleistet durch die Bedingungen
:: <math>a^\dagger_k a^\dagger_p = +a^\dagger_p a^\dagger_k</math> für [[Boson]]en („vertauschbar“)
:: <math>a^\dagger_k a^\dagger_p = -a^\dagger_p a^\dagger_k</math> für [[Fermion]]en („antivertauschbar“).
:Erzeuger verschiedener Teilchenarten sind immer vertauschbar. Damit ist schon früh im Formalismus zweierlei erreicht:
# Die [[Ununterscheidbare Teilchen|''absolute'' Ununterscheidbarkeit]] gleicher Teilchen ist eingebaut. Die Teilchen bekommen noch nicht einmal mehr eine Nummer, um ihre Koordinaten voneinander unterscheiden zu können.
# Bosonen-Zustände sind immer symmetrisch gegen Vertauschung, Fermionenzustände immer antisymmetrisch. Das [[Pauli-Prinzip]] ist automatisch berücksichtigt und die unterschiedlichen [[Quantenstatistik]]en ergeben sich zwangsläufig.
* Der Operator für die Vernichtung eines Teilchens im Zustand ''p'' ist <math>\,a_p</math>. Ein Anwendungsbeispiel: Hier lässt die Vernichtung eines existierenden Teilchens im Vakuum das leere Vakuum zurück, <math>a_p\,a^\dagger_p \vert O \rangle = \vert O \rangle</math>. Der Vernichter ist der zum Erzeuger [[hermitescher Operator#Definitionen|hermitesch adjungierte Operator]]. Dass das so richtig ist, sieht man z. B. beim Ausrechnen der Norm von <math>a^\dagger_p\vert O \rangle</math>, d.h. beim Skalarprodukt mit seinem adjungierten Vektor <math>\langle O \vert a_p </math> :
:: <math>\vert\vert a^\dagger_p \vert O \rangle \vert\vert^2 = \langle O \vert a_p a^\dagger_p \vert O \rangle = \langle O \vert \left(a_p a^\dagger_p \vert O \rangle\right) =\langle O \vert O \rangle = 1</math>
:Für die Vernichtungsoperatoren gelten deshalb dieselben Vertauschungsregeln wie für die Erzeuger. Anwendung eines Vernichters auf den Vakuumzustand ergibt Null (den Nullvektor).
* Der Übergang eines Teilchens vom Zustand ''p'' nach ''k'' wird durch den Operator <math>a^\dagger_k a_p </math> bewerkstelligt. Man vernichtet das Teilchen in ''p'' und erzeugt sich ein neues in ''k'' - sie sind ja identisch. Begriffliche Vorteile:
#Die für Alltagsgegenstände so unvermeidliche Frage, ob nicht jemand den „Betrug“ bemerken könnte, dass ihm mit dem bei ''k'' auftauchenden Teilchen gar nicht das originale Teilchen untergeschoben werden soll, kann gar nicht gestellt werden.
#Die ebenso naheliegende Alltagsfrage, wo das Teilchen während des ''Quantensprungs'' von ''p'' nach ''k'' gewesen sei, kann auch nicht mehr gestellt werden.

* Vernichter ''k'' sind mit Erzeugern ''p'' vertauschbar, außer sie beziehen sich auf denselben Zustand. Dann gilt:

:: <math>a_p a^\dagger_p = +a^\dagger_p a_p + 1</math> für Bosonen („vertauschbar“)
:: <math>a_p a^\dagger_p = -a^\dagger_p a_p + 1</math> für Fermionen („antivertauschbar“)

* Der Operator, der die Anzahl der im Zustand ''p'' anwesenden Teilchen als Eigenwert angibt, ist der Teilchenzahloperator <math>\hat n_p = a^\dagger_p a_p</math>. Er ist gleich für Fermionen und Bosonen. (Für Fermionen hat er keine Eigenwerte außer 0 und 1.)

* Der Zusammenhang eines 1-Teilchenzustands <math>a^\dagger_p \vert O \rangle</math> mit seiner „alten“ [[Wellenfunktion]] <math>\psi_p(\vec r)</math> ergibt sich, indem man sich ein am Ort <math>\vec r</math> lokalisiertes Teilchen erzeugt (Zustand <math>a^\dagger_{\vec r} \vert O \rangle</math> ) und mit <math>a^\dagger_p \vert O \rangle</math> das Skalarprodukt bildet, das ja die Amplitude des einen Zustands im anderen angibt:
:: <math>\psi_p(\vec r) = \langle O \vert a_{\vec r} a^\dagger_p \vert O \rangle</math>

== Mathematische Konstruktion ==
Die entscheidende Arbeit, ''Konfigurationsraum und zweite Quantelung''<ref>[http://www.springerlink.com/content/p210670017185u60/ Konfigurationsraum und zweite Quantelung] - vollständiges Dokument bei springerlink.com</ref>, stammt von dem russischen Physiker [[Wladimir Fock]] aus dem Jahre 1932.

Sei <math>\{ |\phi_j\rangle \}_j</math> eine orthonormale Einteilchen-Basis eines quantenmechanischen Systems (, d. h. ein Satz an [[Wellenfunktion]]en, nach denen sich jede beliebige Einteilchenwellenfunktion entwickeln lässt). Dann ist bekannt, dass sich jede fermionische (bzw. bosonische) Vielteilchen-Wellenfunktion, die ja von Natur aus antisymmetrisch (bzw. symmetrisch) ist, nach [[Determinante (Mathematik)|Determinanten]] (bzw. [[Permanente]]n) bezüglich dieser Einteilchenbasis entwickeln lässt:
Sei <math>\Psi(x_1, \ldots, x_N)</math> antisymmetrisch (<math>x_j = (\mathbf{r}_j, s_j)</math>, z. B. Orts- und Spinkoordinaten eines Elektrons). Dann gibt es komplexe Zahlen <math>c_L \in \mathbb{C}^N</math> (d. h. zu jeder „Konfiguration“ <math>L = (l_1,\ldots,l_N)</math>, worin <math>l_x</math> Index in die Einteilchenbasis ist, gibt es ''N'' komplexe Koeffizienten) mit

<math>\Psi(x_1,\ldots,x_N) = \sum_{L\subset \mathbb{N}, |L|=N, \textrm{ geordnet}} c_L \frac{1}{\sqrt{N}} \det
\left|\left\langle x_j | \phi_{l_k}\right\rangle\right|_{(j,k)} </math><math>= \sum_L \frac{c_L}{\sqrt{N}} \det \begin{pmatrix} \phi_{l_1}(x_1) & \cdots & \phi_{l_N}(x_1) \\ \vdots & \ddots & \vdots \\ \phi_{l_1}(x_N) & \cdots & \phi_{l_N}(x_N)\end{pmatrix}</math>

Man kann also jede Vielteilchen-Wellenfunktion als Linearkombination solcher Determinanten-Zustände darstellen (bzw. entsprechender Permanenten-Zustände im bosonischen Fall). Diese Determinantenzustände sind neben der rein mathematischen Bedeutung als Entwicklungsbasis häufig auch von großer physikalischer Bedeutung, da sich Grundzustands-Wellenfunktionen nicht wechselwirkender Systeme als reine Determinantenzustände (bzw. Permanentenzustände) darstellen lassen.

Der Determinante/Permanente zur Konfiguration <math>L = (l_1,\ldots,l_N)</math> kann man nun die Bezeichnung

<math>| 0, 0, \underbrace{n_1}_{\nwarrow l_1\textrm{te Stelle}}, 0, 0, 0, \underbrace{n_2}_{\nwarrow l_{1+n_1}\textrm{te Stelle}}, \ldots \rangle</math>

zuordnen, mit <math>n_1 = </math> Anzahl Vorkommen des Wertes von <math>l_1</math> in <math>L</math>, <math>n_2 = </math> Anzahl Vorkommen des Wertes von <math>l_2</math> in <math>L</math>, …. Die Werte <math>n_j</math> nennt man ''Besetzungszahlen'' der zugehörigen Basiszustände. Die Besetzungszahlen können bei Fermionen nur 1 oder 0 sein, da sonst die Determinante verschwinden würde (zwei gleiche Spalten).

In dieser Bezeichnungsweise ist also die allgemeine Darstellung eines N-Teilchen Vielteilchenzustands <math>|\Psi\rangle</math>:

<math>|\Psi\rangle = \sum_{n_1, n_2, \ldots = 0; n_1+n_2+\ldots=N}^{1 \textrm{\,bzw.\,}\infty}c_{n_1,\ldots,n_\infty} |n_1, n_2, \ldots, n_\infty\rangle</math>

die ''Besetzungszahldarstellung''. Der antisymmetrische bzw. symmetrische N-Teilchen-Hilbertraum <math>\mathcal H_N</math> wird also durch diese Zustände <math>|n_1, n_2, \ldots\rangle</math> mit <math>\sum n_j = N</math> aufgespannt. Es liegt nun nahe, einen allgemeineren Raum namens Fockraum einzuführen, der durch die <math>|n_1, n_2, \ldots\rangle</math>-Zustände mit beliebiger endlicher Teilchenzahl aufgespannt wird:

<math>F := \textrm{clin}\{ |n_1, n_2, \ldots\rangle;\; \sum n_j\, \textrm{endl.} \} = \bigoplus_N \mathcal H_N</math>.

Da sich Operatoren unabhängig von der konkreten Teilchenzahl darstellen lassen (s.u.), ist diese Konstruktion sinnvoll. In diesem Raum sind Zustände unbestimmter Teilchenzahl enthalten ([[Linearkombination]] von Zuständen verschiedener bestimmter Teilchenzahlen). In ihm wird Vielteilchentheorie normalerweise betrieben.

Einzelne Determinantenzustände, die wie schon gesagt z. B. besondere Zustände eines wechselwirkungsfreien Systems sein könnten, kann man in der Form <math>|\Psi\rangle = |n_1, n_2, \ldots\rangle</math> eindeutig angeben, wenn man dazu sagt, auf welche Einteilchenbasis man sich bezieht.

Siehe dazu auch: [[Slater-Determinante]]

== [[Erzeugungs- und Vernichtungsoperator|Erzeugungs-, Vernichtungs-]] und Teilchenzahloperatoren ==

Man führt nun, zunächst recht willkürlich, neue Operatoren ein, die Teilchen im Basiszustand <math>j\equiv|\phi_j\rangle</math>„erzeugen“ bzw. „vernichten“ (d. h. die entsprechende Besetzungszahl erhöhen oder verringern):

Definition (auf der Basis des Zustandsraumes, auf dem Rest durch lineare Fortsetzung):

*Im bosonischen Fall

<math>
c_j^\dagger: H_N^S \rightarrow H_{N+1}^S,\quad c_j^\dagger | \ldots n_j \ldots \rangle := \sqrt{n_j+1} |\ldots n_j+1 \ldots \rangle</math>

<math>
c_j: H_N^S \rightarrow H_{N-1}^S,\quad c_j | \ldots n_j \ldots \rangle := \sqrt{n_j} |\ldots n_j-1 \ldots \rangle
</math>

*Im fermionischen Fall

<math>
c_j^\dagger: H_N^A \rightarrow H_{N+1}^A,\quad c_j^\dagger | \ldots n_j \ldots \rangle := (-1)^{\sum_{i<j}n_i}\;(1-n_j) |\ldots \underbrace{n_j+1}_{=1} \ldots \rangle
</math>

<math>
c_j: H_N^A \rightarrow H_{N-1}^A,\quad c_j | \ldots n_j \ldots \rangle := (-1)^{\sum_{i<j}n_i}\; n_j |\ldots \underbrace{n_j-1}_{=0} \ldots \rangle
</math>

Die Vorfaktoren sorgen dabei jeweils für das Nichtauftreten unmöglicher Zustände (z. B. mit Besetzungszahlen < 0 oder > 1 bei Fermionen), für das Wegkapseln der Antisymmetrie bei Fermionen in anderen Ausdrücken und dafür, dass sich die Besetzungszahloperatoren in beiden Fällen als

<math> \hat n_j := c_j^\dagger c_j </math>

ergeben. Nachrechnen zeigt, dass diese Operatoren bei Determinantenzuständen die Besetzungszahlen reproduzieren:

<math> \hat n_j | \ldots, n_j, \ldots\rangle = n_j |\ldots, n_j,\ldots\rangle </math>.

=== Vertauschungsrelationen ===
Für die so konstruierten Operatoren gelten im fermionischen Fall die Antivertauschungsrelationen

<math> \{c_i, c_j^\dagger\} = \delta_{ij} \qquad \{c_i, c_j\} = 0 \qquad \{c_i^\dagger, c_j^\dagger\} = 0, </math>

wobei <math>\{A,B\}:= AB+BA</math> den [[Kommutator (Mathematik)#Antikommutator|Antikommutator]] bedeutet.

Im bosonischen Fall gelten die Vertauschungsrelationen

<math> [c_i, c_j^\dagger] = \delta_{ij} \qquad [c_i, c_j] = 0 \qquad [c_i^\dagger, c_j^\dagger] = 0.</math>

Darin ist <math>[A,B] := AB-BA</math> der [[Kommutator (Mathematik)|Kommutator]].

== Ein- und Zweiteilchenoperatoren ==
Es lässt sich zeigen, dass sich sämtliche linearen Operatoren auf dem Fockraum als Linearkombination von Polynomen in den Erzeugungs/Vernichtungsoperatoren darstellen lassen. Darin liegt ein wesentlicher Aspekt ihrer Wichtigkeit. Besonders bedeutend sind dabei die sogenannten Einteilchen- bzw. Zweiteilchen-Operatoren, die ihrem Namen nach entweder [[Observable]]n einzelner Teilchen repräsentieren (z. B. kinetische Energie, Position, Spin) oder Wechselwirkungen zwischen zwei Teilchen (z. B. [[Coulomb-Wechselwirkung]] zwischen zwei Elektronen).

Es ergeben sich dabei einfache Ausdrücke: Sei

<math>A = \sum_\alpha h_\alpha \,</math>

ein Einteilchen-Operator (d. h. jedes <math>h_\alpha \,</math> wirkt nur auf die Koordinaten des <math>\alpha\,</math>-ten Teilchens, von der Struktur her sind die <math>h_\alpha \,</math>s aber alle gleich), so ergibt sich (durch Ausrechnen):

<math>A = \sum_\alpha h_\alpha = \sum_{i,j} \langle i|h|j\rangle c_i^\dagger c_j = \sum_{i,j} \langle \phi_i|h|\phi_j\rangle c_i^\dagger c_j </math>

wobei <math>\langle i|h|j\rangle</math> das Matrixelement des Einteilchenoperators ist, aus dem sich die <math>h_i \,</math> ergeben, gebildet mit den Basiszuständen <math>|\phi_j\rangle</math>, bezüglich denen quantisiert wurde.
Für Zweiteilchenoperatoren ergibt sich analog:

<math>A = \sum_{\alpha,\beta\neq\alpha} w(\alpha,\beta) = \sum_{i,j,k,l} \langle ij|w|lk\rangle c_i^\dagger c_j^\dagger c_k c_l </math><math>= \sum_{i,j,k,l} \langle \phi_i^{(1)} \phi_j^{(2)}|w(1,2)|\phi_l^{(1)}\phi_k^{(2)}\rangle c_i^\dagger c_j^\dagger c_k c_l </math>.

Bei den Ausdrücken handelt es sich um echte Gleichheit der Operatoren, so lange sie auf eine feste Teilchenzahl bezogen sind. Man sieht aber, dass die zweitquantisierte Form der Operatoren die Teilchenzahl nicht mehr explizit enthält. Die zweitquantisierten Operatoren nehmen in Systemen verschiedener Teilchenzahl also jeweils dieselbe Form an.

=== Konkrete Beispiele ===
==== Einteilchen-Operatoren ====
Teilchendichte in Zweitquantisierung bezüglich Impulsbasis (diskrete Impulsbasis, endliches Volumen mit [[periodische Randbedingung|periodischen Randbedingungen]]):

<math>\rho(r) = \sum_{\alpha=1}^N \delta(r - \hat x_\alpha)
</math>

<math>\qquad = \sum_{k,k'} \langle k| \delta(r-\hat x) | k' \rangle c^\dagger_k c_{k'}
</math>

<math>\qquad =\sum_{k,k'} \int_{x \in V} \mathrm{d}^3x\, \langle k| \delta(r-\hat x) |x\rangle\langle x |\,| k' \rangle c^\dagger_k c_{k'}
</math>

<math>\qquad =\sum_{k,k'} \int_{x \in V} \mathrm{d}^3x\, \langle k|x\rangle \delta(r-x) \langle x | k' \rangle c^\dagger_k c_{k'}
</math>

<math>\qquad =\sum_{k,k'} \int_{x \in V} \mathrm{d}^3x\, \frac{1}{V} e^{i(k'-k)x} \delta(r - x) c^\dagger_k c_{k'}
</math>

<math>\qquad =\sum_{k,k'} \frac{1}{V} e^{i (k'-k) r} c^\dagger_k c_{k'}
</math>

<math>\qquad = \frac{1}{V} \sum_{k,q} e^{iqr}c^\dagger_k c_{k + q}
</math>

==== Coulomb-Wechselwirkung ====
In Zweitquantisierung bezüglich (diskreter) Impulsbasis.

<math>W_\textrm{Coul.} = \frac{1}{2} \sum_{\alpha,\alpha\neq\beta} \frac{e^2}{|\mathbf{r_\alpha - r_\beta|}} =
\frac{1}{2V} \sum_{q\neq 0,k_1,\sigma_1,k_2,\sigma_2} \frac{4\pi e^2}{q^2} c^\dagger_{k_1,\sigma_1} c^\dagger_{k_2,\sigma_2} c_{k_2-q,\sigma_2} c_{k_1+q,\sigma_1}
</math>
====Supraleitung====
Die Zweite Quantisierung ermöglicht mit der Fock-Darstellung auch die explizite Berücksichtigung von Zuständen, die ''keine''  Eigenzustände des Teichenzahloperators <math>\hat N=\sum_{k,\sigma} c_{k,\sigma}^\dagger c_{k,\sigma}</math> sind. Solche Zustände spielen in der Theorie der [[Supraleitung]] eine große Rolle.

== Transformation zwischen Einteilchenbasen ==
Erzeugungs- und Vernichtungsoperatoren bezüglich einer gegebenen Einteilchenbasis <math>|i\rangle</math> lassen sich durch entsprechende Operatoren bezüglich einer anderen Einteilchenbasis <math>|\alpha\rangle</math> ausdrücken:

<math>c_i^\dagger = \sum_\alpha \langle \alpha|i \rangle c^\dagger_\alpha</math>

<math>c_i = \sum_\alpha \langle i|\alpha \rangle c_\alpha.</math>

Durch diese Beziehungen ist es möglich, einen [[Basiswechsel]] im Fockraum durchzuführen und somit gegebene Ausdrücke auf für die gerade anliegende Situation besser geeignete Formen zu transformieren. Auf ähnliche Art werden aus den Erzeugungs-/Vernichtungs-Operatoren für diskrete Einteilchenbasen auch [[Feldoperator]]en bezüglich kontinuierlicher Orts- bzw. Impulsbasen erzeugt, wie sie vor allem in den [[Quantenfeldtheorie]]n verwendet werden.

== Verallgemeinerung: Relativistische Quantenfeldtheorien ==
Als Verallgemeinerung entstehen, wie in der Fußnote <ref name="relativistische QFT">Man kann die ''Zweite Quantisierung'' auch als ''[[Quantenfeldtheorie#Feldquantisierung|Feldquantisierung]]'' eines bestimmten, mit der Schrödingergleichung kompatiblen klassischen Feldes, des sog. „Schrödinger-Feldes“, formulieren. Statt der Schrödingergleichung kann man auch ''relativistische'' klassische, zur Quantentheorie kompatible Gleichungen bzw. deren Feldtheorien behandeln. Die resultierenden Gleichungen wären z. B. in der Struktur analog zu denen der [[Maxwellsche Gleichungen|Maxwellschen Theorie]] und müssen in den Spezialfällen des Schrödingerfeldes oder der sog. [[Quantenelektrodynamik|QED]] oder [[Quantenchromodynamik|QCD]] u.a. die Maxwellsche Feldenergie als Beitrag zur Potentiellen Energie der Elektronen enthalten, in deren kinetischer Energie aber auch die [[Plancksche Konstante]] ''h'' als Feldparameter. Es entstehen so anstelle der nicht-relativistischen [[Vielteilchentheorie]] relativistische [[Quantenfeldtheorie]]n.</ref> angedeutet, anstelle der nicht-relativistischen [[Vielteilchentheorie]] relativistische [[Quantenfeldtheorie]]n.

== Literatur ==
* Alexander Altland, Ben Simons: ''Condensed matter field theory'', Cambridge Univ. Press, 2009, ISBN 978-0-521-84508-3
* Eugen Fick: ''Einführung in die Grundlagen der Quantentheorie'', Wiesbaden, 1988, ISBN 3-89104-472-0
* Wolfgang Nolting: ''Grundkurs theoretische Physik'', Band 7: ''Vielteilchenphysik'', Berlin u.a., 2009, ISBN 978-3-642-01605-9
* Franz Schwabl: ''Quantenmechanik für Fortgeschrittene (QM II)'', Berlin u.a., 2008, ISBN 978-3-540-85075-5

== Einzelnachweise und Fußnoten ==
<references />

[[Kategorie:Quantenfeldtheorie]]
[[Kategorie:Statistische Physik]]
[[Kategorie:Festkörperphysik]]

[[en:Canonical quantization]]
[[es:Segunda cuantización]]
[[fr:Seconde quantification]]
[[it:Seconda quantizzazione]]
[[ja:第二量子化]]
[[ko:정준 양자화]]
[[ru:Вторичное квантование]]
[[uk:Вторинне квантування ферміонів]]
[[zh:正則量子化]]

Kürzester Pfad

2012-10-07T19:12:05Z

Mathmon: /* Formulierung als lineares Programm */

Ein '''kürzester Pfad''' ist in der [[Graphentheorie]] ein [[Wege, Pfade, Zyklen und Kreise in Graphen|Pfad]] zwischen zwei unterschiedlichen [[Knoten (Graphentheorie)|Knoten]] <math>s,t \in V</math>
eines [[Graph (Graphentheorie)|Graphen]], welcher minimale Länge bezüglich einer
[[Kantengewicht|Gewichtsfunktion]] <math>c : E \to \mathbb{R}</math> hat.
Haben die [[Kante (Graphentheorie)|Kanten]]
im [[Graph (Graphentheorie)|Graphen]] alle das Gewicht 1, ist also <math>c_e \equiv 1 \; \forall e \in E</math>,
so ist der kürzeste Pfad ein <math>s</math>-<math>t</math>-Pfad mit der geringstmöglichen
Anzahl von Kanten zwischen <math>s</math> und <math>t</math>.

In der Literatur<ref>[[Bernhard Korte]], [[Jens Vygen]]: ''Combinatorial Optimization. Theory and Algorithms.'' 4th edition. Springer, Berlin u. a. 2008, ISBN 978-3-540-71844-4 (''Algorithms and Combinatorics'' 21)</ref> wird das Problem oft als ''Shortest Path Problem'' bezeichnet.

== Komplexität ==
Im Allgemeinen ist die Bestimmung eines kürzesten Pfades ein [[NP-Schwere|schweres]] Problem: Das Entscheidungsproblem

„Hat ein Graph einen <math>s</math>-<math>t</math>-Pfad der Länge <math>\leq C</math>?“

ist [[NP-Vollständigkeit|NP-vollständig]],
dementsprechend kann im Allgemeinen auch ein kürzester Pfad [[P-NP-Problem|vermutlich]] nicht in [[Polynomialzeit]]
gefunden werden.
Hat ein Graph einen [[Hamiltonpfadproblem| Hamiltonpfad]], so ist dies ein kürzester <math>s</math>-<math>t</math>-Pfad
bezüglich der Gewichtsfunktion <math>c(e) = -1 \; \forall e \in E</math>.
Auch hier ist schon die Frage nach der Existenz eines solchen Pfades ein {{nowrap|NP-vollständiges}}
Problem.

In vielen Spezialfällen ist die Bestimmung kürzester Pfade in Polynomialzeit trotz der Komplexität des Problems
möglich. Die wichtigste Einschränkung betrifft hier die Gewichtsfunktion:

; konservative Gewichtsfunktion
: Eine Gewichtsfunktion heißt ''konservativ'' für den Graphen <math>G</math>, wenn <math>c(C) = \sum_{e \in C} c(e) \geq 0</math> für alle [[Zyklus (Graphentheorie)|Zyklen]] <math>C</math> von <math>G</math>.

Für konservative Gewichtsfunktionen lassen sich kürzeste Wege in Polynomialzeit bestimmen, hierzu kann zum Beispiel
der [[Bellman-Ford-Algorithmus]] verwendet werden.

Wenn man weiterhin von der Zielfunktion zusätzlich sogar Nichtnegativität verlangt, also
<math>c(e) \geq 0 \; \forall e \in E</math> fordert, so lässt sich das Problem mit dem [[A*-Algorithmus]]
oder dem [[Dijkstra-Algorithmus|Algorithmus von Dijkstra]] noch weitaus schneller lösen.

== Variationen des Problems ==
Abgesehen von der Bestimmung des kürzesten <math>s</math>-<math>t</math>-Pfades gibt es noch einige weitere, jedoch
sehr ähnliche Probleme:

=== Single-source shortest path (SSSP) ===
Diese Variante des Problems der kürzesten Pfade befasst sich mit der Problemstellung wie man die kürzesten Wege zwischen einem gegebenen Startknoten und allen übrigen Knoten eines Graphen berechnet.
Für nichtnegative Gewichtsfunktionen lassen sich der Dijkstra-Algorithmus bzw der A*-Algorithmus leicht so anpassen,
dass die kürzesten Wege zu allen Knoten des Graphs zu berechnen.
Für beliebige konservative Gewichtsfunktionen berechnet der Bellman-Ford-Algorithmus andererseits stets auch die
kürzesten Pfade zu allen anderen Knoten.

=== Single-destination shortest path ===
Ziel ist hier die Bestimmung des kürzesten Pfads zwischen einem Endknoten und allen anderen Knoten des Graphen.
Dieses Problem kann durch eine Umkehrung der Kantenrichtungen als SSSP beschrieben werden.

=== All-pairs shortest path (APSP) ===
In dieser Variante des Problems geht es um die Bestimmung der kürzesten Pfade zwischen allen
Knotenpaaren eines Graphen zu berechnen. Natürlich kann man in diesem Fall für jeden Knoten nacheinander
das SSSP lösen, jedoch sind spezialisierte Verfahren, wie etwa der [[Floyd-Warshall-Algorithmus]] oder
der [[Min-Plus-Matrixmultiplikations-Algorithmus]] erheblich schneller

== Beispiel ==
[[Datei:Prim Algorithm 0.png|200px|thumb|Beispielgraph]]
Im nebenstehend gegebenen Graphen ist ein kürzester Pfad zwischen den Knoten <math>D</math> und <math>C</math> der Pfad, welcher in <math>D</math> startet, und über <math>B</math> nach <math>C</math> geht. Die Pfadkosten betragen hierbei <math>9+8=17</math>.
Will man jedoch einen Pfad von <math>D</math> nach <math>E</math> finden, so ist der direkte Weg mit Kosten von <math>15</math> nicht der kürzestmögliche Pfad, da der Weg von <math>D</math> über <math>F</math> nach <math>E</math> nur Kosten von <math>14=8+6</math> hat.

== Formulierung als lineares Programm ==
Zur Bestimmung eines kürzesten Pfades lässt sich außerdem ein
[[Lineare Optimierung|lineares Programm]] heranziehen. Man interpretiert in diesem Fall den Pfad als
[[Flüsse und Schnitte in Netzwerken|Fluss]] mit einem Flusswert von 1
auf den Kanten des Graphen. Die Bestimmung des kürzesten Pfades
ist dann ein Spezialfall des Min-cost-flow-Problems. Die entsprechende Formulierung lautet:

:<math>
\begin{align}
\min & \sum_{e \in E} c_e x_e \\
\text{so dass } & \forall \; v \in V\colon\;
\sum_{e \in \operatorname{\delta^-}(v)} x_e - \sum_{e \in \operatorname{\delta^+}(v)} x_e
=
\begin{cases}
-1,& \text{falls } v = s \\
1,& \text{falls } v = t \\
0,& \text{sonst }
\end{cases} \\
& \forall \; e \in E\colon\; x_e \geq 0 \\

\end{align}
</math>

Falls ein <math>s</math>-<math>t</math>-Pfad im gegebenen Graphen existiert, so hat das Programm eine [[Lineare Optimierung#Lösbarkeit aus theoretischer Sicht|zulässige]] Lösung.
Das Programm ist allerdings unbeschränkt, wenn die Gewichtsfunktion nicht konservativ ist. In diesem Fall kann der Fluss nämlich entlang eines Zykels mit negativen Kosten
beliebig weit erhöht werden. Andernfalls hat das Problem eine Optimallösung <math>x</math>, welche einem <math>0/1</math>-Vektor mit <math>|E|</math> Einträgen entspricht.
Die Menge <math>\{e \in E \,:\, x_e = 1 \}</math> beschreibt dann einen kürzesten <math>s</math>-<math>t</math>-Pfad, der Zielfunktionswert des Programms entspricht
der Länge des Pfades.

== Knotenpotentiale ==

Es stellt sich heraus, dass die [[Lineare Optimierung#Dualität|Dualisierung]] des obigen linearen Programms eine anschauliche Interpretation hat. Das duale Programm ist gegeben durch

:<math>
\begin{align}
\max & y_t - y_s \\
\text{so dass } & \forall \; e=(u,v) \in E\colon\; y_v - y_u \leq c_e \;\;
\end{align}
</math>

Eine Lösung <math>y</math> des dualen Programms nennt man ein ''Knotenpotential''. Man sieht leicht, dass für jede Lösung <math>(y_v)_{v \in V}</math> der Vektor <math>(y_v + \delta)_{v \in V}</math>
ebenfalls eine Lösung ist, wobei man <math>\delta \in \mathbb{R}</math> beliebig wählen kann. Man setzt in der Regel den Wert von <math>\delta</math> so, dass <math>y_s = 0</math>.
Die Zielfunktion ist dann gegeben durch <math>\max \; y_t</math>.

Ist <math>P</math> ein beliebiger Pfad zwischen <math>s</math> und einem Knoten <math>w \neq s</math>, so lässt sich die Länge des Pfades wie folgt abschätzen:

:<math>
c(P) = \sum_{e \in P} c_e \geq \sum_{e=(u,v) \in P} y_v - y_u = y_w
</math>

Das Potential eines jeden Knotens ist also eine untere Schranke für die Länge eines Pfades. Eine Optimallösung des dualen Programms findet man, wenn man das Potential eines Knotens <math>w \neq s</math>
als die Länge des kürzesten <math>s</math>-<math>w</math>-Pfades bezüglich der Zielfunktion <math>c</math> setzt.

== Anwendungen ==
{{Siehe auch|Pathfinding}}

Algorithmen, die einen kürzesten Pfad berechnen, finden häufig Anwendung in der Berechnung von Reiserouten. So kann zum Beispiel die Entfernung zwischen zwei Städten berechnet werden. Dabei sind die Städte die Knoten des Graphen und die Straßen die Kanten.

== Kürzeste Wege mit Nebenbedingungen ==
Eine Varallgemeinerung des Problems erhält man, wenn man nur <math>s</math>-<math>t</math>-Pfade
<math>P</math> betrachtet, die der zusätzlichen Ungleichung <math>\sum_{e \in P} u_e \leq U</math> gehorchen. Dabei ist
<math>u : E \to \mathbb{R}_+ </math> eine weitere Gewichtsfunktion und <math>U</math> eine reelle Zahl.

Das resultierende ''Constrained Shortest Path Problem'' ist dann auch für konservative bzw. nichtnegative
Zielfunktionen NP-schwer, siehe <ref>H. C. Joksch (1966)</ref>.

== Literatur ==
* {{BibISBN|0262032937}}
* Thomas H. Cormen, [[Charles E. Leiserson]], [[Ronald L. Rivest]], Clifford Stein: ''Algorithmen - Eine Einführung''. 2. Auflage. 2007. ISBN 978-3-486-58262-8
* H. C. Joksch (1966). ''The shortest route problem with constraints''. J. Math. Anal. Appl. 14, Seite 191-197

== Einzelnachweise ==
<references />

{{SORTIERUNG:Kurzester Pfad}}

[[Kategorie:Graphentheorie]]
[[Kategorie:Reise- und Routenplanung]]

[[ca:Problema del camí més curt]]
[[en:Shortest path problem]]
[[es:Problema del camino más corto]]
[[fa:مسئله یافتن کوتاهترین مسیر]]
[[fr:Problèmes de cheminement]]
[[it:Shortest path]]
[[ja:最短経路問題]]
[[ko:최단 경로 문제]]
[[lt:Trumpiausio kelio problema]]
[[pl:Problem najkrótszej ścieżki]]
[[pt:Problema do caminho mínimo]]
[[th:ปัญหาวิถีสั้นสุด]]
[[uk:Задача про найкоротший шлях]]
[[ur:کمترین رستہ الخوارزم]]
[[vi:Bài toán đường đi ngắn nhất]]
[[zh:最短路问题]]

Kürzester Pfad

2012-10-05T09:21:03Z

Mathmon: /* Knotenpotentiale */

Ein '''kürzester Pfad''' ist in der [[Graphentheorie]] ein [[Wege, Pfade, Zyklen und Kreise in Graphen|Pfad]] zwischen zwei unterschiedlichen [[Knoten (Graphentheorie)|Knoten]] <math>s,t \in V</math>
eines [[Graph (Graphentheorie)|Graphen]], welcher minimale Länge bezüglich einer
[[Kantengewicht|Gewichtsfunktion]] <math>c : E \to \mathbb{R}</math> hat.
Haben die [[Kante (Graphentheorie)|Kanten]]
im [[Graph (Graphentheorie)|Graphen]] alle das Gewicht 1, ist also <math>c_e \equiv 1 \; \forall e \in E</math>,
so ist der kürzeste Pfad ein <math>s</math>-<math>t</math>-Pfad mit der geringstmöglichen
Anzahl von Kanten zwischen <math>s</math> und <math>t</math>.

In der Literatur<ref>[[Bernhard Korte]], [[Jens Vygen]]: ''Combinatorial Optimization. Theory and Algorithms.'' 4th edition. Springer, Berlin u. a. 2008, ISBN 978-3-540-71844-4 (''Algorithms and Combinatorics'' 21)</ref> wird das Problem oft als ''Shortest Path Problem'' bezeichnet.

== Komplexität ==
Im allgemeinen ist die Bestimmung eines kürzesten Pfades ein [[NP-Schwere|schweres]] Problem: Das Entscheidungsproblem

„Hat ein Graph einen <math>s</math>-<math>t</math>-Pfad der Länge <math>\leq C</math>?“

ist [[NP-Vollständigkeit|NP-vollständig]],
dementsprechend kann im allgemeinen auch ein kürzester Pfad [[P-NP-Problem|vermutlich]] nicht in [[Polynomialzeit]]
gefunden werden.
Hat ein Graph einen [[Hamiltonpfadproblem| Hamiltonpfad]], so ist dies ein kürzester <math>s</math>-<math>t</math>-Pfad
bezüglich der Gewichtsfunktion <math>c(e) = -1 \; \forall e \in E</math>.
Auch hier ist schon die Frage nach der Existenz eines solchen Pfades ein {{nowrap|NP-vollständiges}}
Problem.

In vielen Spezialfällen ist die Bestimmung kürzester Pfade in Polynomialzeit trotz der Komplexität des Problems
möglich. Die wichtigste Einschränkung betrifft hier die Gewichtsfunktion:

; konservative Gewichtsfunktion
: Eine Gewichtsfunktion heißt ''konservativ'' für den Graphen <math>G</math>, wenn <math>c(C) = \sum_{e \in C} c(e) \geq 0</math> für alle [[Zyklus (Graphentheorie)|Zyklen]] <math>C</math> von <math>G</math>.

Für konservative Gewichtsfunktionen lassen sich kürzeste Wege in Polynomialzeit bestimmen, hierzu kann zum Beispiel
der [[Bellman-Ford-Algorithmus]] verwendet werden.

Wenn man weiterhin von der Zielfunktion zusätzlich sogar Nichtnegativität verlangt, also
<math>c(e) \geq 0 \; \forall e \in E</math> fordert, so lässt sich das Problem mit dem [[A*-Algorithmus]]
oder dem [[Dijkstra-Algorithmus|Algorithmus von Dijkstra]] noch weitaus schneller lösen.

== Variationen des Problems ==
Abgesehen von der Bestimmung des kürzesten <math>s</math>-<math>t</math>-Pfades gibt es noch einige weitere, jedoch
sehr ähnliche Probleme:

=== Single-source shortest path (SSSP) ===
Diese Variante des Problems der kürzesten Pfade befasst sich mit der Problemstellung wie man die kürzesten Wege zwischen einem gegebenen Startknoten und allen übrigen Knoten eines Graphen berechnet.
Für nichtnegative Gewichtsfunktionen lassen sich der Dijkstra-Algorithmus bzw der A*-Algorithmus leicht so anpassen,
dass die kürzesten Wege zu allen Knoten des Graphs zu berechnen.
Für beliebige konservative Gewichtsfunktionen berechnet der Bellman-Ford-Algorithmus andererseits stets auch die
kürzesten Pfade zu allen anderen Knoten.

=== Single-destination shortest path ===
Ziel ist hier die Bestimmung des kürzesten Pfads zwischen einem Endknoten und allen anderen Knoten des Graphen.
Dieses Problem kann durch eine Umkehrung der Kantenrichtungen als SSSP beschrieben werden.

=== All-pairs shortest path (APSP) ===
In dieser Variante des Problems geht es um die Bestimmung der kürzesten Pfade zwischen allen
Knotenpaaren eines Graphen zu berechnen. Natürlich kann man in diesem Fall für jeden Knoten nacheinander
das SSSP lösen, jedoch sind spezialisierte Verfahren, wie etwa der [[Floyd-Warshall-Algorithmus]] oder
der [[Min-Plus-Matrixmultiplikations-Algorithmus]] erheblich schneller

== Beispiel ==
[[Datei:Prim Algorithm 0.png|200px|thumb|Beispielgraph]]
Im nebenstehend gegebenen Graphen ist ein kürzester Pfad zwischen den Knoten <math>D</math> und <math>C</math> der Pfad, welcher in <math>D</math> startet, und über <math>B</math> nach <math>C</math> geht. Die Pfadkosten betragen hierbei <math>9+8=17</math>.
Will man jedoch einen Pfad von <math>D</math> nach <math>E</math> finden, so ist der direkte Weg mit Kosten von <math>15</math> nicht der kürzestmögliche Pfad, da der Weg von <math>D</math> über <math>F</math> nach <math>E</math> nur Kosten von <math>14=8+6</math> hat.

== Formulierung als lineares Programm ==
Zur Bestimmung eines kürzesten Pfades lässt sich außerdem ein
[[Lineare Optimierung|lineares Programm]] heranziehen. Man interpretiert in diesem Fall den Pfad als
[[Flüsse und Schnitte in Netzwerken|Fluss]] mit einem Flusswert von 1
auf den Kanten des Graphen. Die Bestimmung des kürzesten Pfades
ist dann ein Spezialfall des Min-cost-flow-Problems. Die entsprechende Formulierung lautet:

:<math>
\begin{align}
\min & \sum_{e \in E} c_e x_e \\
\text{so dass } & \forall \; v \in V\colon\;
\sum_{e \in \operatorname{\delta^-}(s)} x_e - \sum_{e \in \operatorname{\delta^+}(s)} x_e
=
\begin{cases}
-1,& \text{falls } v = s \\
1,& \text{falls } v = t \\
0,& \text{sonst }
\end{cases} \\
& \forall \; e \in E\colon\; x_e \geq 0 \\

\end{align}
</math>

Falls ein <math>s</math>-<math>t</math>-Pfad im gegebenen Graphen existiert, so hat das Programm eine [[Lineare Optimierung#Lösbarkeit aus theoretischer Sicht|zulässige]] Lösung.
Das Programm ist allerdings unbeschränkt, wenn die Gewichtsfunktion nicht konservativ ist. In diesem Fall kann der Fluss nämlich entlang eines Zykels mit negativen Kosten
beliebig weit erhöht werden. Andernfalls hat das Problem eine Optimallösung <math>x</math>, welche einem <math>0/1</math>-Vektor mit <math>|E|</math> Einträgen entspricht.
Die Menge <math>\{e \in E \,:\, x_e = 1 \}</math> beschreibt dann einen kürzesten <math>s</math>-<math>t</math>-Pfad, der Zielfunktionswert des Programms entspricht
der Länge des Pfades.

== Knotenpotentiale ==

Es stellt sich heraus, dass die [[Lineare Optimierung#Dualität|Dualisierung]] des obigen linearen Programms eine anschauliche Interpretation hat. Das duale Programm ist gegeben durch

:<math>
\begin{align}
\max & y_t - y_s \\
\text{so dass } & \forall \; e=(u,v) \in E\colon\; y_v - y_u \leq c_e \;\;
\end{align}
</math>

Eine Lösung <math>y</math> des dualen Programms nennt man ein ''Knotenpotential''. Man sieht leicht, dass für jede Lösung <math>(y_v)_{v \in V}</math> der Vektor <math>(y_v + \delta)_{v \in V}</math>
ebenfalls eine Lösung ist, wobei man <math>\delta \in \mathbb{R}</math> beliebig wählen kann. Man setzt in der Regel den Wert von <math>\delta</math> so, dass <math>y_s = 0</math>.
Die Zielfunktion ist dann gegeben durch <math>\max \; y_t</math>.

Ist <math>P</math> ein beliebiger Pfad zwischen <math>s</math> und einem Knoten <math>w \neq s</math>, so lässt sich die Länge des Pfades wie folgt abschätzen:

:<math>
c(P) = \sum_{e \in P} c_e \geq \sum_{e=(u,v) \in P} y_v - y_u = y_w
</math>

Das Potential eines jeden Knotens ist also eine untere Schranke für die Länge eines Pfades. Eine Optimallösung des dualen Programms findet man, wenn man das Potential eines Knotens <math>w \neq s</math>
als die Länge des kürzesten <math>s</math>-<math>w</math>-Pfades bezüglich der Zielfunktion <math>c</math> setzt.

== Anwendungen ==
{{Siehe auch|Pathfinding}}

Algorithmen, die einen kürzesten Pfad berechnen, finden häufig Anwendung in der Berechnung von Reiserouten. So kann zum Beispiel die Entfernung zwischen zwei Städten berechnet werden. Dabei sind die Städte die Knoten des Graphen und die Straßen die Kanten.

== Kürzeste Wege mit Nebenbedingungen ==
Eine Varallgemeinerung des Problems erhält man, wenn man nur <math>s</math>-<math>t</math>-Pfade
<math>P</math> betrachtet, die der zusätzlichen Ungleichung <math>\sum_{e \in P} u_e \leq U</math> gehorchen. Dabei ist
<math>u : E \to \mathbb{R}_+ </math> eine weitere Gewichtsfunktion und <math>U</math> eine reelle Zahl.

Das resultierende ''Constrained Shortest Path Problem'' ist dann auch für konservative bzw. nichtnegative
Zielfunktionen NP-schwer, siehe <ref>H. C. Joksch (1966)</ref>.

== Literatur ==
* {{BibISBN|0262032937}}
* Thomas H. Cormen, [[Charles E. Leiserson]], [[Ronald L. Rivest]], Clifford Stein: ''Algorithmen - Eine Einführung''. 2. Auflage. 2007. ISBN 978-3-486-58262-8
* H. C. Joksch (1966). ''The shortest route problem with constraints''. J. Math. Anal. Appl. 14, Seite 191-197

== Einzelnachweise ==
<references />

{{SORTIERUNG:Kurzester Pfad}}

[[Kategorie:Graphentheorie]]
[[Kategorie:Reise- und Routenplanung]]

[[ca:Problema del camí més curt]]
[[en:Shortest path problem]]
[[es:Problema del camino más corto]]
[[fa:مسئله یافتن کوتاهترین مسیر]]
[[fr:Problèmes de cheminement]]
[[it:Shortest path]]
[[ja:最短経路問題]]
[[ko:최단 경로 문제]]
[[lt:Trumpiausio kelio problema]]
[[pl:Problem najkrótszej ścieżki]]
[[pt:Problema do caminho mínimo]]
[[th:ปัญหาวิถีสั้นสุด]]
[[uk:Задача про найкоротший шлях]]
[[ur:کمترین رستہ الخوارزم]]
[[vi:Bài toán đường đi ngắn nhất]]
[[zh:最短路问题]]