Bootstrap aggregating

Bootstrap aggregating (Bagging) ist eine Ensemble-learning-Methode, um Vorhersagen aus verschiedenen Regressions- oder Klassifikationsmodellen (mit hoher Varianz in der Vorhersage) zu kombinieren und dadurch die Varianz zu verringern. Die Methode wurde ursprünglich von Leo Breiman entwickelt.^[1] Bootstrap aggregating wird beispielsweise bei Random Forests eingesetzt.

Vorgehensweise

Zunächst wird mithilfe des Bootstrapping-Verfahrens $B$ Stichprobenwiederholungen des Umfanges $n$ aus dem Originaldatensatz erzeugt und auf diesen werden dann $B$ Vorhersagemodelle $m_{i}$ ( $i=1,\dots ,B$ ) trainiert. Für einen Wert $x$ ergeben sich dann $B$ Vorhersagewerte $m_{i}(x)$ . Die Ergebnisse der Modelle werden dann mit einer Aggregationsfunktion (z. B. Mittelwert, Median, Majority Voting etc.) zusammengefasst:

Ist der Vorhersagewert eine Klassenzugehörigkeit, dann könnte die am häufigsten vorhergesagte Klasse als Vorhersagewert $m^{B}(x)$ genommen werden (Aggregierung über Majority-Voting)
Im Regressionsfall ergibt sich bei Aggregierung über den Mittelwert der Vorhersagewert als

m^{B}(x)={\tfrac {1}{B}}(m_{1}(x)+\cdots +m_{B}(x))

oder allgemein mit Gewichten

w_{i}

m^{B}(x)=w_{1}m_{1}(x)+\cdots +w_{B}m_{B}(x)

.

Bei einer Aggregierungsfunktion, welche die einzelnen internen Modelle gewichtet, könnten die Gewichte z. B. von der Qualität der Modellvorhersage abhängen, d. h. „gute“ Modelle gehen mit einem größeren Gewicht ein als „schlechte“ Modelle.

Beispiel

Eine Bootstrap-Datensatz wird erstellt, indem Objekte zufällig aus dem ursprünglichen Datensatz ausgewählt werden. Zudem muss er dieselbe Größe wie der ursprüngliche Datensatz aufweisen. Der Unterschied besteht jedoch darin, dass das Bootstrap-Datensatz Duplikate von Objekten enthalten kann. Das folgende Beispiel veranschaulicht, wie dieses Verfahren funktioniert. Es wird angenommen, dass der ursprüngliche Datensatz aus einer Gruppe von 12 Personen besteht. Wenn nun zufällig eine Menge von Namen ausgewählt wird, könnte der Bootstrap-Datensatz beispielsweise aus James, Ellie, Constantine, Lexi, John, Constantine, Theodore, Constantine, Anthony, Lexi, Constantine und Theodore bestehen. In diesem Fall enthält die Stichprobe vier Duplikate von Constantine sowie jeweils zwei Duplikate von Lexi und Theodore.

Der Out-of-Bag-Datensatz umfasst die verbleibenden Personen, die nicht im Bootstrap-Datensatz enthalten waren. Er lässt sich ermitteln, indem die Differenz zwischen dem ursprünglichen Datensatz und dem Bootstrap-Datensatz gebildet wird. In diesem Fall sind die verbleibenden Stichprobenelemente, die nicht ausgewählt wurden: Emily, Jessie, George, Rachel und Jamal. Beachte, dass es sich bei beiden Datensätzen um Mengen handelt und bei der Differenzbildung Duplikate im Bootstrap-Datensatz ignoriert werden. Die folgende Abbildung veranschaulicht die entsprechende Berechnung.

Eigenschaften

Das Bagging führt im Fall von instabilen Modellen, d. h. Modellen, in denen sich die Struktur stark in Abhängigkeit von den Stichprobendaten ändert (siehe z. B. Classification and Regression Trees), meist zu deutlich verbesserten Vorhersagen.

Siehe auch

Boosting

Einzelnachweise

↑ Leo Breiman: Bagging predictors. In: Machine Learning. 24. Jahrgang, Nr. 2, 1996, S. 123–140, doi:10.1007/BF00058655 (englisch, psu.edu [PDF]).

Literatur

Ian H. Witten, Eibe Frank, Mark A. Hall (2011), Data Mining: Practical Machine Learning Tools and Techniques (Third Edition), Morgan Kaufmann

[1] Leo Breiman: Bagging predictors. In: Machine Learning. 24. Jahrgang, Nr. 2, 1996, S. 123–140, doi:10.1007/BF00058655 (englisch, psu.edu [PDF]).

[1]