Bootstrap aggregating

Bootstrap aggregating (Bagging) ist eine Ensemble-learning-Methode, um Vorhersagen aus verschiedenen Regressions- oder Klassifikationsmodellen (mit hoher Varianz in der Vorhersage) zu kombinieren und dadurch die Varianz zu verringern. Die Methode wurde ursprünglich von Leo Breiman entwickelt.^[1] Die Ergebnisse der Modelle werden dann im einfachsten Fall gemittelt, d. h. das Ergebnis jeder Modellvorhersage geht mit gleichem Gewicht in die Vorhersage ein.

Zunächst wird mithilfe des Bootstrapping-Verfahrens $B$ Stichprobenwiederholungen des Umfanges $n$ aus dem Originaldatensatz erzeugt und auf diesen werden dann $B$ Vorhersagemodelle $m_{i}$ ( $i=1,\dots ,B$ ) trainiert. Für einen Wert $x$ ergeben sich dann $B$ Vorhersagewerte $m_{i}(x)$ . Ist der Vorhersagewert eine Klassenzugehörigkeit, dann könnte die am häufigsten vorhergesagte Klasse als Vorhersagewert $m^{B}(x)$ genommen werden. Im Regressionsfall ergibt sich der Vorhersagewert als

m^{B}(x)={\tfrac {1}{B}}(m_{1}(x)+\cdots +m_{B}(x))

oder allgemein mit Gewichten $w_{i}$

m^{B}(x)=w_{1}m_{1}(x)+\cdots +w_{B}m_{B}(x)

.

Die Gewichte, sowohl im Klassifikations- als auch im Regressionsfall, könnten z. B. von der Qualität der Modellvorhersage abhängen, d. h. „gute“ Modelle gehen mit einem größeren Gewicht ein als „schlechte“ Modelle.

Das Bagging führt im Fall von instabilen Modellen, d. h. Modellen, in denen sich die Struktur stark in Abhängigkeit von den Stichprobendaten ändert (siehe z. B. Classification and Regression Trees), meist zu deutlich verbesserten Vorhersagen.

Siehe auch

Einzelnachweise

↑ Leo Breiman: Bagging predictors. In: Machine Learning. 24. Jahrgang, Nr. 2, 1996, S. 123–140, doi:10.1007/BF00058655 (psu.edu [PDF]).

Literatur

Ian H. Witten, Eibe Frank, Mark A. Hall (2011), Data Mining: Practical Machine Learning Tools and Techniques (Third Edition), Morgan Kaufmann

[1] Leo Breiman: Bagging predictors. In: Machine Learning. 24. Jahrgang, Nr. 2, 1996, S. 123–140, doi:10.1007/BF00058655 (psu.edu [PDF]).

[1]