„Parzen-Tree Estimator“ – Versionsunterschied

Versionsgeschichte interaktiv durchsuchen

[ungesichtete Version]

← Zum vorherigen Versionsunterschied Zum nächsten Versionsunterschied →

Inhalt gelöscht Inhalt hinzugefügt

Inline

Version vom 13. Februar 2024, 19:28 Uhr

Tree-structured Parzen Estimator (kurz Parzen-Tree Estimator oder TPE) sind Schätzfunktionen, die unter anderem in der bayesschen Hyperparameteroptimierung verwendet werden, um eine Approximation $p(y|x)$ einer eigentlichen gesuchten Zielfunktion $f:{\mathcal {X}}\to \mathbb {R}$ zu konstruieren ( ${\mathcal {X}}$ ist der Konfigurationsraum, $x$ eine Menge von Hyperparameter und $y=f(x)$ ein Score der Zielfunktion).

Die Auswertung der eigentlichen Funktion $f$ ist „kostspielig“ (z. B. die passende Anzahl an Layers für ein Deep Neural Network zu finden), deshalb möchte man mit Hilfe der $p(y|x)$ die besten Hyperparameter $x$ finden, welche später dann in $f$ eingesetzt werden. Es wird angenommen, dass der Konfigurationsraum ${\mathcal {X}}$ eine Baumstruktur besitzt (z. B. die Anzahl Neuronen auf Layer 4 wird erst bestimmt, wenn es überhaupt mindestens 4 Layers gibt). TPE konstruiert dann einen Baum von Kerndichteschätzern.

Die Wahrscheinlichkeitsdichte $p(y|x)$ wird auch Surrogatmodell (oder surrogat probability model) genannt und wird nicht direkt modelliert, stattdessen wendet man den Satz von Bayes an

p(y|x)={\frac {p(x|y)p(y)}{p(x)}}

und modelliert $p(x|y)$ und $p(y)$ .

Die Funktion $p(x|y)$ wird durch Einführung eines Schwellenwertes $y^{*}$ in zwei Dichten aufgeteilt, so dass diese nicht mehr von $y$ abhängen

p(x|y)={\begin{cases}l(x)&{\text{ falls }}y<y^{*}\\g(x)&{\text{ falls }}y\geq y^{*}.\end{cases}}

Der Schwellenwert $y^{*}$ ist dabei ein $\alpha$ -Quantil, das heißt $p(y\leq y^{*})=\alpha$ .

Die Dichten $l(x)$ und $g(x)$ werden dann mit Hilfe von Kerndichteschätzern konstruiert. Für $l(x)$ werden die Observationen $\{x_{i}\}$ mit $f(x_{i})<y^{*}$ verwendet. Die restlichen Observationen, für die $f(x_{k})>y^{*}$ gelten, werden zur Konstruktion von $g(x)$ benötigt.^[1]

Einzelnachweise

↑ J. S. Bergstra, R. Bardenet, Y. Bengio, B. Kégl: Algorithms for Hyper-Parameter Optimization. In: Advances in Neural Information Processing Systems. 2011, S. 2546–2554 [[http://papers.nips.cc/paper/4443-algorithms-for-hyper-parameter-optimization.pdf PDF].

[1] J. S. Bergstra, R. Bardenet, Y. Bengio, B. Kégl: Algorithms for Hyper-Parameter Optimization. In: Advances in Neural Information Processing Systems. 2011, S. 2546–2554 [[http://papers.nips.cc/paper/4443-algorithms-for-hyper-parameter-optimization.pdf PDF].

[1]

@@ Zeile 1: / Zeile 1: @@
 '''Tree-structured [[Kerndichteschätzer|Parzen Estimator]]''' (kurz '''Parzen-Tree Estimator''' oder '''TPE''') sind [[Schätzfunktion]]en, die unter anderem in der [[Bayes’sche Optimierung|bayesschen Hyperparameteroptimierung]] verwendet werden, um eine Approximation <math>p(y|x)</math> einer eigentlichen gesuchten Zielfunktion <math>f:\mathcal{X}\to \mathbb{R}</math> zu konstruieren (<math>\mathcal{X}</math> ist der Konfigurationsraum, <math>x</math> eine Menge von Hyperparameter und <math>y=f(x)</math> ein ''Score'' der Zielfunktion).
-Die Auswertung der eigentlichen Funktion <math>f</math> ist kostspielig (z. B. die passende Anzahl an Layers für ein [[Deep Learning|Deep Neural Network]] zu finden), deshalb möchte man mit Hilfe der <math>p(y|x)</math> die besten Hyperparameter <math>x</math> finden, welche später dann in <math>f</math> eingesetzt werden. Es wird angenommen, dass der Konfigurationsraum <math>\mathcal{X}</math> eine Baumstruktur besitzt (z. B. die Anzahl Neuronen auf Layer 4 wird erst bestimmt, wenn es überhaupt mindestens 4 Layers gibt). TPE konstruiert dann einen Baum von Kerndichteschätzern.
+Die Auswertung der eigentlichen Funktion <math>f</math> ist „kostspielig“ (z. B. die passende Anzahl an Layers für ein [[Deep Learning|Deep Neural Network]] zu finden), deshalb möchte man mit Hilfe der <math>p(y|x)</math> die besten Hyperparameter <math>x</math> finden, welche später dann in <math>f</math> eingesetzt werden. Es wird angenommen, dass der Konfigurationsraum <math>\mathcal{X}</math> eine Baumstruktur besitzt (z. B. die Anzahl Neuronen auf Layer 4 wird erst bestimmt, wenn es überhaupt mindestens 4 Layers gibt). TPE konstruiert dann einen Baum von Kerndichteschätzern.
 Die Wahrscheinlichkeitsdichte <math>p(y|x)</math> wird auch ''Surrogatmodell'' (oder ''surrogat probability model'') genannt und wird nicht direkt modelliert, stattdessen wendet man den [[Satz von Bayes]] an