„Parzen-Tree Estimator“ – Versionsunterschied

Versionsgeschichte interaktiv durchsuchen

[gesichtete Version]

← Zum vorherigen Versionsunterschied Zum nächsten Versionsunterschied →

Inhalt gelöscht Inhalt hinzugefügt

Inline

Version vom 30. November 2022, 14:33 Uhr

Tree-structured Parzen Estimator (kurz Parzen-Tree Estimator oder TPE) sind Schätzfunktionen, die unter anderem in der bayesschen Hyperparameteroptimierung verwendet werden, um eine Approximation $p(y|x)$ einer eigentlichen gesuchten Zielfunktion $f:{\mathcal {X}}\to \mathbb {R}$ zu konstruieren ( ${\mathcal {X}}$ ist der Konfigurationsraum, $x$ eine Menge von Hyperparameter und $y=f(x)$ ein Score der Zielfunktion).

Die Idee dahinter ist, dass das Auswerten der eigentlichen Funktion $f$ kostspielig ist (z. B. die passende Anzahl an Layers für ein Deep Neural Network zu finden), deshalb möcht man mit Hilfe der $p(y|x)$ die besten Hyperparameter $x$ finden, welche später dann in $f$ eingesetzt werden. Wir nehmen an, dass der Konfigurationsraum ${\mathcal {X}}$ eine Baumstruktur besitzt (z. B. die Anzahl Neuronen auf Layer 4 wird erst bestimmt, wenn es überhaupt mindestens 4 Layers gibt). TPE konstruiert dann einen Baum von Kerndichteschätzern.

Die Funktion $p(y|x)$ wird auch Surrogatsfunktion (oder surrogat probability model) genannt und wird nicht direkt modelliert, stattdessen wendet man den Satz von Bayes an

p(y|x)={\frac {p(x|y)p(y)}{p(x)}}

und modelliert $p(x|y)$ und $p(y)$ . Für $p(y)$ gibt es keine spezifische Anforderungen.

Die Funktion $p(x|y)$ wird durch Einführung eines Schwellenwertes $y^{*}$ in zwei Dichten aufgeteilt, so dass diese nicht mehr von $y$ abhängen

p(x|y)={\begin{cases}l(x)&{\text{ falls }}y<y^{*}\\g(x)&{\text{ falls }}y\geq y^{*}.\end{cases}}

Der Schwellenwert $y^{*}$ ist dabei ein $\alpha$ -Quantil, das heißt $p(y\leq y^{*})=\alpha$ .

Die Dichten $l(x)$ und $g(x)$ werden dann mit Hilfe von Kerndichteschätzern konstruiert. Für $l(x)$ werden die Observationen $\{x_{i}\}$ mit $f(x_{i})<y^{*}$ verwendet. Die restlichen Observationen, für die $f(x_{k})>y^{*}$ gelten, werden zur Konstruktion von $g(x)$ benötigt.^[1]

Einzelnachweise

↑ J. S. Bergstra, R. Bardenet, Y. Bengio, B. Kégl: Algorithms for Hyper-Parameter Optimization. Advances in Neural Information Processing Systems: 2546–2554 (2011)

[1] J. S. Bergstra, R. Bardenet, Y. Bengio, B. Kégl: Algorithms for Hyper-Parameter Optimization. Advances in Neural Information Processing Systems: 2546–2554 (2011)

[1]

Version vom 10. November 2022, 09:53 Uhr Bearbeiten Wikinger08 (Diskussion \| Beiträge) Passive Sichter, Sichter 153.328 Bearbeitungen QS erledigt ← Zum vorherigen Versionsunterschied		Version vom 30. November 2022, 14:33 Uhr Bearbeiten rückgängig Georg Hügler (Diskussion \| Beiträge) Passive Sichter, Sichter 409.862 Bearbeitungen vgl. WP:Allgemeinverständlichkeit Zum nächsten Versionsunterschied →
Zeile 1:		Zeile 1:
	'''Tree-structured [[Kerndichteschätzer\|Parzen Estimator]]''' (kurz '''Parzen-Tree Estimator''' oder '''TPE''') sind ~~Schätzer~~, die unter anderem in der [[Bayes’sche Optimierung\|bayesschen Hyperparameteroptimierung]] verwendet werden, um eine Approximation <math>p(y\|x)</math> einer eigentlichen gesuchten Zielfunktion <math>f:\mathcal{X}\to \mathbb{R}</math> zu konstruieren (<math>\mathcal{X}</math> ist der Konfigurationsraum, <math>x</math> eine Menge von Hyperparameter und <math>y=f(x)</math> ein ''Score'' der Zielfunktion).		'''Tree-structured [[Kerndichteschätzer\|Parzen Estimator]]''' (kurz '''Parzen-Tree Estimator''' oder '''TPE''') sind [[Schätzfunktion]]en, die unter anderem in der [[Bayes’sche Optimierung\|bayesschen Hyperparameteroptimierung]] verwendet werden, um eine Approximation <math>p(y\|x)</math> einer eigentlichen gesuchten Zielfunktion <math>f:\mathcal{X}\to \mathbb{R}</math> zu konstruieren (<math>\mathcal{X}</math> ist der Konfigurationsraum, <math>x</math> eine Menge von Hyperparameter und <math>y=f(x)</math> ein ''Score'' der Zielfunktion).

	Die Idee dahinter ist, dass das Auswerten der eigentlichen Funktion <math>f</math> kostspielig ist (z. B. die passende Anzahl an Layers für ein [[Deep Learning\|Deep Neural Network]] zu finden), deshalb möcht man mit Hilfe der <math>p(y\|x)</math> die besten Hyperparameter <math>x</math> finden, welche später dann in <math>f</math> eingesetzt werden. Wir nehmen an, dass der Konfigurationsraum <math>\mathcal{X}</math> eine Baumstruktur besitzt (z. B. die Anzahl Neuronen auf Layer 4 wird erst bestimmt, wenn es überhaupt mindestens 4 Layers gibt). TPE konstruiert dann einen Baum von Kerndichteschätzern.		Die Idee dahinter ist, dass das Auswerten der eigentlichen Funktion <math>f</math> kostspielig ist (z. B. die passende Anzahl an Layers für ein [[Deep Learning\|Deep Neural Network]] zu finden), deshalb möcht man mit Hilfe der <math>p(y\|x)</math> die besten Hyperparameter <math>x</math> finden, welche später dann in <math>f</math> eingesetzt werden. Wir nehmen an, dass der Konfigurationsraum <math>\mathcal{X}</math> eine Baumstruktur besitzt (z. B. die Anzahl Neuronen auf Layer 4 wird erst bestimmt, wenn es überhaupt mindestens 4 Layers gibt). TPE konstruiert dann einen Baum von Kerndichteschätzern.