„Parzen-Tree Estimator“ – Versionsunterschied
[gesichtete Version] | [gesichtete Version] |
Keine Bearbeitungszusammenfassung |
GünniX (Diskussion | Beiträge) K Tippfehler korrigiert |
||
Zeile 2: | Zeile 2: | ||
'''Tree-structured [[Kerndichteschätzer|Parzen Estimator]]''' (kurz '''Parzen-Tree Estimator''' oder TPE) sind Schätzer, die unter anderem in der [[Bayes’sche Optimierung|bayesschen Hyperparameteroptimierung]] verwendet werden, um eine Approximation <math>p(y|x)</math> einer eigentlichen gesuchten Zielfunktion <math>f:\mathcal{X}\to \mathbb{R}</math> zu konstruieren (<math>\mathcal{X}</math> ist der Konfigurationsraum, <math>x</math> eine Menge von Hyperparameter und <math>y=f(x)</math> ein ''Score'' der Zielfunktion). |
'''Tree-structured [[Kerndichteschätzer|Parzen Estimator]]''' (kurz '''Parzen-Tree Estimator''' oder TPE) sind Schätzer, die unter anderem in der [[Bayes’sche Optimierung|bayesschen Hyperparameteroptimierung]] verwendet werden, um eine Approximation <math>p(y|x)</math> einer eigentlichen gesuchten Zielfunktion <math>f:\mathcal{X}\to \mathbb{R}</math> zu konstruieren (<math>\mathcal{X}</math> ist der Konfigurationsraum, <math>x</math> eine Menge von Hyperparameter und <math>y=f(x)</math> ein ''Score'' der Zielfunktion). |
||
Die Idee dahinter ist, dass das Auswerten der eigentlichen Funktion <math>f</math> |
Die Idee dahinter ist, dass das Auswerten der eigentlichen Funktion <math>f</math> kostspielig ist (z. B. die passende Anzahl an Layers für ein [[Deep Learning|Deep Neural Network]] zu finden), deshalb möcht man mit Hilfe der <math>p(y|x)</math> die besten Hyperparameter <math>x</math> finden, welche später dann in <math>f</math> eingesetzt werden. Wir nehmen an, dass der Konfigurationsraum <math>\mathcal{X}</math> eine Baumstruktur besitzt (z. B. die Anzahl Neuronen auf Layer 4 wird erst bestimmt, wenn es überhaupt mindestens 4 Layers gibt). TPE konstruiert dann einen Baum von Kerndichteschätzern. |
||
Die Funktion <math>p(y|x)</math> wird auch ''Surrogatsfunktion'' (oder ''surrogat probability model'') genannt und wird nicht direkt modelliert, stattdessen wendet man den [[Satz von Bayes]] an |
Die Funktion <math>p(y|x)</math> wird auch ''Surrogatsfunktion'' (oder ''surrogat probability model'') genannt und wird nicht direkt modelliert, stattdessen wendet man den [[Satz von Bayes]] an |
||
Zeile 12: | Zeile 12: | ||
g(x) &\text{ falls } y\geq y^*. \end{cases}</math> |
g(x) &\text{ falls } y\geq y^*. \end{cases}</math> |
||
Der Schwellenwert <math>y^*</math> ist dabei ein <math>\alpha</math>-Quantil, das |
Der Schwellenwert <math>y^*</math> ist dabei ein <math>\alpha</math>-Quantil, das heißt <math>p(y\leq y^{*})=\alpha</math>. |
||
Die Dichten <math>l(x)</math> und <math>g(x)</math> werden dann mit Hilfe von Kerndichteschätzern konstruiert. Für <math>l(x)</math> werden die Observationen <math>\{x_i\}</math> mit <math>f(x_i)<y^*</math> verwendet. Die restlichen Observationen, für die <math>f(x_k)>y^*</math> gelten, werden zur Konstruktion von <math>g(x)</math> benötigt.<ref>J. S. Bergstra, R. Bardenet, Y. Bengio, B. Kégl: [http://papers.nips.cc/paper/4443-algorithms-for-hyper-parameter-optimization.pdf Algorithms for Hyper-Parameter Optimization]. Advances in Neural Information Processing Systems: 2546–2554 (2011)</ref> |
Die Dichten <math>l(x)</math> und <math>g(x)</math> werden dann mit Hilfe von Kerndichteschätzern konstruiert. Für <math>l(x)</math> werden die Observationen <math>\{x_i\}</math> mit <math>f(x_i)<y^*</math> verwendet. Die restlichen Observationen, für die <math>f(x_k)>y^*</math> gelten, werden zur Konstruktion von <math>g(x)</math> benötigt.<ref>J. S. Bergstra, R. Bardenet, Y. Bengio, B. Kégl: [http://papers.nips.cc/paper/4443-algorithms-for-hyper-parameter-optimization.pdf Algorithms for Hyper-Parameter Optimization]. Advances in Neural Information Processing Systems: 2546–2554 (2011)</ref> |
Version vom 16. Oktober 2022, 17:49 Uhr
Tree-structured Parzen Estimator (kurz Parzen-Tree Estimator oder TPE) sind Schätzer, die unter anderem in der bayesschen Hyperparameteroptimierung verwendet werden, um eine Approximation einer eigentlichen gesuchten Zielfunktion zu konstruieren ( ist der Konfigurationsraum, eine Menge von Hyperparameter und ein Score der Zielfunktion).
Die Idee dahinter ist, dass das Auswerten der eigentlichen Funktion kostspielig ist (z. B. die passende Anzahl an Layers für ein Deep Neural Network zu finden), deshalb möcht man mit Hilfe der die besten Hyperparameter finden, welche später dann in eingesetzt werden. Wir nehmen an, dass der Konfigurationsraum eine Baumstruktur besitzt (z. B. die Anzahl Neuronen auf Layer 4 wird erst bestimmt, wenn es überhaupt mindestens 4 Layers gibt). TPE konstruiert dann einen Baum von Kerndichteschätzern.
Die Funktion wird auch Surrogatsfunktion (oder surrogat probability model) genannt und wird nicht direkt modelliert, stattdessen wendet man den Satz von Bayes an
und modelliert und . Für gibt es keine spezifische Anforderungen.
Die Funktion wird durch Einführung eines Schwellenwertes in zwei Dichten aufgeteilt, so dass diese nicht mehr von abhängen
Der Schwellenwert ist dabei ein -Quantil, das heißt .
Die Dichten und werden dann mit Hilfe von Kerndichteschätzern konstruiert. Für werden die Observationen mit verwendet. Die restlichen Observationen, für die gelten, werden zur Konstruktion von benötigt.[1]
Einzelnachweise
- ↑ J. S. Bergstra, R. Bardenet, Y. Bengio, B. Kégl: Algorithms for Hyper-Parameter Optimization. Advances in Neural Information Processing Systems: 2546–2554 (2011)