Zum Inhalt springen

Diskussion:K-Means-Algorithmus

Seiteninhalte werden in anderen Sprachen nicht unterstützt.
aus Wikipedia, der freien Enzyklopädie
Dies ist eine alte Version dieser Seite, zuletzt bearbeitet am 29. November 2011 um 12:55 Uhr durch CopperBot (Diskussion | Beiträge) (Bot: Signaturnachtrag für Beitrag von 134.102.206.230: ""). Sie kann sich erheblich von der aktuellen Version unterscheiden.

Letzter Kommentar: vor 13 Jahren von 134.102.206.230 in Abschnitt "Der" k-Means-Algorithmus

Die Grafiken,auf die verwiesen wird (z.B. Bild:K_Means_Example_Step_1.svg) existieren nicht.

"Der" k-Means-Algorithmus

Es gibt nicht "den" k-Means-Algorithmus. Gemeint ist der Lloyd-Algorithmus. Hier muss der Artikel noch besser unterteilt werden. --E. Sinclair 23:54, 12. Jun. 2009 (CEST)Beantworten

erledigtErledigt schon länger geschehen. --Chire 16:06, 10. Aug. 2011 (CEST)Beantworten

Leider ist die Anmerkung von Sinclair falsch. MAcQueen hat in dem Paper von 1967 k-means eingeführt, siehe: MacQueen Some methods for classification and analysis of multivariate observations

Der Algorithmus von LLoyd entspricht auch nicht dem K-means Algorithmus, sondern beschreibt allgemein partitionierendes Clustering. Außerdem ist mir aufgefallen, das nur eine Distanzfunktion gefordert wird, k-Means (und andere partitionierende Verfahren) benötigt aber eine Metrik. Leider verweist der Link von Distanzfunktion zur Metrik, obwohl es sich dabei um sehr verschiedene Dinge handelt. Das ist auch der Unterschied zu k-mediod Verfahren. Ein Median macht an der Stelle leider keinen Sinn, da er führ Mehrdimensionale Daten nicht definiert ist. (nicht signierter Beitrag von 134.102.206.230 (Diskussion) 18:29, 28. Nov. 2011 (CET)) Beantworten

Das war genau die Aussage, dass man wenn man vom "k-means-Algorithmus" spricht, eben meistens nicht MacQueen spricht, sondern meistens den Algorithmus von Lloyd meint - die populärste Approximation für dieses Problem. Und im Artikel steht nun wirklich eindeutig Lloyd-Algorithmus. Mein Vorschlag an dich: füge doch einfach einen Abschnitt hinzu, der den originalen Algorithmus von MacQueen erklärt. Ansonsten, siehe die diversen Referenzen, bspw. MathWorld über die gängige Verwendung des Begriffs. Für Wikipedia ist zunächst mal die gängige Verwendung des Begriffs entscheidend, und da wird meistens k-means mit Lloyd gleichgesetzt, nicht mit dem Original-Ansatz von MacQueen. Es spricht aber natürlich nichts dagegen, MacQueens Algorithmus in den Artikel mit aufzunehmen, als alternativen Ansatz - relevant ist er unzweifelhaft. --Chire 22:13, 28. Nov. 2011 (CET)Beantworten
P.S. Distanzfunktion verweist bewussst auf "Distanzfunktion" im Sinne der Mathematik, und das ist eben eine Metrik; auch wenn in der Informatik der Begriff (mangels einer weit akzeptierten Alternative) auch für nicht-metrische Unähnlichkeitsfunktionen verwendet wird. k-Means nach Lloyd kann man wunderbar ohne Metrik laufen lassen - nur die Konvergenz ist halt dann nicht mehr sichergestellt, und man muss entsprechende Abbruchkriterien bereithalten (die aber auch für numerische instabilitäten gut sein können). K-medoid hat hingegen eine ganz andere Begründung als das fehlen der Dreiecksungleichung. Viel mehr hat man hier nicht das Problem interpolieren zu müssen, wodurch man es auch für nicht-numerische und nicht-kontinuierliche Attribute verwenden kann. Da hilft es aber auch nichts, wenn man auf diesen Daten eine Metrik hätte, wenn man einfach keinen sinnvollen Mittelwert berechnen kann... Nur ein paar Anmerkungen. Wie gesagt, du bist herzlich eingeladen, den Algorithmus von MacQueen in einem eigenen Paragraph zu dokumentieren und seine Vorteile zu diskutieren. Das bringt mehr als hier auf der Diskussion über den Namen zu streiten... --Chire 22:13, 28. Nov. 2011 (CET)Beantworten
Nemen wir einmal den ersten Satz:"Das war genau die Aussage, dass man wenn man vom "k-means-Algorithmus" spricht, eben meistens nicht MacQueen spricht, sondern meistens den Algorithmus von Lloyd meint - die populärste Approximation für dieses Problem."
In dem Artikel taucht MacQueen nicht auf, obwohl er den Begriff in seiner Arbeit von 1967 eingeführt hat. Also wo genau wird denn von einem K-means Problem gesprochen, gibt es dazu Originalarbeiten? Einen k-means Algorithmus gibt es, siehe MacQueen, einen Llyod Algorithmus auch, da fehlt zumindestens ein Verweis auf die Arbeit von Llyod und wieso er als k-means gezeichnet wird.
Ansonsten funktioniert auch der Llyod Algorithmus nicht, wenn man keinen Metrischen Raum hat, denn wie sollen sonst x_i summiert werden?
Und was ist der Median einer mehrdimensionalen Menge? (nicht signierter Beitrag von 134.102.206.230 (Diskussion) 11:25, 29. Nov. 2011 (CET)) Beantworten

Verwendung des Silhouettenkoeffizienten

Der Silhouettenkoeffizient, der bis vor kurzem ein verwaister Artikel war, spielt eine wichtige Rolle beim k-Means-Algorithmus, wenn man mehrere Ergebnisse mit unterschiedlichem k vergleichen will. Es wäre toll wenn das jemand in der Artikel einbauen könnte. Danke! --Chire 16:01, 10. Aug. 2011 (CEST)Beantworten