Meiner Meinung nach fehlt hier die Validierung der Analyseergebnisse. Eine solche ist meistens ja durchaus angebracht, nachdem v.a. bei den hierarchischen Verfahren die Entscheidung über die Anzahl der Cluster sehr subjektiv ausfällt. (nicht signierter Beitrag von77.1.4.12 (Diskussion) 14:19, 24. Jul 2010 (CEST))
Mal abgesehen davon, dass die Aussage falsch ist (die Anzahl der Cluster wird bei den hierarchischen Verfahren durch den Algorithmus selbst ermittelt), habe ich diesen Aspekt bei der Funktionsweise angesprochen, zumindest beschreibend (nicht erklärend). --Albing21:04, 27. Sep. 2010 (CEST)Beantworten
Zusammenhang/Integrität des Artikels (Flickenteppich) - KORRIGIERT
Der Artikel ist total durcheinander und schwer verständlich. Nach 1 Stunde Korrektur hab ich keine Lust mehr, man müsste den ganzen Kram nochmal neu und aus einem Guss schreiben!
-- Albing23:29, 23. Sep. 2010 (CEST)Beantworten
Danke für dein Engagement. Ich denke um den Artikel lesbarer zu bekommen wäre es sinnvoll, ihn in mehrere Artikel zu zerlegen. Er ist momentan eine ziemlich trockene Auflistung von verschiedenen Verfahren, die allesamt besser in eigenen Artikeln beschrieben werden/würden. z.B. könnte man single-link/average-link/maximal-link auslagern. Auch die "Klassifizierung" der Algorithmen ist irgendwo beliebig, finde ich. Ist nicht "partitionierend" und "divisiv" (unter "hierarchisch") irgendwo das gleiche? Ich weiß dass gerne so Klassifiziert wird, aber es wäre vielleicht sinnvoller unabhängig zu unterscheiden nach:
Clustermodell (z.B. Dichte-Verbunden bei DBSCAN, centroid-Modell von kmeans, Covarianzmatrix bei EM)
Sofern man die ausgelagerten Elemente im Hauptartikel verständlich beschreibt sehe ich kein Problem darin. Der konkrete/detaillierte Algorithmus kann dann auch an anderer Stelle beschrieben werden. Irgendjemand muss sich die Mühe machen und die Referenzen einfügen.
> Auch die "Klassifizierung" der Algorithmen ist irgendwo beliebig, finde ich
Die Klassifizierung habe ich aus der wissenschaftlichen Literatur übernommen, und sie ist auch richtig und definitiv nicht gleich (auch wenn der unterschied hier nicht detailliert erklärt wurde). Um die inhaltliche Überarbeitung sollte sich aber sinnvoller Weise ein Mathematiker oder zumindest ein Akademiker aus dem Anwendungsbereich kümmern (BWL/VWL) der mathematischen Aspekte beherrscht. Ich befürworte zwar verständliche Beschreibungen, allerdings möchte ich ungern falsche/fehlende Fakten in diesem Artikel sehen (verursacht durch falsches Transferwissen), dazu hab ich zuviel Zeit reingesteckt ;) Dann lieber noch warten, bis jemand den Unterschied zw. der Kategorien genau erklären oder ergänzen kann. -- Albing12:24, 24. Sep. 2010 (CEST)Beantworten
Dass das in der Literatur oft so Pi-mal-Daumen klassifiziert wird bedeutet nicht, dass es hilfreich ist. Und findest du da irgendwo eine Definition dieser Begriffe? OPTICS z.B. ist ein eng mit DBSCAN verwandtes (also graphentheoretisches) Verfahren, dass aber ein hierarchisches Ergebnis liefert. Also doch "Hierarchisch"?!? --Chire11:59, 26. Sep. 2010 (CEST)Beantworten
Ja, die Begriffe werden durch Erklärungen in der Fachliteratur deutlich, von daher sollte sie auch beibehalten werden (sie wird zudem in wirklich jeder Fachliteratur verwendet, ich würde sie daher trotzdem stehen lassen und wenn sie tatsächlich unsinnig ist, begründet auf diesen Umstand hinweisen - was ich aber nicht glaube). Ich hatte noch keine Möglichkeit mich da intensiv genug einzuarbeiten. Mal gucken wann ich's nachholen kann, vielleicht ist ja jemand anderes schneller. (mit OPTICS habe ich mich noch nicht beschäftigt, kann daher zu diesem Punkt leider nichts sagen) PS. Hab grad gesehen, Du *bist* Mathematiker LOL, sorry, wollte mit meinem Beitrag oben nicht Deine fachliche Kompetenz angreifen! --Albing14:52, 26. Sep. 2010 (CEST)Beantworten
Nun hab ichs doch noch auf mich genommen... Artikel ist, wenn auch lang, endlich halbwegs zusammenhängend, falls es noch weiteren Nachholbedarf gibt, bitte konkret angeben (die Redundanz ist ja auch schon nochmal separat angesprochen und noch offen zur Erledigung). Ich werde sonst sicher noch die ein oder andere Sache überarbeiten. --Albing21:09, 27. Sep. 2010 (CEST)Beantworten
mögliche Fehler / Unterständliches / Fehlendes (in spezifischen Abschnitten im Artikel)
Einleitung wurde wieder auf einen alten fehlerhaften Stand zurückgesetzt. Siehe letzter Abschnitt: Durchgeführte Änderungen / Gelöschte Info (die vielleicht doch noch brauchbar sein könnten).
--Albing18:49, 25. Sep. 2010 (CEST)Beantworten
Ist jetzt zwar korrigiert, aber wirklich verständlich/Fehlerfrei finde ich sie jedoch nicht (Klassifizierung kann meiner Meinung nach sehr wohl zur Gewinnung von Klassen verwendet werden, und ob ich Clusternanalyse als Methode "aus dem Bereich des Datamining" beschreiben würde, weiss ich auch nicht. Würde eher mathematische Methode sagen) --Albing19:06, 2. Okt. 2010 (CEST)Beantworten
Klassifikation ist Definiert als das Zuordnen neuer Objekte zu bekannten Klassen. Also etwas essentiell anderes, geradezu orthogonales Konzept! Was man aber gerne macht, ist eine Clusteranalyse verwenden um Klassen zu erhalten, anschließend mit diesen Klassen eine Klassifikation neuer Daten. Und Clusteranalyse ist geradezu eine Hauptdisziplin des en:Data mining! Viele der modernen Methoden haben auch kein wirklich mathematisches Modell mehr dahinter, das lässt sich nur bei k-Means, EM und ähnlichem noch erstellen, leider. --Chire11:31, 3. Okt. 2010 (CEST)Beantworten
Wenn Du Dir sicher bist, dass Klassifikation nur eine Zuordnung von Objekten zu bekannten Klassen ist (meiner Meinung sagt der Artikel Klassifikation aber etwas andere aus), wie nennt man das Erstellen von Klassen, wenn man nicht die Methoden der Clusteranalyse verwendet?--Albing16:26, 16. Okt. 2010 (CEST)Beantworten
Das die Clusteranalyse eine der Hauptmethoden beim Datamining ist will ich gar nicht bezweifeln, aber aus/in welcher wissenschaftlichen Disziplin wurde sie entwickelt?--Albing16:26, 16. Okt. 2010 (CEST)Beantworten
Korrektur: "Klassifizierung" wird zumindest hier in Wikipedia auch für die 'händische' Klassenbildung entsprechend einer Fachsystematik; entspricht also nicht dem was man im Englischen als en:Classification (machine learning) bezeichnet. Wovon ich es abgrenzen will ist eben die Automatische Klassifizierung (der Artikel ist leider nicht gerade gut) bzw. Klassifikationsverfahren, da es ein 'erheblicher' Unterschied ist, ob man Vorwissen über die Klassen hat oder nicht (und sich das auch deutlich in den Methoden zeigt, so würde niemand eine Support Vector Machine als Clusteringalgorithmus bezeichnen, sondern als Klassifikator). In wie weit die historische Herkunft von "Clusteranalyse" als Begriff für uns nachvollziehbar ist kann ich nicht beurteilen - für die Einleitung ist eigentlich nur relevant, dass es eben zum Data Mining gehört. Historische Aspekte passen in den entsprechenden Absatz, der ist eh zu kurz. --Chire16:30, 17. Okt. 2010 (CEST)Beantworten
Mathematische Beschreibung der agglomerativen Verfahren - KORRIGIERT
Die Erklärung schein falsch zu sein / bzw. der Author scheint das Thema nicht verstanden zu haben. Beispielsweise ist das Single-Linkage-Verfahren nicht die "Küzeste"-Strecke zw. zwei Clustern sondern Verwendet die kleinste Variable aus dem Cluster zur Neuberechnung der Distanzmatrix. Entsprechend ist das complete linkage Verfahren etc. auch falsch! Möglich das sich die Mathematische Beschreibung aber auch auf etwas anderes Bezieht, daher lasse ich es im Artikel erstmal stehen und füge (sofern ich Zeit hab) die korrekte Beschreibung des Algorithmus im vorhergehenden Abschnitt ein.
--Albing16:46, 25. Sep. 2010 (CEST)Beantworten
Nein, was da steht ist schon korrekt. Evtl. verstehst du die mathematische Notation falsch? Der Abstand zweier Cluster ist hier durchaus definiert als das Minimum über allen paarweisen Abständen, wo ein Element aus dem einen, das andere aus dem anderen Cluster stammt. --Chire11:02, 26. Sep. 2010 (CEST)Beantworten
Ja, Du hast recht, das operative Wort war "aus den beiden Cluster" (und nicht ausserhalb der Cluster). Ich werd das {{Bearbeiten}} folglich entfernen. --Albing15:08, 26. Sep. 2010 (CEST)Beantworten
Im Abschnitt Geschichte (hier) wird vom automatischen Berechnungsverfahren gesprochen, ist damit ein formalisiertes Berechnungsverfahren gemeint, das automatisch ausgeführt werden kann? --Albing11:48, 25. Sep. 2010 (CEST)Beantworten
Naja, es steht da, dass eben keines vorhanden war. Wenn ich dem Verweis Kladistik folge, komme ich zu anscheinend manuell erstellten Dendogrammen ("Kladogramm"). Die wurden vermutlich nicht berechnet, sondern von Domänenexperten manuell entworfen. In wie weit sich der "Geschichte"-Paragraph auf Clustering oder Dendrogramme bezieht kann ich nicht beurteilen. --Chire13:44, 25. Sep. 2010 (CEST)Beantworten
Beim average linkage clustering passt das Bild nicht dazu. Bei Betrachtung des Bildes geht man davon aus, dass die Distanz zwischen zwei Clustern die Distanz zwischen dessen Mittelpunkten ist. Dies ist aber nicht der Fall. Beim average linkage wird der Durchschnitt zwischen allen Distanzen zwischen allen Objekten der beiden Cluster gebildet. Es gibt durchaus Fälle in denen es da einen Unterschied gibt.
-- 141.52.46.25011:20, 27. Mai 2011 (CEST)Beantworten
Könnte es sein, dass der Normierungsfaktor 1/|C| falsch ist (hier) und eher 1/|C|^2 lauten müsste?
Ich kenne zwar die "average group linkage" nicht, mathematisch gesehen ist das aber in der Tat so, dass man für den Mittelwert hier |C|^2 verwenden muss. Wobei x!=y noch ganz sinnvoll wäre, dann ändert sich der Faktor nochmals. Im Endeffekt spielt heutzutage aber wohl nur single-link eine ernstzunehmende Rolle, für den es wenigstens ein effizientes Verfahren gibt. Complete Linkage/Average Linkage kenne ich vor allem als "historisch". --Chire13:49, 25. Sep. 2010 (CEST)Beantworten
"Die Idee des EM-Algorithmus basiert auf dem Clustern nach k-means."
Ich denke das ist nicht ganz richtig. Sowohl der einfache k-means, als auch der hier beschriebene Algorithmus basieren auf dem EM-Algorithmus.
So verstehe ich auch die Aussage in "Neural Networks for Pattern Recognition; Christopher M. Bishop" (bei Google books "bishop em k-means" momentan erster Link). --Wumpus300001:32, 5. Dez. 2006 (CET)Beantworten
Historisch gesehen wird es anders rum sein. EM ist i.d.R. auf 1977 datiert, der Algorithmus k-Means auf 1956. Man muss hier aber unterscheiden zwischen "dem" EM-Algorithmus, und dem allgemeinen Expect-Maximize-Prinzip. k-means ist faktisch ein auf dem expect-maximize-Prinzip basierender Algorithmus. Diese Abstraktion hat man aber wohl erst später gefunden. "Der" EM-Algorithmus selbst ist auch nur eine inkarnation des Expect-Maximize-Prinzips, und zwar mit Gaussverteilungen als Modell (statt nearest-cluster-center). Man kann ihn sehr gut als "Weiterentwicklung" von k-Means auf ein komplexeres Modell verstehen. --Chire13:38, 25. Sep. 2010 (CEST)Beantworten
"Die Iteration wird abgebrochen, wenn entweder die Änderung der Likelihood der Daten gegeben die Clustern unter einen vorgegebenen Schwellenwert sinkt, oder die ebenfalls vorgegebene maximale Anzahl von Iterationen erreicht ist."
Dieser Satz ist etwas entstellt. Ich würde ihn forlgendermaßen ändern:
"Die Iteration wird abgebrochen, wenn entweder die Änderungen der Zuordnungswahrscheinlichkeiten unter einen vorgegebenen Schwellenwert sinkt, oder die ebenfalls vorgegebene maximale Anzahl von Iterationen erreicht ist."
Nach dem Hinweis auf die zwei Schritte heißt es:
Die Iteration wird abgebrochen, wenn entweder die Änderung der Likelihood der Daten gegeben die Clustern unter einen vorgegebenen Schwellenwert sinkt, oder die ebenfalls vorgegebene maximale Anzahl von Iterationen erreicht ist.
Was ist hier gemeint?
Hans Dunkelberg18:20, 6. Nov. 2009 (CET)Beantworten
Der Artikel sollte bitte überarbeitet werden. Wenn man nicht tief in der Materie ist, weiß niemand, was hier mit labeln gemeint sein soll. Doch dazu kenne ich mich gerade mit dem Verfahren zu wenig aus.
Der BIRCH-Algorithmus fehlt hier ("Balanced Iterative Reducing and Clustering using Hirarchies"). Vielleicht kann ja jemand was dazu schreiben? Der Artikel wirkt irgendwie zusammengewürfelt. Kann es sein, dass die Partitionierenden Clustering-Verfahren eigentlich auch zu den Hierarchischen Verfahren gehören? Zumindest werden dort auch teilende Verfahren benannt. --Lusile 10:43, 01. Apr. 2008 (MEZ).
es gibt neben hierarchischen und partitionierenden noch dichtebasierte verfahren
quelle zb: http://www.diplomarbeit.biz/diplomarbeiten.php/733
ok kostet was aber hab jetzt nicht genauer gesucht --Lusile 10:43, 01. Apr. 2008 (MEZ).
Es gibt noch einen Algorithmus (Unknown-k Algorithmus), der ohne die Vorgabe von als Anzahl der zu suchenden Cluster im auskommt. Der findet die Anzahl der Cluster und modelliert die Cluster als Hyperkugeln (also Kugelzentrum und Radius im . Außerdem kann man diesen als Voranalyse zur Bestimmung des für den k-means Algorithmus nutzen. Gibt es sowas schon bei den anderen hier beschriebenen Algorithmen (Wenn ja, sollte man das noch herausstellen). Falls nein und Interesse besteht, könnte ich dazu etwas schreiben und mit einer Literaturreferenz belegen. Meinungen? --Lusile 10:43, 01. Apr. 2008 (MEZ).
Vielleicht könnte man auch was über nicht-parametrische Cluster Algorithmen wie Hierarchical Dirichlet Processes oder Latent Dirichlet Allocation schreiben? -- RichardSocher
EM-Algorithmus und sicher noch manch anderes hier hat eigene Wikipedia-Seiten. Ich denke wir sollten ihre Diskussion auf dieser Seite entfernen, und nur auf den jeweiligen Hauptartikel verweisen.
Natürlich sind k-means und EM essentielle Algorithmen für das Verständnis von Clusteranalyse, aber muss man sie hier wirklich wiederholen? --Chire12:07, 21. Mär. 2010 (CET)Beantworten
Das Beispiel ist meiner Meinung nach ein Beispiel für die Interpretation einer Clusteranalyse und nicht für die Clusteranalyse selbst, sagt der Autor ja sogar selber. --Albing15:33, 27. Sep. 2010 (CEST)Beantworten
Als "falsch" würde ich es nicht bezeichnen; auf jeden Fall nicht "falscher" als das Beispiel Jazz/Pop/usw. - das am einfachsten Verständliche Ziel einer Clusteranalyse ist es eben, derartig interpretierbare Cluster zu erhalten. Besser wäre aber ein Beispiel wo keine reinen Cluster herauskommen, evtl. eine Klasse in zwei "unintuitive" Cluster zerteilt wurde, dafür zwei andere Klassen nicht. Evtl. mal en:Iris_flower_data_set durch ein Clustering-Verfahren laufen lassen; der Datensatz sollte i.d.R. nur in in zwei Cluster zerfallen, obwohl es drei Klassen gibt. Aber ohne das Vorwissen der Labels kann man die lineare Trennung eben nicht finden.
Jedenfalls gehört der Punkt "Interpretation" schon angesprochen, auch wenn er für die meisten Algorithmen leider keine Rolle spielt - für die Anwender um so mehr! Das Ziel einer Clusteranalyse ist eben all zu oft das Finden von "interpretierbaren" relevanten Gruppen. Dann kann man (wie in dem eingefügten Abschnitt) auch auf die Interpretationsprobleme eingehen. --Chire15:50, 27. Sep. 2010 (CEST)Beantworten
da ich ja inzw. ein anderes Beispiel mit konkreten Daten (wenn auch fiktiv) eingefügt hab, habe ich den Absatz rausgenommen. Das die Cluster interpretiert werden müssen, steht ja inzwischen auch bei den Schritten der Clusteranalyse. --Albing19:00, 2. Okt. 2010 (CEST)Beantworten
Sorry, ich finde dein Beispiel ist kein adäquater Ersatz. Es ist viel zu sehr auf ein konkretes Verfahren (in dem agglomerativ) bezogen, zu lang/ausführlich und m.E. zu sehr auf Marktsegmentierung bezogen. Ein kompaktes Beispiel dass erklären soll was man sich durch eine Clusteranalyse erhofft und wo die Probleme liegen (Erklärbarkeit) halte ich für wichtig. Ich habe gerade eine Idee, wie man das erste Beispiel da etwas modifizieren könnte. Mal sehen. --Chire11:40, 3. Okt. 2010 (CEST)Beantworten
Das ist mir nicht ganz klar, wie soll man ein konkretes Beispiel für eine Clusteranalyse machen, ohne einen konkreten Algorithmus bzw. ein konkretes Szenario zu verwenden?--Albing17:24, 16. Okt. 2010 (CEST)Beantworten
Die Clusteranalyse als das nehmen, was sie meistens ist: eine "Black Box", in die ich die Daten reinpacke und Gruppen (genannt "Cluster") herausbekomme. Konkrete Algorithmen werden in separaten Artikeln beschrieben, das ist das abstrakte Modell einer Clusteranalyse. --Chire16:18, 17. Okt. 2010 (CEST)Beantworten
k-Means Ergebnis und reale Iris-Spezies in einem Datensatz, visualisiert mit ELKI. Die Clusterzentren sind durch größere, blassere Symbole gekennzeichnet. Ich habe ein Beispiel mit dem angesprochenen Datensatz erstellt. Mit diesen Startwerten hat k-Means trotz richtigem k prompt inkorrekte Cluster erzeugt. Vielleicht können wir das irgendwo einbauen? Das hier wäre ja sogar ein echtes Beispiel, kein synthetisches. --Chire09:26, 7. Okt. 2010 (CEST)Beantworten
Das Beispiel sieht gut aus. Würde ich so beim k-Means Alg. zur Visualisierung verwenden. Man sollte aber Iris-Spezies erklären, sofern es im Artikel noch nicht erwähnt wird (Dein Link in der Bildbeschreibung, verweist nur auf eine Begriffsklärung)--Albing17:24, 16. Okt. 2010 (CEST)Beantworten
Fehler im Abschnitt Unterscheidung der Clusterverfahren?
Im Abschnitt zur Unterscheidung der Clusterverfahren ist die Zuorndung von agglomerativ und divisiv bei den hierarchischen Verhafren meiner Meinung nach genau falsch herum. Dort heißt es, dass agglomerativ die gröbste und divisiv die feinste anfängliche Partition beschreiben. Aber es ist doch so, dass das agglomerative Verfahren jedes Objekt als ein Cluster sieht und dann CLuster zusammenfasst und divisiv mit einem großen Cluster anfängt und dieses dann immer weiter aufteilt. Müssten dann also in der Beschreibung die Wörter "grob" und "fein" nicht genau vertauscht werden? -- Ois cool13:21, 12. Dez. 2011 (CET)Beantworten
Bei der Einleitung fehlt mir ganz eindeutig die Abgrenzung zum Classification-Ansatz! Clusteranalyse ist konzeptionell etwas völlig anderes als Klassifikation.
Der Kommentar über Marketing gehört nicht in die Einleitung, das ist ein Anwendungsbeispiel. Außerdem ist "weil es visuell präsentiert werden kann" keine sinnvolle Aussage. Alles kann visuell präsentiert werden, in welcher Form auch immer.
Ich schlage folgende Sätze direkt im Anschluss an den ersten Absatz vor:
Clusteranalyse dient der automatischen Aufteilung von Daten in gleichartige Gruppen. Im Unterschied zur Klassifikation wird jedoch kein Gruppierungsschema (Klassen) vorgegeben, stattdessen erfolgt die Gruppierung automatisch mittels eines Optimierungsschemas das von der konkreten Wahl des Clusteralgorithmus abhängt. Die Clusteranalyse ist somit ein objektiverer und abstrakterer Ansatz als Klassifikation und ist insbesondere dann sinnvoll, wenn ein neuer oder unbekannter Datensatz vorliegt.
:: Natürlich werden bei der Klassifikation in ein *vorhandenes* Schema keine neuen Klassen gebildet. Das Ziel der Clusteranalyse ist es, die Objekte in ein noch nicht vorhandenes Schema einzuordnen bzw. dieses Schema zu erstellen. Also konzeptionell nicht etwas völlig anderes sondern inkl. der Vorstufe der Klassenbildung! Den Kommentar habe ich entfernt. --Albing17:20, 25. Sep. 2010 (CEST)Beantworten
In der Tat ist eine Abgrenzung zur Klassifikation sinnvoll. Jedoch ist es durchaus denkbar auf bestehenden Klassendaten mit Hilfe der agglomerativen Verfahren eine Hierarchie zu konstruieren. Außer der Verwendung von Klassen-Vorwissen hat es aber nicht viel mit Klassifikation zu tun. --Chire10:59, 26. Sep. 2010 (CEST)Beantworten
"Eine andere Möglichkeit unüberwachten Lernens bieten Self-Organizing Maps." <- Was soll das bedeuten? geht es hier um Lernverfahren? SOMs, als Verfahren die unüberwachtes Lernen praktizieren, können auch zur Klassifizierung und somit zum Clustering eingesetzt werden. - Aber was soll dieser seltsame Satz da????
wahrscheinlich eine Einsatzmöglichkeit der SOMs, würde ich vermuten. Na, wer nimmt die Aufgabe auf sich und geht "googlen", um das genau rauszufinden? --Albing13:55, 24. Sep. 2010 (CEST)Beantworten
Im Text steht, dass es sich um eine "weiche" Zuordnung handelt. Also jedes Objekt allen Klassen mit einer gewissen W'keit zugeordnet ist. Handelt es sich dann nicht um Fuzzy Clustering Verfahren?
84.163.197.16916:03, 4. Sep. 2008 (CEST)Beantworten
Ich habe in der Einleitung des Abschnitts "Algorithmen" einen Absatz über harte und weiche Algorithmen ergänzt. Ich habe das aufgrund meiner praktischen Erfahrung mit diesen Algorithmen geschrieben. Es sollte aber noch einmal jemand mit mehr theoretischem Hintergrundwissen drüber lesen.
Gruß, Benutzer:Rene.andrae, 28. Juli 2008, 17:08
Danke für's Aufräumen! -- Nichtich 23:50, 13. Jun 2006 (CEST)
Wenn Euch meine Ausarbeitung nicht gefällt, ok, bin ja kein Mathematiker. Wie wäre es dann aber mit der Originalquelle?
Marco Gaertler - Clustering (eng.)
Da sind dann auch Beweise dabei. Außerdem ist keine der Methoden im Artikel aufgeführt.
--80.138.119.77 08:11, 14. Jun 2006 (CEST) Sven Dieckert
Proseminar- und Seminararbeiten erreichen meist nicht den gewünschten Standard. Generell deswegen lieber weiterführende Quellen. "Originalquelle" ist sehr ausführlich. --chrislb问题 10:46, 14. Jun 2006 (CEST)
"Der k-means-Algorithmus muss nicht notwendigerweise konvergieren."
Der konvergiert doch immer, er liefert nur nicht notwendigerweise die optimale Lösung?
--
Mhm, wenn er in leere Cluster läuft, konvergiert er nicht mehr, sondern bricht ab - oder sehe ich das falsch?
--
Es kann wohl auch Faelle geben in denen er eine Reihe von moeglichen Loesungen zyklisch durchlaeuft. Dann konvergiert er nicht.
Wie das Auftreten leerer Cluster behandelt wird ist Implementierungsabhaengig. Ausser abbrechen kommen z.B. auch noch das zuweisen (eines nach irgendeinem Verfahren ausgewaehlten) Objektes an den leeren Cluster oder das berechnen einer Loesung mit weniger Clustern in frage. Letzteres kann vorallem Sinnvoll sein wenn die tatsaechliche Anzahl der Cluster nicht bekannt ist.
--
Aus dem Paper "On the Worst-Case Complexity of the k-means Method" von Arthur und Vassilvitki geht eindeutig hervor, dass k-means
a) keine Lösung mehrmals durchläuft und daurch
b) garantiert terminiert.
--
Und das stimmt auch. K-Means terminiert garantiert, da durch das stetige Neuberechnen der "Centroides" grenzwertige Punkte nach Zuweisung "gesichert" werden!
K-Means konvergiert, solange man ihn nicht zu doof implementiert (und wenn man das "verlieren" eines Clusters akzeptiert; das passiert aber normalerweise nur am Anfang). Nur die Begründung hier stimmt nicht. Durch das Neuberechnen des Centroides kann ein Cluster ja sehr wohl auch einen Punkt verlieren. Die Frage ist nur, ob die Lösung am Ende brauchbar ist, oder nicht ein Zwischenergebnis sogar besser gewesen wäre. k-Means hat ganz andere Probleme, er ist eigentlich nur für recht gutartige Daten brauchbar, man braucht eine gute Heuristik um k zu wählen und die initialen Clusterzentren. Unter diesen Voraussetzungen ist es aber meistens sinnvoller gleich DBSCAN oder OPTICS zu verwenden. Die sind nicht komplizierter, aber doch deutlich einfacher zu verwenden. Das attraktivste an k-Means ist, dass man daraus trivial einen extrem billigen Klassifikator bekommt. Nach DBSCAN/OPTICS müsste man erst zusätzlich einen Klassifikator trainieren (kann dann aber auch gleich einen etwas mächtigeren verwenden) --Chire17:34, 8. Mai 2010 (CEST)Beantworten
Letzter Kommentar: vor 14 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt
Dieses Bild habe ich eben beim EM-Algorithmus eingebaut, um Vorteile des EM gegenüber k-means zu erklären. Evtl. könnte man dies als Beispiel schon hier bringen, da m.E. k-Means hier etwas überrepräsentiert ist. In den k-Means-Artikel könnte es aber genauso rein... --Chire17:48, 12. Okt. 2010 (CEST)Beantworten
Im großen und ganzen geb' ich dir recht. Gleichzeitig sollten halt die wichtigen Algorithmen dennoch nicht nur in einem Satz abgetan werden, und in der Praxis eher selten genutzte Verfahren (selbst maximum-margin scheint primär in der SVM-Forschungs-Community bekannt zu sein, aber gibt es irgend eine gängige Implementierung? selbst libSVM scheint das nicht zu enthalten!) dafür dann lang diskutiert werden. Da es aber natürlich viele, viele weitere Verfahren gibt, könnte ich mir vorstellen das einfach in einen eigenen Artikel "Algorithmen zur Clusteranalyse" auszulagern. --Chire (Diskussion) 23:33, 5. Okt. 2014 (CEST)Beantworten
Was sind denn "wichtige" Algorithmen? Ich traue mir nicht zu, das zu entscheiden. Deswegen würde ich es besser finden, wenn pro Algorithmus ein (sehr) kurzer Text mit der Idee steht und man dann auf die Einzelartikel verweist (als Überblick). Bei "wichtigen" Verfahren würde ich dann entsprechende lange Einzelartikel erwarten.
Das Buch kenne ich nicht, und auch den Autor habe ich noch nie gehört. (der hier? http://dblp.uni-trier.de/pers/hd/k/King:Ronald_S= ) Von der Bekanntheit des Autors her wäre "Charu C. Aggarwal, Chandan K. Reddy: Data Clustering: Algorithms and Applications. CRC Press 2014, ISBN 978-1-46-655821-2" vielleicht die bessere Wahl als ein aktuelles Buch? Sind wesentlich bekanntere Autoren, die an dem Buch beteiligt sind.
Als Referenz ist auch das Buch "Guojun Gan, Chaoqun Ma, Jianhong Wu: Data Clustering: Theory, Algorithms, and Applications, ASA-SIAM Series on Statistics and Applied Probability, 2007, ISBN 9780898716238" eine gute Wahl, aber es artet bisweilen in ein Aufzählen von publizierten aber nie wirklich genutzten Algorithmen aus. --Chire (Diskussion) 13:08, 10. Okt. 2014 (CEST)Beantworten
Das Buch von King erscheint ja auch erst am 30.10.14. Ich habe das Buch inzwischen rausgenommen. Die Version, die ich hatte doch nicht so toll, wie es zuerst aussah. Vielleicht kann man es unter Literatur aufnehmen. --Sigbert (Diskussion) 17:09, 10. Okt. 2014 (CEST)Beantworten