Diskussion:Clusteranalyse

Einleitung dieser Diskussionsseite anzeigen

Eine Clusteranalyse der Wikipedia-Artikel wäre einen schönen wissenschaftlichen Artikel wert. Mist, mein Tag hat zu wenig Stunden! -- Nichtich 17:55, 11. Dez 2003 (CET)

HDP

Vielleicht könnte man auch was über nicht-parametrische Cluster Algorithmen wie Hierarchical Dirichlet Processes oder Latent Dirichlet Allocation schreiben? -- RichardSocher

Stimmt das?

"Der k-means-Algorithmus muss nicht notwendigerweise konvergieren." Der konvergiert doch immer, er liefert nur nicht notwendigerweise die optimale Lösung?

-- Mhm, wenn er in leere Cluster läuft, konvergiert er nicht mehr, sondern bricht ab - oder sehe ich das falsch? --

Es kann wohl auch Faelle geben in denen er eine Reihe von moeglichen Loesungen zyklisch durchlaeuft. Dann konvergiert er nicht. Wie das Auftreten leerer Cluster behandelt wird ist Implementierungsabhaengig. Ausser abbrechen kommen z.B. auch noch das zuweisen (eines nach irgendeinem Verfahren ausgewaehlten) Objektes an den leeren Cluster oder das berechnen einer Loesung mit weniger Clustern in frage. Letzteres kann vorallem Sinnvoll sein wenn die tatsaechliche Anzahl der Cluster nicht bekannt ist.

--

Aus dem Paper "On the Worst-Case Complexity of the k-means Method" von Arthur und Vassilvitki geht eindeutig hervor, dass k-means a) keine Lösung mehrmals durchläuft und daurch b) garantiert terminiert.

--

Und das stimmt auch. K-Means terminiert garantiert, da durch das stetige Neuberechnen der "Centroides" grenzwertige Punkte nach Zuweisung "gesichert" werden!

FEHLT (1):

Der BIRCH-Algorithmus fehlt hier ("Balanced Iterative Reducing and Clustering using Hirarchies"). Vielleicht kann ja jemand was dazu schreiben?

Der Artikel wirkt irgendwie zusammengewürfelt. Kann es sein, dass die Partitionierenden Clustering-Verfahren eigentlich auch zu den Hierarchischen Verfahren gehören? Zumindest werden dort auch teilende Verfahren benannt.

FEHLT (2):

es gibt neben hierarchischen und partitionierenden noch dichtebasierte verfahren quelle zb: http://www.diplomarbeit.biz/diplomarbeiten.php/733 ok kostet was aber hab jetzt nicht genauer gesucht

FEHLT (3):

Es gibt noch einen Algorithmus (Unknown-k Algorithmus), der ohne die Vorgabe von $k$ als Anzahl der zu suchenden Cluster im $\Re ^{n}$ auskommt. Der findet die Anzahl der Cluster und modelliert die Cluster als Hyperkugeln (also Kugelzentrum und Radius im $\Re ^{n}$ . Außerdem kann man diesen als Voranalyse zur Bestimmung des $k$ für den k-means Algorithmus nutzen. Gibt es sowas schon bei den anderen hier beschriebenen Algorithmen (Wenn ja, sollte man das noch herausstellen). Falls nein und Interesse besteht, könnte ich dazu etwas schreiben und mit einer Literaturreferenz belegen. Meinungen? --Lusile 10:43, 01. Apr. 2008 (MEZ).

average group linkage

Könnte es sein, dass der Normierungsfaktor 1/|C| falsch ist und eher 1/|C|^2 lauten müsste?

EM-Algorithmus

Letzter Kommentar: vor 18 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

"Die Idee des EM-Algorithmus basiert auf dem Clustern nach k-means." Ich denke das ist nicht ganz richtig. Sowohl der einfache k-means, als auch der hier beschriebene Algorithmus basieren auf dem EM-Algorithmus. So verstehe ich auch die Aussage in "Neural Networks for Pattern Recognition; Christopher M. Bishop" (bei Google books "bishop em k-means" momentan erster Link). --Wumpus3000 01:32, 5. Dez. 2006 (CET)Beantworten

Satzkorrektur

"Die Iteration wird abgebrochen, wenn entweder die Änderung der Likelihood der Daten gegeben die Clustern unter einen vorgegebenen Schwellenwert sinkt, oder die ebenfalls vorgegebene maximale Anzahl von Iterationen erreicht ist."

Dieser Satz ist etwas entstellt. Ich würde ihn forlgendermaßen ändern:

"Die Iteration wird abgebrochen, wenn entweder die Änderungen der Zuordnungswahrscheinlichkeiten unter einen vorgegebenen Schwellenwert sinkt, oder die ebenfalls vorgegebene maximale Anzahl von Iterationen erreicht ist."

Da ich jedoch keine Clustering-Experte bin, bin ich nicht sicher, ob das so korrekt ist .. !?

Literatur

Letzter Kommentar: vor 19 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

... die habe ich nach unter verschoben. Gemeint waren sie wohl als Quellenangaben, deswegen könnte ruhig etwas weniger spezielle Literatur hier Einzug halten. Bitte signieren! --chrislb 问题 20:42, 5. Mai 2006 (CEST)Beantworten

Maximum Margin Clustering

Der Artikel sollte bitte überarbeitet werden. Wenn man nicht tief in der Materie ist, weiß niemand, was hier mit labeln gemeint sein soll. Doch dazu kenne ich mich gerade mit dem Verfahren zu wenig aus.

Weblinks

http://www.fuzzy-clustering.de/

ist Schrott - enthält alten C-Code, der nicht mehr richtig compiliert. Von den Büchern darf man sich die Cover angucken - toll.

anschauliche Einführung in die graphentheoretische Clusteranalyse

http://www-users.rwth-aachen.de/Sven.Dieckert/wp-content/uploads/Clustering.pdf

ist eine bestenfalls sehr mäßige Ausarbeitung.

-> beides entfernt.

Danke für's Aufräumen! -- Nichtich 23:50, 13. Jun 2006 (CEST)

Wenn Euch meine Ausarbeitung nicht gefällt, ok, bin ja kein Mathematiker. Wie wäre es dann aber mit der Originalquelle? Marco Gaertler - Clustering (eng.) Da sind dann auch Beweise dabei. Außerdem ist keine der Methoden im Artikel aufgeführt. --80.138.119.77 08:11, 14. Jun 2006 (CEST) Sven Dieckert

Proseminar- und Seminararbeiten erreichen meist nicht den gewünschten Standard. Generell deswegen lieber weiterführende Quellen. "Originalquelle" ist sehr ausführlich. --chrislb 问题 10:46, 14. Jun 2006 (CEST)

Kategorie

Passt die Kategorie Netzwerk hier oder sollte es vielleicht in Computernetzwerk eingetragen werden? --131.159.14.142 12:53, 24. Jul 2006 (CEST)

Selbstorganisierden Karten?

"Eine andere Möglichkeit unüberwachten Lernens bieten Self-Organizing Maps." <- Was soll das bedeuten? geht es hier um Lernverfahren? SOMs, als Verfahren die unüberwachtes Lernen praktizieren, können auch zur Klassifizierung und somit zum Clustering eingesetzt werden. - Aber was soll dieser seltsame Satz da????