Diskussion:Clusteranalyse
Bezug auf den Gesamtartikel
Validierung der Analyseergebnisse
Meiner Meinung nach fehlt hier die Validierung der Analyseergebnisse. Eine solche ist meistens ja durchaus angebracht, nachdem v.a. bei den hierarchischen Verfahren die Entscheidung über die Anzahl der Cluster sehr subjektiv ausfällt. (nicht signierter Beitrag von 77.1.4.12 (Diskussion) 14:19, 24. Jul 2010 (CEST))
Zusammenhang/Integrität des Artikels (Flickenteppich)
Der Artikel ist total durcheinander und schwer verständlich. Nach 1 Stunde Korrektur hab ich keine Lust mehr, man müsste den ganzen Kram nochmal neu und aus einem Guss schreiben! -- Albing 23:29, 23. Sep. 2010 (CEST)
- Danke für dein Engagement. Ich denke um den Artikel lesbarer zu bekommen wäre es sinnvoll, ihn in mehrere Artikel zu zerlegen. Er ist momentan eine ziemlich trockene Auflistung von verschiedenen Verfahren, die allesamt besser in eigenen Artikeln beschrieben werden/würden. z.B. könnte man single-link/average-link/maximal-link auslagern. Auch die "Klassifizierung" der Algorithmen ist irgendwo beliebig, finde ich. Ist nicht "partitionierend" und "divisiv" (unter "hierarchisch") irgendwo das gleiche? Ich weiß dass gerne so Klassifiziert wird, aber es wäre vielleicht sinnvoller unabhängig zu unterscheiden nach:
- Clustermodell (z.B. Dichte-Verbunden bei DBSCAN, centroid-Modell von kmeans, Covarianzmatrix bei EM)
- Hierarchisch (z.B. ERiC, OPTICS) / Flach (z.B. DBSCAN)
- Algorithmisches Vorgehen: greeedy-sequentiell (z.B. DBSCAN, OPTICS) / agglomerativ (single-link) / divisiv / optimierend (z.B. k-Means, EM)
- Unsupervised / Supervised (wobei das ja eher ein Spezialfall ist)
- vielleicht wird das dann auch klarer. --Chire 00:34, 24. Sep. 2010 (CEST)
- > ihn in mehrere Artikel zu zerlegen
- Sofern man die ausgelagerten Elemente im Hauptartikel verständlich beschreibt sehe ich kein Problem darin. Der konkrete/detaillierte Algorithmus kann dann auch an anderer Stelle beschrieben werden. Irgendjemand muss sich die Mühe machen und die Referenzen einfügen.
- > Auch die "Klassifizierung" der Algorithmen ist irgendwo beliebig, finde ich
- Die Klassifizierung habe ich aus der wissenschaftlichen Literatur übernommen, und sie ist auch richtig und definitiv nicht gleich (auch wenn der unterschied hier nicht detailliert erklärt wurde). Um die inhaltliche Überarbeitung sollte sich aber sinnvoller Weise ein Mathematiker oder zumindest ein Akademiker aus dem Anwendungsbereich kümmern (BWL/VWL) der mathematischen Aspekte beherrscht. Ich befürworte zwar verständliche Beschreibungen, allerdings möchte ich ungern falsche/fehlende Fakten in diesem Artikel sehen (verursacht durch falsches Transferwissen), dazu hab ich zuviel Zeit reingesteckt ;) Dann lieber noch warten, bis jemand den Unterschied zw. der Kategorien genau erklären oder ergänzen kann. -- Albing 12:24, 24. Sep. 2010 (CEST)
- Dass das in der Literatur oft so Pi-mal-Daumen klassifiziert wird bedeutet nicht, dass es hilfreich ist. Und findest du da irgendwo eine Definition dieser Begriffe? OPTICS z.B. ist ein eng mit DBSCAN verwandtes (also graphentheoretisches) Verfahren, dass aber ein hierarchisches Ergebnis liefert. Also doch "Hierarchisch"?!? --Chire 11:59, 26. Sep. 2010 (CEST)
- Ja, die Begriffe werden durch Erklärungen in der Fachliteratur deutlich, von daher sollte sie auch beibehalten werden (sie wird zudem in wirklich jeder Fachliteratur verwendet, ich würde sie daher trotzdem stehen lassen und wenn sie tatsächlich unsinnig ist, begründet auf diesen Umstand hinweisen - was ich aber nicht glaube). Ich hatte noch keine Möglichkeit mich da intensiv genug einzuarbeiten. Mal gucken wann ich's nachholen kann, vielleicht ist ja jemand anderes schneller. (mit OPTICS habe ich mich noch nicht beschäftigt, kann daher zu diesem Punkt leider nichts sagen) PS. Hab grad gesehen, Du *bist* Mathematiker LOL, sorry, wollte mit meinem Beitrag oben nicht Deine fachliche Kompetenz angreifen! --Albing 14:52, 26. Sep. 2010 (CEST)
- Dass das in der Literatur oft so Pi-mal-Daumen klassifiziert wird bedeutet nicht, dass es hilfreich ist. Und findest du da irgendwo eine Definition dieser Begriffe? OPTICS z.B. ist ein eng mit DBSCAN verwandtes (also graphentheoretisches) Verfahren, dass aber ein hierarchisches Ergebnis liefert. Also doch "Hierarchisch"?!? --Chire 11:59, 26. Sep. 2010 (CEST)
mögliche Fehler / Unterständliches / Fehlendes (in spezifischen Abschnitten im Artikel)
Einleitung - KORRIGIERT
Einleitung wurde wieder auf einen alten fehlerhaften Stand zurückgesetzt. Siehe letzter Abschnitt: Durchgeführte Änderungen / Gelöschte Info (die vielleicht doch noch brauchbar sein könnten). --Albing 18:49, 25. Sep. 2010 (CEST)
Mathematische Beschreibung der agglomerativen Verfahren - KORRIGIERT
Die Erklärung schein falsch zu sein / bzw. der Author scheint das Thema nicht verstanden zu haben. Beispielsweise ist das Single-Linkage-Verfahren nicht die "Küzeste"-Strecke zw. zwei Clustern sondern Verwendet die kleinste Variable aus dem Cluster zur Neuberechnung der Distanzmatrix. Entsprechend ist das complete linkage Verfahren etc. auch falsch! Möglich das sich die Mathematische Beschreibung aber auch auf etwas anderes Bezieht, daher lasse ich es im Artikel erstmal stehen und füge (sofern ich Zeit hab) die korrekte Beschreibung des Algorithmus im vorhergehenden Abschnitt ein. --Albing 16:46, 25. Sep. 2010 (CEST)
- Nein, was da steht ist schon korrekt. Evtl. verstehst du die mathematische Notation falsch? Der Abstand zweier Cluster ist hier durchaus definiert als das Minimum über allen paarweisen Abständen, wo ein Element aus dem einen, das andere aus dem anderen Cluster stammt. --Chire 11:02, 26. Sep. 2010 (CEST)
- Ja, Du hast recht, das operative Wort war "aus den beiden Cluster" (und nicht ausserhalb der Cluster). Ich werd das {{Bearbeiten}} folglich entfernen. --Albing 15:08, 26. Sep. 2010 (CEST)
Abschnitt Geschichte: "automatisches Berechnungsverfahren" - KORRIGIERT
Im Abschnitt Geschichte (hier) wird vom automatischen Berechnungsverfahren gesprochen, ist damit ein formalisiertes Berechnungsverfahren gemeint, das automatisch ausgeführt werden kann? --Albing 11:48, 25. Sep. 2010 (CEST)
- Naja, es steht da, dass eben keines vorhanden war. Wenn ich dem Verweis Kladistik folge, komme ich zu anscheinend manuell erstellten Dendogrammen ("Kladogramm"). Die wurden vermutlich nicht berechnet, sondern von Domänenexperten manuell entworfen. In wie weit sich der "Geschichte"-Paragraph auf Clustering oder Dendrogramme bezieht kann ich nicht beurteilen. --Chire 13:44, 25. Sep. 2010 (CEST)
- dann werd ich's mal in formal/automatisch ändern. Bearbeitungs-Baustein wird entfernt. --Albing 15:13, 26. Sep. 2010 (CEST)
- Eine "formalität" würde ich ihnen mal nicht absprechen. Aber sie haben es halt von Hand gemacht, nicht automatisch. --Chire 21:19, 26. Sep. 2010 (CEST)
average group linkage - KORRIGIERT
Könnte es sein, dass der Normierungsfaktor 1/|C| falsch ist (hier) und eher 1/|C|^2 lauten müsste?
- Ich kenne zwar die "average group linkage" nicht, mathematisch gesehen ist das aber in der Tat so, dass man für den Mittelwert hier |C|^2 verwenden muss. Wobei x!=y noch ganz sinnvoll wäre, dann ändert sich der Faktor nochmals. Im Endeffekt spielt heutzutage aber wohl nur single-link eine ernstzunehmende Rolle, für den es wenigstens ein effizientes Verfahren gibt. Complete Linkage/Average Linkage kenne ich vor allem als "historisch". --Chire 13:49, 25. Sep. 2010 (CEST)
EM-Algorithmus - KORRIGIERT
"Die Idee des EM-Algorithmus basiert auf dem Clustern nach k-means." Ich denke das ist nicht ganz richtig. Sowohl der einfache k-means, als auch der hier beschriebene Algorithmus basieren auf dem EM-Algorithmus. So verstehe ich auch die Aussage in "Neural Networks for Pattern Recognition; Christopher M. Bishop" (bei Google books "bishop em k-means" momentan erster Link). --Wumpus3000 01:32, 5. Dez. 2006 (CET)
- Historisch gesehen wird es anders rum sein. EM ist i.d.R. auf 1977 datiert, der Algorithmus k-Means auf 1956. Man muss hier aber unterscheiden zwischen "dem" EM-Algorithmus, und dem allgemeinen Expect-Maximize-Prinzip. k-means ist faktisch ein auf dem expect-maximize-Prinzip basierender Algorithmus. Diese Abstraktion hat man aber wohl erst später gefunden. "Der" EM-Algorithmus selbst ist auch nur eine inkarnation des Expect-Maximize-Prinzips, und zwar mit Gaussverteilungen als Modell (statt nearest-cluster-center). Man kann ihn sehr gut als "Weiterentwicklung" von k-Means auf ein komplexeres Modell verstehen. --Chire 13:38, 25. Sep. 2010 (CEST)
EM-Algorithmus - Satzkorrektur zu Iteration
"Die Iteration wird abgebrochen, wenn entweder die Änderung der Likelihood der Daten gegeben die Clustern unter einen vorgegebenen Schwellenwert sinkt, oder die ebenfalls vorgegebene maximale Anzahl von Iterationen erreicht ist."
Dieser Satz ist etwas entstellt. Ich würde ihn forlgendermaßen ändern:
"Die Iteration wird abgebrochen, wenn entweder die Änderungen der Zuordnungswahrscheinlichkeiten unter einen vorgegebenen Schwellenwert sinkt, oder die ebenfalls vorgegebene maximale Anzahl von Iterationen erreicht ist."
Da ich jedoch keine Clustering-Experte bin, bin ich nicht sicher, ob das so korrekt ist .. !? Masala 13:16, 2. Apr. 2008 (CEST)
Nach dem Hinweis auf die zwei Schritte heißt es:
Die Iteration wird abgebrochen, wenn entweder die Änderung der Likelihood der Daten gegeben die Clustern unter einen vorgegebenen Schwellenwert sinkt, oder die ebenfalls vorgegebene maximale Anzahl von Iterationen erreicht ist.
Was ist hier gemeint?
Hans Dunkelberg 18:20, 6. Nov. 2009 (CET)
Maximum Margin Clustering
Der Artikel sollte bitte überarbeitet werden. Wenn man nicht tief in der Materie ist, weiß niemand, was hier mit labeln gemeint sein soll. Doch dazu kenne ich mich gerade mit dem Verfahren zu wenig aus.
Fehlende Algorithmen:
BIRCH-Algorithmus
Der BIRCH-Algorithmus fehlt hier ("Balanced Iterative Reducing and Clustering using Hirarchies"). Vielleicht kann ja jemand was dazu schreiben? Der Artikel wirkt irgendwie zusammengewürfelt. Kann es sein, dass die Partitionierenden Clustering-Verfahren eigentlich auch zu den Hierarchischen Verfahren gehören? Zumindest werden dort auch teilende Verfahren benannt. --Lusile 10:43, 01. Apr. 2008 (MEZ).
dichtebasierte verfahren
es gibt neben hierarchischen und partitionierenden noch dichtebasierte verfahren quelle zb: http://www.diplomarbeit.biz/diplomarbeiten.php/733 ok kostet was aber hab jetzt nicht genauer gesucht --Lusile 10:43, 01. Apr. 2008 (MEZ).
Unknown-k Algorithmus
Es gibt noch einen Algorithmus (Unknown-k Algorithmus), der ohne die Vorgabe von als Anzahl der zu suchenden Cluster im auskommt. Der findet die Anzahl der Cluster und modelliert die Cluster als Hyperkugeln (also Kugelzentrum und Radius im . Außerdem kann man diesen als Voranalyse zur Bestimmung des für den k-means Algorithmus nutzen. Gibt es sowas schon bei den anderen hier beschriebenen Algorithmen (Wenn ja, sollte man das noch herausstellen). Falls nein und Interesse besteht, könnte ich dazu etwas schreiben und mit einer Literaturreferenz belegen. Meinungen? --Lusile 10:43, 01. Apr. 2008 (MEZ).
HDP
Vielleicht könnte man auch was über nicht-parametrische Cluster Algorithmen wie Hierarchical Dirichlet Processes oder Latent Dirichlet Allocation schreiben? -- RichardSocher
Redundanz mit anderen Wikipediaartikeln
K-means-Algorithmus
K-means-Algorithmus, EM-Algorithmus und sicher noch manch anderes hier hat eigene Wikipedia-Seiten. Ich denke wir sollten ihre Diskussion auf dieser Seite entfernen, und nur auf den jeweiligen Hauptartikel verweisen. Natürlich sind k-means und EM essentielle Algorithmen für das Verständnis von Clusteranalyse, aber muss man sie hier wirklich wiederholen? --Chire 12:07, 21. Mär. 2010 (CET)
GDBSCAN-Beschreibung
Die GDBSCAN-Beschreibung beschreibt eigentlich DBSCAN. Der Algorithmus könnte eigentlich auch eine eigene Seite bekommen ... --Chire 12:37, 21. Mär. 2010 (CET)
unvollständige Zusatzinformationen / unbegründete Behauptungen (wurden aus dem Artikel entfernt)
Präsentierungsmöglichket
Ein besonderer Vorteil der Clusteranalysen ist die gute visuelle Präsentierungsmöglichket.
Durchgeführte Änderungen / Gelöschte Info (die vielleicht doch noch brauchbar sein könnten)
Einleitung - KORRIGIERT
Bei der Einleitung fehlt mir ganz eindeutig die Abgrenzung zum Classification-Ansatz! Clusteranalyse ist konzeptionell etwas völlig anderes als Klassifikation.
Der Kommentar über Marketing gehört nicht in die Einleitung, das ist ein Anwendungsbeispiel. Außerdem ist "weil es visuell präsentiert werden kann" keine sinnvolle Aussage. Alles kann visuell präsentiert werden, in welcher Form auch immer.
Ich schlage folgende Sätze direkt im Anschluss an den ersten Absatz vor:
- Clusteranalyse dient der automatischen Aufteilung von Daten in gleichartige Gruppen. Im Unterschied zur Klassifikation wird jedoch kein Gruppierungsschema (Klassen) vorgegeben, stattdessen erfolgt die Gruppierung automatisch mittels eines Optimierungsschemas das von der konkreten Wahl des Clusteralgorithmus abhängt. Die Clusteranalyse ist somit ein objektiverer und abstrakterer Ansatz als Klassifikation und ist insbesondere dann sinnvoll, wenn ein neuer oder unbekannter Datensatz vorliegt.
Ich bitte um Meinungen.
Gruß, Benutzer:Rene.andrae, 10. März 2009, 21:11
:: Natürlich werden bei der Klassifikation in ein *vorhandenes* Schema keine neuen Klassen gebildet. Das Ziel der Clusteranalyse ist es, die Objekte in ein noch nicht vorhandenes Schema einzuordnen bzw. dieses Schema zu erstellen. Also konzeptionell nicht etwas völlig anderes sondern inkl. der Vorstufe der Klassenbildung! Den Kommentar habe ich entfernt. --Albing 17:20, 25. Sep. 2010 (CEST)
- In der Tat ist eine Abgrenzung zur Klassifikation sinnvoll. Jedoch ist es durchaus denkbar auf bestehenden Klassendaten mit Hilfe der agglomerativen Verfahren eine Hierarchie zu konstruieren. Außer der Verwendung von Klassen-Vorwissen hat es aber nicht viel mit Klassifikation zu tun. --Chire 10:59, 26. Sep. 2010 (CEST)
Selbstorganisierden Karten? - KORRIGIERT
"Eine andere Möglichkeit unüberwachten Lernens bieten Self-Organizing Maps." <- Was soll das bedeuten? geht es hier um Lernverfahren? SOMs, als Verfahren die unüberwachtes Lernen praktizieren, können auch zur Klassifizierung und somit zum Clustering eingesetzt werden. - Aber was soll dieser seltsame Satz da????
- wahrscheinlich eine Einsatzmöglichkeit der SOMs, würde ich vermuten. Na, wer nimmt die Aufgabe auf sich und geht "googlen", um das genau rauszufinden? --Albing 13:55, 24. Sep. 2010 (CEST)
Nicht fuzzy - KORRIGIERT
Im Text steht, dass es sich um eine "weiche" Zuordnung handelt. Also jedes Objekt allen Klassen mit einer gewissen W'keit zugeordnet ist. Handelt es sich dann nicht um Fuzzy Clustering Verfahren? 84.163.197.169 16:03, 4. Sep. 2008 (CEST)
- Richtig! --Albing 12:36, 24. Sep. 2010 (CEST)
Hard and soft clustering - KORRIGIERT =
Ich habe in der Einleitung des Abschnitts "Algorithmen" einen Absatz über harte und weiche Algorithmen ergänzt. Ich habe das aufgrund meiner praktischen Erfahrung mit diesen Algorithmen geschrieben. Es sollte aber noch einmal jemand mit mehr theoretischem Hintergrundwissen drüber lesen.
Gruß, Benutzer:Rene.andrae, 28. Juli 2008, 17:08
Weblinks - KORRIGIERT
ist Schrott - enthält alten C-Code, der nicht mehr richtig compiliert. Von den Büchern darf man sich die Cover angucken - toll.
- anschauliche Einführung in die graphentheoretische Clusteranalyse
http://www-users.rwth-aachen.de/Sven.Dieckert/wp-content/uploads/Clustering.pdf
ist eine bestenfalls sehr mäßige Ausarbeitung.
-> beides entfernt.
- Danke für's Aufräumen! -- Nichtich 23:50, 13. Jun 2006 (CEST)
Wenn Euch meine Ausarbeitung nicht gefällt, ok, bin ja kein Mathematiker. Wie wäre es dann aber mit der Originalquelle? Marco Gaertler - Clustering (eng.) Da sind dann auch Beweise dabei. Außerdem ist keine der Methoden im Artikel aufgeführt. --80.138.119.77 08:11, 14. Jun 2006 (CEST) Sven Dieckert
- Proseminar- und Seminararbeiten erreichen meist nicht den gewünschten Standard. Generell deswegen lieber weiterführende Quellen. "Originalquelle" ist sehr ausführlich. --chrislb 问题 10:46, 14. Jun 2006 (CEST)
Stimmt das? k-means-Algorithmus - KORRIGIERT
"Der k-means-Algorithmus muss nicht notwendigerweise konvergieren." Der konvergiert doch immer, er liefert nur nicht notwendigerweise die optimale Lösung?
-- Mhm, wenn er in leere Cluster läuft, konvergiert er nicht mehr, sondern bricht ab - oder sehe ich das falsch?
-- Es kann wohl auch Faelle geben in denen er eine Reihe von moeglichen Loesungen zyklisch durchlaeuft. Dann konvergiert er nicht. Wie das Auftreten leerer Cluster behandelt wird ist Implementierungsabhaengig. Ausser abbrechen kommen z.B. auch noch das zuweisen (eines nach irgendeinem Verfahren ausgewaehlten) Objektes an den leeren Cluster oder das berechnen einer Loesung mit weniger Clustern in frage. Letzteres kann vorallem Sinnvoll sein wenn die tatsaechliche Anzahl der Cluster nicht bekannt ist.
-- Aus dem Paper "On the Worst-Case Complexity of the k-means Method" von Arthur und Vassilvitki geht eindeutig hervor, dass k-means a) keine Lösung mehrmals durchläuft und daurch b) garantiert terminiert.
-- Und das stimmt auch. K-Means terminiert garantiert, da durch das stetige Neuberechnen der "Centroides" grenzwertige Punkte nach Zuweisung "gesichert" werden!
- K-Means konvergiert, solange man ihn nicht zu doof implementiert (und wenn man das "verlieren" eines Clusters akzeptiert; das passiert aber normalerweise nur am Anfang). Nur die Begründung hier stimmt nicht. Durch das Neuberechnen des Centroides kann ein Cluster ja sehr wohl auch einen Punkt verlieren. Die Frage ist nur, ob die Lösung am Ende brauchbar ist, oder nicht ein Zwischenergebnis sogar besser gewesen wäre. k-Means hat ganz andere Probleme, er ist eigentlich nur für recht gutartige Daten brauchbar, man braucht eine gute Heuristik um k zu wählen und die initialen Clusterzentren. Unter diesen Voraussetzungen ist es aber meistens sinnvoller gleich DBSCAN oder OPTICS zu verwenden. Die sind nicht komplizierter, aber doch deutlich einfacher zu verwenden. Das attraktivste an k-Means ist, dass man daraus trivial einen extrem billigen Klassifikator bekommt. Nach DBSCAN/OPTICS müsste man erst zusätzlich einen Klassifikator trainieren (kann dann aber auch gleich einen etwas mächtigeren verwenden) --Chire 17:34, 8. Mai 2010 (CEST)