„Big Data“ – Versionsunterschied
[gesichtete Version] | [gesichtete Version] |
Keine Bearbeitungszusammenfassung |
Zulu55 (Diskussion | Beiträge) →Verarbeitung von Big Data: {{Belege}} fehlen |
||
Zeile 17: | Zeile 17: | ||
== Verarbeitung von Big Data == |
== Verarbeitung von Big Data == |
||
{{Belege}} |
|||
Klassische [[Relationale Datenbank|relationale Datenbanksysteme]] sowie Statistik- und Visualisierungsprogramme sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die parallel auf bis zu Hunderten oder Tausenden von Prozessoren bzw. Servern arbeitet. Dabei gibt es folgende Herausforderungen: |
Klassische [[Relationale Datenbank|relationale Datenbanksysteme]] sowie Statistik- und Visualisierungsprogramme sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die parallel auf bis zu Hunderten oder Tausenden von Prozessoren bzw. Servern arbeitet. Dabei gibt es folgende Herausforderungen: |
||
Version vom 25. Januar 2014, 16:10 Uhr
Big Data bezeichnet große Datenmengen aus vielfältigen Quellen, die mit Hilfe neu entwickelter Methoden und Technologien erfasst, verteilt, gespeichert, durchsucht, analysiert und visualisiert werden können.[1] Das Volumen dieser Datenmengen geht in die Terabytes, Petabytes und Exabytes.
Nach aktuellen Berechnungen verdoppelt sich das weltweite Datenvolumen alle 2 Jahre.[2] Diese Entwicklung wird vor allem getrieben durch die zunehmende maschinelle Erzeugung von Daten z. B. über Protokolle von Telekommunikationsverbindungen (CDR) und Web-Zugriffen (Logdateien), automatische Erfassungen von RFID-Lesern, Kameras, Mikrofonen und sonstigen Sensoren. Big Data fallen auch in der Finanzindustrie an (Finanz-Transaktionen, Börsendaten), sowie im Energiesektor (Verbrauchsdaten) und im Gesundheitswesen (Verschreibungen). In der Wissenschaft fallen ebenfalls große Datenmengen an, z. B. in der Geologie, Genetik, Klimaforschung und Kernphysik. Der IT-Branchenverband Bitkom hat Big Data als einen Trend im Jahr 2012 bezeichnet.[3]
Beispiele
Für Unternehmen bietet die Analyse von Big Data die Möglichkeit zur Erlangung von Wettbewerbsvorteilen, Generierung von Einsparungspotentialen und zur Schaffung von neuen Geschäftsfeldern. In der Forschung können durch Verknüpfung großer Datenmengen und statistische Auswertungen neue Erkenntnisse gewonnen werden. Staatliche Stellen erhoffen sich bessere Ergebnisse in der Kriminalistik und Terrorismusbekämpfung[4]. Beispiele sind:
- Zeitnahe Auswertung von Webstatistiken und Anpassung von Online-Werbemaßnahmen
- Bessere, schnellere Marktforschung
- Entdeckung von Unregelmäßigkeiten bei Finanztransaktionen (Fraud-Detection)
- Einführung und Optimierung einer intelligenten Energieverbrauchssteuerung (Smart Metering)
- Erkennen von Zusammenhängen in der medizinischen Diagnostik
- Echtzeit-Cross- und Upselling im E-Commerce und stationären Vertrieb
- Aufbau flexibler Billingsysteme in der Telekommunikation
- Geheimdienstliches Erstellen von Bewegungsprofilen mit Programmen wie Boundless Informant
- Datenzugriff und -Analyse auf raum-zeitliche Rasterdaten in Wissenschaft und Industrie, beispielsweise nach dem Open Geospatial Consortium-Standard Web Coverage Service
Verarbeitung von Big Data
Klassische relationale Datenbanksysteme sowie Statistik- und Visualisierungsprogramme sind oft nicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt daher eine neue Art von Software zum Einsatz, die parallel auf bis zu Hunderten oder Tausenden von Prozessoren bzw. Servern arbeitet. Dabei gibt es folgende Herausforderungen:
- Verarbeitung vieler Datensätze
- Verarbeitung vieler Spalten innerhalb eines Datensatzes
- Schneller Import großer Datenmengen
- Sofortige Abfrage importierter Daten (Realtime Processing)
- Kurze Antwortzeiten auch bei komplexen Abfragen
- Möglichkeit zur Verarbeitung vieler gleichzeitiger Abfragen (Concurrent Queries)
Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einer frühen Phase. Prominent ist der MapReduce-Ansatz, der bei Open-Source-Software (Apache Hadoop und MongoDB), sowie bei einigen kommerziellen Produkten (Aster Data, Greenplum u. a.) zum Einsatz kommt.
Kritik
Kritik gibt es an "Big Data" vor allem dahingehend, dass die Datenerhebung und -auswertung oft nach technischen Aspekten erfolgt, also dass beispielsweise der technisch einfachste Weg gewählt wird, die Daten zu erheben und die Auswertung von den Möglichkeiten, diese Daten zu verarbeiten, begrenzt wird. Statistische Grundprinzipien wie das einer repräsentativen Stichprobe werden oft vernachlässigt. So kritisierte die Sozialforscherin Danah Boyd:[5]
- Größere Datenmengen müssten nicht qualitativ bessere Daten sein
- Nicht alle Daten seien gleichermaßen wertvoll
- "Was" und "Warum" seien zwei unterschiedliche Fragen
- Bei Interpretationen sei Vorsicht geboten
- Nur weil es verfügbar ist, sei es nicht ethisch
So ermittelte ein Forscher beispielsweise, dass Menschen nicht mehr als 150 Freundschaften pflegen, was sodann als technische Begrenzung in sozialen Netzwerken eingeführt wurde – in der falschen Annahme, als "Freunde" bezeichnete Bekanntschaften würden echte Freundschaften widerspiegeln.[5] Sicherlich würde nicht jeder alle seine Facebook-Freunde in einem Interview als Freunde benennen – der Begriff eines "Freundes" auf Facebook gibt lediglich eine Kommunikationsbereitschaft an.
Ein anderer kritischer Ansatz setzt sich mit der Frage auseinander, ob Big Data das Ende aller Theorie bedeutet. Chris Anderson, Chefredakteur bei WIRED beschrieb 2008 das Glaubwürdigkeitsproblem jeder wissenschaftlichen Hypothese und jedes Modells bei gleichzeitiger Echtzeitanalyse lebender und nicht lebender Systeme. Korrelationen werden wichtiger als kausale Erklärungsansätze, die sich oft erst später bewahrheiten oder falsifizieren lassen.[6]
Der schleswig-holsteinische Datenschutzbeauftragte Thilo Weichert warnt: "Big Data eröffnet Möglichkeiten des informationellen Machtmissbrauchs durch Manipulation, Diskriminierung und informationelle ökonomische Ausbeutung – verbunden mit der Verletzung der Grundrechte der Menschen." [7][8]
Siehe auch
Literatur
- Heinrich Geiselberger, Tobias Moorstedt (Hrsg.): Big Data - Das neue Versprechen der Allwissenheit. Suhrkamp Verlag, 2013. ISBN 978-3-518-06453-5
Weblinks
Einzelnachweise
- ↑ Sabine Horvath: Aktueller Begriff – Big Data (PDF; 108 kB). Wissenschaftliche Dienste des Deutschen Bundestages, 7. November 2013
- ↑ Klaus Manhart: [[International Data Corporation|IDC]]-Studie zum Datenwachstum - Doppeltes Datenvolumen alle zwei Jahre. In: CIO. 12. Juli 2011, abgerufen am 11. Januar 2013.
- ↑ Trendkongress: Big Data, wenig Schutz. Abgerufen am 27. November 2012.
- ↑ Hilton Collins: Predicting Crime Using Analytics and Big Data. 24. Mai 2014, abgerufen am 23. Januar 2014.
- ↑ a b Danah Boyd: Privacy and Publicity in the Context of Big Data. (html) In: WWW 2010 conference. 29. April 2010, abgerufen am 18. April 2011 (englisch, Keynote WWW 2010).
- ↑ Siehe auch: Chris Anderson in WIRED und cum hoc ergo propter hoc
- ↑ Weichert fordert Hinterfragung und Erforschung von „Big Data“. 18. März 2013, abgerufen am 21. März 2013.
- ↑ Big Data: Sowohl Gefahr für die Demokratie als auch ökonomische Chance. 20. März 2013, abgerufen am 21. März 2013.