Apache Hadoop - Versionsgeschichte

Gunnar.Kaestle: /* Kommerzieller Support und kommerzielle Forks */ BKS aufgelöst

2025-02-27T19:25:02Z

Kommerzieller Support und kommerzielle Forks: BKS aufgelöst

← Nächstältere Version		Version vom 27. Februar 2025, 21:25 Uhr
Zeile 107:		Zeile 107:
	== Kommerzieller Support und kommerzielle Forks ==		== Kommerzieller Support und kommerzielle Forks ==
	Da der Einsatz von Hadoop besonders für Unternehmen interessant ist, gibt es eine Reihe von Firmen, die kommerziellen Support oder Forks von Hadoop anbieten:		Da der Einsatz von Hadoop besonders für Unternehmen interessant ist, gibt es eine Reihe von Firmen, die kommerziellen Support oder Forks von Hadoop anbieten:
	* [[Cloudera]] stellt mit CDH eine „enterprise ready“ Open-Source-Distribution für Hadoop bereit (aktuelle Version: CDH 6.0.0<ref>https://www.cloudera.com/downloads/cdh/6-0-0.html</ref>). Anfang 2019 wurde der andere große BigData-Distribution-Anbieter [[Hortonworks]] integriert.<ref>{{cite web \| url=https://www.cloudera.com/about/news-and-blogs/press-releases/2019-01-03-cloudera-and-hortonworks-complete-planned-merger.html \| title=Cloudera and Hortonworks Complete Planned Merger \| quote='' Cloudera, Inc. (NYSE: CLDR), the enterprise data cloud company, today announced completion of its merger with Hortonworks, Inc. Cloudera will deliver the first enterprise data cloud - unlocking the power of any data, running in any cloud from the Edge to AI, on a 100% open-source data platform'' \| author=Cloudera \| date=2019-01-03 \| accessdate=2019-09-22\|language=en}}</ref> Hortonworks stammt ursprünglich aus einer Auskopplung von [[Yahoo]] und Benchmark Capital.		* [[Cloudera]] stellt mit CDH eine „enterprise ready“ Open-Source-Distribution für Hadoop bereit (aktuelle Version: CDH 6.0.0<ref>https://www.cloudera.com/downloads/cdh/6-0-0.html</ref>). Anfang 2019 wurde der andere große BigData-Distribution-Anbieter [[Hortonworks]] integriert.<ref>{{cite web \| url=https://www.cloudera.com/about/news-and-blogs/press-releases/2019-01-03-cloudera-and-hortonworks-complete-planned-merger.html \| title=Cloudera and Hortonworks Complete Planned Merger \| quote='' Cloudera, Inc. (NYSE: CLDR), the enterprise data cloud company, today announced completion of its merger with Hortonworks, Inc. Cloudera will deliver the first enterprise data cloud - unlocking the power of any data, running in any cloud from the Edge to AI, on a 100% open-source data platform'' \| author=Cloudera \| date=2019-01-03 \| accessdate=2019-09-22\|language=en}}</ref> Hortonworks stammt ursprünglich aus einer Auskopplung von [[Altaba#Unternehmensgeschichte\|Yahoo]] und Benchmark Capital.
	* [[Teradata Corporation\|Teradata]] stellt in einer Partnerschaft mit Hortonworks eine erweiterte Distribution zur Verfügung.<ref>{{cite web \| url=https://www.pressebox.de/inaktiv/teradata-gmbh/Teradata-unterstuetzt-Hadoop-2-mit-aktualisiertem-Hadoop-Portfolio/boxid/684273 \| title=Teradata unterstützt Hadoop 2 mit aktualisiertem Hadoop-Portfolio \| quote=''Bei der aktualisierten Software Teradata Open Distribution für Hadoop (TDH) 2.1 handelt es sich um eine weiterentwickelte Software-Plattform, die auf der Hortonworks Data Platform 2.1 basiert.'' \| author= PresseBox \| date= 2014-06-12\| accessdate=2017-03-26\|language=en}}</ref> Teradata Open Distribution für Hadoop (TDH) 2.1 verknüpft somit Hadoop mit Teradata-Produkten. Teradata ist der globale Marktführer im Bereich Data Warehousing.		* [[Teradata Corporation\|Teradata]] stellt in einer Partnerschaft mit Hortonworks eine erweiterte Distribution zur Verfügung.<ref>{{cite web \| url=https://www.pressebox.de/inaktiv/teradata-gmbh/Teradata-unterstuetzt-Hadoop-2-mit-aktualisiertem-Hadoop-Portfolio/boxid/684273 \| title=Teradata unterstützt Hadoop 2 mit aktualisiertem Hadoop-Portfolio \| quote=''Bei der aktualisierten Software Teradata Open Distribution für Hadoop (TDH) 2.1 handelt es sich um eine weiterentwickelte Software-Plattform, die auf der Hortonworks Data Platform 2.1 basiert.'' \| author= PresseBox \| date= 2014-06-12\| accessdate=2017-03-26\|language=en}}</ref> Teradata Open Distribution für Hadoop (TDH) 2.1 verknüpft somit Hadoop mit Teradata-Produkten. Teradata ist der globale Marktführer im Bereich Data Warehousing.
	* [[Microsoft]] integriert Hadoop derzeit in [[Microsoft Azure]] und [[Microsoft SQL Server\|SQL Server]].<ref>{{cite web \| url=https://blogs.technet.microsoft.com/sqlteamgermany/2011/10/31/microsoft-big-data-und-hadoop-was-steckt-dahinter/ \| title=Microsoft, Big Data und Hadoop – was steckt dahinter? \| quote=''In Zusammenarbeit mit dem Partner Hortonworks ist es geplant, Hadoop vollständig auf dem Windows Server zu „portieren“. [...] Zudem ist es geplant, Hadoop auch als Dienst in Windows Azure anzubieten.'' \| author=FSeiwerth \| date=2011-10-31 \| accessdate=2012-04-03\|language=en}}</ref> Die Integration wird Teil des SQL Server 2019 sein.<ref>{{Literatur \|Titel=SQL Server 2019 preview combines SQL Server and Apache Spark to create a unified data platform \|Online=https://cloudblogs.microsoft.com/sqlserver/2018/09/24/sql-server-2019-preview-combines-sql-server-and-apache-spark-to-create-a-unified-data-platform/ \|Abruf=2018-09-25}}</ref>		* [[Microsoft]] integriert Hadoop derzeit in [[Microsoft Azure]] und [[Microsoft SQL Server\|SQL Server]].<ref>{{cite web \| url=https://blogs.technet.microsoft.com/sqlteamgermany/2011/10/31/microsoft-big-data-und-hadoop-was-steckt-dahinter/ \| title=Microsoft, Big Data und Hadoop – was steckt dahinter? \| quote=''In Zusammenarbeit mit dem Partner Hortonworks ist es geplant, Hadoop vollständig auf dem Windows Server zu „portieren“. [...] Zudem ist es geplant, Hadoop auch als Dienst in Windows Azure anzubieten.'' \| author=FSeiwerth \| date=2011-10-31 \| accessdate=2012-04-03\|language=en}}</ref> Die Integration wird Teil des SQL Server 2019 sein.<ref>{{Literatur \|Titel=SQL Server 2019 preview combines SQL Server and Apache Spark to create a unified data platform \|Online=https://cloudblogs.microsoft.com/sqlserver/2018/09/24/sql-server-2019-preview-combines-sql-server-and-apache-spark-to-create-a-unified-data-platform/ \|Abruf=2018-09-25}}</ref>

Eriosw: vorlagenfehler - language

2025-01-25T09:12:21Z

vorlagenfehler - language

← Nächstältere Version		Version vom 25. Januar 2025, 11:12 Uhr
Zeile 100:		Zeile 100:

	== Auszeichnungen ==		== Auszeichnungen ==
	Ein auf Apache Hadoop basierendes Clustersystem hat in den Jahren 2008 und 2009 den Preis ''Terabyte Sort Benchmark'' gewonnen. Es konnte unter den beim [[Benchmark (Computer)\|EDV-Benchmark]]<ref>{{Internetquelle \| url=http://sortbenchmark.org/ \| titel=Sort Benchmark Home Page \| autor=Chris Nyberg und Mehul Shah \| zugriff=2010-11-30 \| sprache=en}}</ref> getesteten Systemen am schnellsten große Datenmengen (im Jahr 2009 einhundert Terabyte [[Integer (Datentyp)\|Integer]]) verteilt sortieren – jedoch mit einer deutlich größeren Knotenzahl<!-- Ist das im Artikel [[Knotenzahl]] (Stand 4. Januar 2010) das Gemeinte? --> als die Mitbewerber, da dies nicht in den Benchmarkstatuten reglementiert ist.<ref>[https://databeta.wordpress.com/2009/05/14/bigdata-node-density/ Diverging views on Big Data density, and some gimmes]</ref><ref name=googlemapreduce>{{cite web\|url=http://googleblog.blogspot.com/2008/11/sorting-1pb-with-mapreduce.html\|title=Sorting 1PB with MapReduce\|publisher=google\|date=2008-11-21\|accessdate=2017-03-26\|first=Grzegorz\|last=Czajkowski}}</ref>		Ein auf Apache Hadoop basierendes Clustersystem hat in den Jahren 2008 und 2009 den Preis ''Terabyte Sort Benchmark'' gewonnen. Es konnte unter den beim [[Benchmark (Computer)\|EDV-Benchmark]]<ref>{{Internetquelle \| url=http://sortbenchmark.org/ \| titel=Sort Benchmark Home Page \| autor=Chris Nyberg und Mehul Shah \| zugriff=2010-11-30 \| sprache=en}}</ref> getesteten Systemen am schnellsten große Datenmengen (im Jahr 2009 einhundert Terabyte [[Integer (Datentyp)\|Integer]]) verteilt sortieren – jedoch mit einer deutlich größeren Knotenzahl<!-- Ist das im Artikel [[Knotenzahl]] (Stand 4. Januar 2010) das Gemeinte? --> als die Mitbewerber, da dies nicht in den Benchmarkstatuten reglementiert ist.<ref>[https://databeta.wordpress.com/2009/05/14/bigdata-node-density/ Diverging views on Big Data density, and some gimmes]</ref><ref name=googlemapreduce>{{cite web\|url=http://googleblog.blogspot.com/2008/11/sorting-1pb-with-mapreduce.html\|title=Sorting 1PB with MapReduce\|publisher=google\|date=2008-11-21\|accessdate=2017-03-26\|first=Grzegorz\|last=Czajkowski\|language=en}}</ref>
	Es war somit das erste Java- und auch das erste Open-Source-Programm, welches diesen Benchmark für sich entscheiden konnte.<ref>{{cite web\|url=http://developer.yahoo.net/blogs/hadoop/2008/07/apache_hadoop_wins_terabyte_sort_benchmark.html\|title=Apache Hadoop Wins Terabyte Sort Benchmark\|date=2008-07\|accessdate=2009-10-14\|author=Owen O’Malley – Yahoo! Grid Computing Team\|archiveurl=https://web.archive.org/web/20091015215436/http://developer.yahoo.net/blogs/hadoop/2008/07/apache_hadoop_wins_terabyte_sort_benchmark.html\|archivedate=2009-10-15\|quote=''This is the first time that either a Java or an open source program has won.''\|offline=yes\|archivebot=}} (offline)</ref>		Es war somit das erste Java- und auch das erste Open-Source-Programm, welches diesen Benchmark für sich entscheiden konnte.<ref>{{cite web\|url=http://developer.yahoo.net/blogs/hadoop/2008/07/apache_hadoop_wins_terabyte_sort_benchmark.html\|title=Apache Hadoop Wins Terabyte Sort Benchmark\|date=2008-07\|accessdate=2009-10-14\|author=Owen O’Malley – Yahoo! Grid Computing Team\|archiveurl=https://web.archive.org/web/20091015215436/http://developer.yahoo.net/blogs/hadoop/2008/07/apache_hadoop_wins_terabyte_sort_benchmark.html\|archivedate=2009-10-15\|quote=''This is the first time that either a Java or an open source program has won.''\|offline=yes\|archivebot=\|language=en}} (offline)</ref>

	Der [[The Guardian\|Guardian]] verlieh Apache Hadoop im März 2011 bei den ''MediaGuardian Innovation Awards'' die Auszeichnung ''Innovator of the Year''. Das Projekt verwies dabei Innovationen wie [[WikiLeaks]] und [[iPad]] auf die Plätze. Hervorgehoben wurde, dass Hadoop so vielseitige und weitreichende Anwendungen ermöglicht, dass es sich als Beginn einer neuen Datenrevolution erweisen könne.<ref>{{cite web \| url=https://www.theguardian.com/megas/winners-2011 \| title=Megas 2011: Winners \| quote=''Applications of the system are diverse and far reaching, and as data manipulation and management play an increasingly large part in all of our lives Hadoop may come to be seen as the beginning of a new data revolution.'' \| author=guardian.co.uk \| date=2011-03-25 \| accessdate=2011-03-25}}</ref>		Der [[The Guardian\|Guardian]] verlieh Apache Hadoop im März 2011 bei den ''MediaGuardian Innovation Awards'' die Auszeichnung ''Innovator of the Year''. Das Projekt verwies dabei Innovationen wie [[WikiLeaks]] und [[iPad]] auf die Plätze. Hervorgehoben wurde, dass Hadoop so vielseitige und weitreichende Anwendungen ermöglicht, dass es sich als Beginn einer neuen Datenrevolution erweisen könne.<ref>{{cite web \| url=https://www.theguardian.com/megas/winners-2011 \| title=Megas 2011: Winners \| quote=''Applications of the system are diverse and far reaching, and as data manipulation and management play an increasingly large part in all of our lives Hadoop may come to be seen as the beginning of a new data revolution.'' \| author=guardian.co.uk \| date=2011-03-25 \| accessdate=2011-03-25\|language=en}}</ref>

	== Kommerzieller Support und kommerzielle Forks ==		== Kommerzieller Support und kommerzielle Forks ==
	Da der Einsatz von Hadoop besonders für Unternehmen interessant ist, gibt es eine Reihe von Firmen, die kommerziellen Support oder Forks von Hadoop anbieten:		Da der Einsatz von Hadoop besonders für Unternehmen interessant ist, gibt es eine Reihe von Firmen, die kommerziellen Support oder Forks von Hadoop anbieten:
	* [[Cloudera]] stellt mit CDH eine „enterprise ready“ Open-Source-Distribution für Hadoop bereit (aktuelle Version: CDH 6.0.0<ref>https://www.cloudera.com/downloads/cdh/6-0-0.html</ref>). Anfang 2019 wurde der andere große BigData-Distribution-Anbieter [[Hortonworks]] integriert.<ref>{{cite web \| url=https://www.cloudera.com/about/news-and-blogs/press-releases/2019-01-03-cloudera-and-hortonworks-complete-planned-merger.html \| title=Cloudera and Hortonworks Complete Planned Merger \| quote='' Cloudera, Inc. (NYSE: CLDR), the enterprise data cloud company, today announced completion of its merger with Hortonworks, Inc. Cloudera will deliver the first enterprise data cloud - unlocking the power of any data, running in any cloud from the Edge to AI, on a 100% open-source data platform'' \| author=Cloudera \| date=2019-01-03 \| accessdate=2019-09-22}}</ref> Hortonworks stammt ursprünglich aus einer Auskopplung von [[Yahoo]] und Benchmark Capital.		* [[Cloudera]] stellt mit CDH eine „enterprise ready“ Open-Source-Distribution für Hadoop bereit (aktuelle Version: CDH 6.0.0<ref>https://www.cloudera.com/downloads/cdh/6-0-0.html</ref>). Anfang 2019 wurde der andere große BigData-Distribution-Anbieter [[Hortonworks]] integriert.<ref>{{cite web \| url=https://www.cloudera.com/about/news-and-blogs/press-releases/2019-01-03-cloudera-and-hortonworks-complete-planned-merger.html \| title=Cloudera and Hortonworks Complete Planned Merger \| quote='' Cloudera, Inc. (NYSE: CLDR), the enterprise data cloud company, today announced completion of its merger with Hortonworks, Inc. Cloudera will deliver the first enterprise data cloud - unlocking the power of any data, running in any cloud from the Edge to AI, on a 100% open-source data platform'' \| author=Cloudera \| date=2019-01-03 \| accessdate=2019-09-22\|language=en}}</ref> Hortonworks stammt ursprünglich aus einer Auskopplung von [[Yahoo]] und Benchmark Capital.
	* [[Teradata Corporation\|Teradata]] stellt in einer Partnerschaft mit Hortonworks eine erweiterte Distribution zur Verfügung.<ref>{{cite web \| url=https://www.pressebox.de/inaktiv/teradata-gmbh/Teradata-unterstuetzt-Hadoop-2-mit-aktualisiertem-Hadoop-Portfolio/boxid/684273 \| title=Teradata unterstützt Hadoop 2 mit aktualisiertem Hadoop-Portfolio \| quote=''Bei der aktualisierten Software Teradata Open Distribution für Hadoop (TDH) 2.1 handelt es sich um eine weiterentwickelte Software-Plattform, die auf der Hortonworks Data Platform 2.1 basiert.'' \| author= PresseBox \| date= 2014-06-12\| accessdate=2017-03-26}}</ref> Teradata Open Distribution für Hadoop (TDH) 2.1 verknüpft somit Hadoop mit Teradata-Produkten. Teradata ist der globale Marktführer im Bereich Data Warehousing.		* [[Teradata Corporation\|Teradata]] stellt in einer Partnerschaft mit Hortonworks eine erweiterte Distribution zur Verfügung.<ref>{{cite web \| url=https://www.pressebox.de/inaktiv/teradata-gmbh/Teradata-unterstuetzt-Hadoop-2-mit-aktualisiertem-Hadoop-Portfolio/boxid/684273 \| title=Teradata unterstützt Hadoop 2 mit aktualisiertem Hadoop-Portfolio \| quote=''Bei der aktualisierten Software Teradata Open Distribution für Hadoop (TDH) 2.1 handelt es sich um eine weiterentwickelte Software-Plattform, die auf der Hortonworks Data Platform 2.1 basiert.'' \| author= PresseBox \| date= 2014-06-12\| accessdate=2017-03-26\|language=en}}</ref> Teradata Open Distribution für Hadoop (TDH) 2.1 verknüpft somit Hadoop mit Teradata-Produkten. Teradata ist der globale Marktführer im Bereich Data Warehousing.
	* [[Microsoft]] integriert Hadoop derzeit in [[Microsoft Azure]] und [[Microsoft SQL Server\|SQL Server]].<ref>{{cite web \| url=https://blogs.technet.microsoft.com/sqlteamgermany/2011/10/31/microsoft-big-data-und-hadoop-was-steckt-dahinter/ \| title=Microsoft, Big Data und Hadoop – was steckt dahinter? \| quote=''In Zusammenarbeit mit dem Partner Hortonworks ist es geplant, Hadoop vollständig auf dem Windows Server zu „portieren“. [...] Zudem ist es geplant, Hadoop auch als Dienst in Windows Azure anzubieten.'' \| author=FSeiwerth \| date=2011-10-31 \| accessdate=2012-04-03}}</ref> Die Integration wird Teil des SQL Server 2019 sein.<ref>{{Literatur \|Titel=SQL Server 2019 preview combines SQL Server and Apache Spark to create a unified data platform \|Online=https://cloudblogs.microsoft.com/sqlserver/2018/09/24/sql-server-2019-preview-combines-sql-server-and-apache-spark-to-create-a-unified-data-platform/ \|Abruf=2018-09-25}}</ref>		* [[Microsoft]] integriert Hadoop derzeit in [[Microsoft Azure]] und [[Microsoft SQL Server\|SQL Server]].<ref>{{cite web \| url=https://blogs.technet.microsoft.com/sqlteamgermany/2011/10/31/microsoft-big-data-und-hadoop-was-steckt-dahinter/ \| title=Microsoft, Big Data und Hadoop – was steckt dahinter? \| quote=''In Zusammenarbeit mit dem Partner Hortonworks ist es geplant, Hadoop vollständig auf dem Windows Server zu „portieren“. [...] Zudem ist es geplant, Hadoop auch als Dienst in Windows Azure anzubieten.'' \| author=FSeiwerth \| date=2011-10-31 \| accessdate=2012-04-03\|language=en}}</ref> Die Integration wird Teil des SQL Server 2019 sein.<ref>{{Literatur \|Titel=SQL Server 2019 preview combines SQL Server and Apache Spark to create a unified data platform \|Online=https://cloudblogs.microsoft.com/sqlserver/2018/09/24/sql-server-2019-preview-combines-sql-server-and-apache-spark-to-create-a-unified-data-platform/ \|Abruf=2018-09-25}}</ref>
	* Die [[Google App Engine]] MapReduce unterstützt Hadoop-Programme.		* Die [[Google App Engine]] MapReduce unterstützt Hadoop-Programme.
	* Das [[IBM]]-Produkt InfoSphere BigInsights basiert auf Hadoop.		* Das [[IBM]]-Produkt InfoSphere BigInsights basiert auf Hadoop.

Gunnar.Kaestle: BKS aufgelöst

2025-01-18T18:14:48Z

BKS aufgelöst

← Nächstältere Version		Version vom 18. Januar 2025, 20:14 Uhr
Zeile 22:		Zeile 22:

	'''Apache Hadoop''' ist ein [[Freie Software\|freies]], in [[Java (Programmiersprache)\|Java]] geschriebenes [[Framework]] für skalierbare, verteilt arbeitende Software. Es basiert auf dem [[MapReduce]]-Algorithmus von [[Google Inc.]] sowie auf Vorschlägen des [[Google File System\|Google-Dateisystems]] und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen (''[[Big Data]]'', [[Petabyte]]-Bereich) auf [[Computercluster]]n durchzuführen. Hadoop wurde vom [[Lucene]]-Erfinder [[Doug Cutting]] initiiert und 2006 erstmals veröffentlicht.<ref>http://archive.apache.org/dist/hadoop/core/</ref> Am 23. Januar 2008 wurde es zum Top-Level-Projekt der [[Apache Software Foundation]].		'''Apache Hadoop''' ist ein [[Freie Software\|freies]], in [[Java (Programmiersprache)\|Java]] geschriebenes [[Framework]] für skalierbare, verteilt arbeitende Software. Es basiert auf dem [[MapReduce]]-Algorithmus von [[Google Inc.]] sowie auf Vorschlägen des [[Google File System\|Google-Dateisystems]] und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen (''[[Big Data]]'', [[Petabyte]]-Bereich) auf [[Computercluster]]n durchzuführen. Hadoop wurde vom [[Lucene]]-Erfinder [[Doug Cutting]] initiiert und 2006 erstmals veröffentlicht.<ref>http://archive.apache.org/dist/hadoop/core/</ref> Am 23. Januar 2008 wurde es zum Top-Level-Projekt der [[Apache Software Foundation]].
	Nutzer sind unter anderem [[Facebook]], [[a9.com]], [[AOL]], [[Baidu]], [[IBM]], [[ImageShack]] und [[Yahoo]].<ref>https://cwiki.apache.org/confluence/display/HADOOP2/PoweredBy</ref>		Nutzer sind unter anderem [[Facebook]], [[a9.com]], [[AOL]], [[Baidu]], [[IBM]], [[ImageShack]] und [[Yahoo (2021)\|Yahoo]].<ref>https://cwiki.apache.org/confluence/display/HADOOP2/PoweredBy</ref>

	== Bestandteile ==		== Bestandteile ==

Unicard-ic: /* Oozie */ eingefügt

2024-10-30T12:57:20Z

Oozie: eingefügt

← Nächstältere Version		Version vom 30. Oktober 2024, 14:57 Uhr
Zeile 84:		Zeile 84:
	=== Ignite ===		=== Ignite ===
	Ignite ist ein verteilter Big-Data Cache für interaktive Abfragen zur Beschleunigung von Abfragen auf häufig genutzte Daten. Er unterstützt HDFS und Spark. Durch die HDFS-Unterstützung können in Hive ausgewählte Tabellen/Partitionen in-memory gehalten werden.		Ignite ist ein verteilter Big-Data Cache für interaktive Abfragen zur Beschleunigung von Abfragen auf häufig genutzte Daten. Er unterstützt HDFS und Spark. Durch die HDFS-Unterstützung können in Hive ausgewählte Tabellen/Partitionen in-memory gehalten werden.

			=== Oozie ===
			Oozie ist ein Workflow-Scheduler-System zum Verwalten von Apache Hadoop-Jobs.

	== Architektur ==		== Architektur ==

Aka: typografische Anführungszeichen, Komma ergänzt, Kleinkram

2024-07-08T20:51:35Z

typografische Anführungszeichen, Komma ergänzt, Kleinkram

← Nächstältere Version		Version vom 8. Juli 2024, 22:51 Uhr
Zeile 43:		Zeile 43:

	=== Transparente Kompression ===		=== Transparente Kompression ===
	Hadoop unterstützt die transparente Kompression von Dateien zur optimalen Speicher- und Ressourcen-Unterstützung. Es wird eine Vielzahl von Formaten unterstützt, darunter [[Snappy (Datenkompressionssoftware)\|Snappy]] für schnelle Komprimierung, [[zlib]] für hohe Kompressionsraten und [[Bzip2]] für höchste Komprimierung. Es können beliebige weitere Formate Hadoop-Anwendungen transparent zur Verfügung gestellt werden. Kompression kann zur Verbesserung der Performance führen, da diese die notwendigen IO-Operationen signifikant reduziert. Jedoch sind nicht alle Kompressionstypen ~~"splitable"~~, d. h. parallel dekomprimierbar. Dies umgehen moderne Dateiformate, wie ORC oder Parquet, indem sie die zu komprimierenden Dateien intern in Blöcke aufteilen. Dadurch ist jedes Kompressionsformat geeignet, um die Dateien parallel zu verarbeiten.		Hadoop unterstützt die transparente Kompression von Dateien zur optimalen Speicher- und Ressourcen-Unterstützung. Es wird eine Vielzahl von Formaten unterstützt, darunter [[Snappy (Datenkompressionssoftware)\|Snappy]] für schnelle Komprimierung, [[zlib]] für hohe Kompressionsraten und [[Bzip2]] für höchste Komprimierung. Es können beliebige weitere Formate Hadoop-Anwendungen transparent zur Verfügung gestellt werden. Kompression kann zur Verbesserung der Performance führen, da diese die notwendigen IO-Operationen signifikant reduziert. Jedoch sind nicht alle Kompressionstypen „splitable“, d. h. parallel dekomprimierbar. Dies umgehen moderne Dateiformate, wie ORC oder Parquet, indem sie die zu komprimierenden Dateien intern in Blöcke aufteilen. Dadurch ist jedes Kompressionsformat geeignet, um die Dateien parallel zu verarbeiten.

	=== Transparente Dateiformatunterstützung ===		=== Transparente Dateiformatunterstützung ===
Zeile 87:		Zeile 87:
	== Architektur ==		== Architektur ==
	Hadoop sollte als Ökosystem verstanden werden, in dem Hadoop mit vielen anderen Erweiterungen zusammenspielt. Deswegen muss eine geeignete Architektur gewählt werden.		Hadoop sollte als Ökosystem verstanden werden, in dem Hadoop mit vielen anderen Erweiterungen zusammenspielt. Deswegen muss eine geeignete Architektur gewählt werden.
	=== Lambda-Architektur ===		=== Lambda-Architektur ===
	Eine populäre Architektur ist hier die Lambda-Architektur. Es wird zwischen den folgenden Ebenen unterschieden:		Eine populäre Architektur ist hier die Lambda-Architektur. Es wird zwischen den folgenden Ebenen unterschieden:
	* Batch-Layer: Diese Ebene verarbeitet Daten als Teil von langdauernden Batchprozessen. Dies wird häufig durch Hadoop MapReduce, Spark oder Hive in Kombination mit dem HDFS-Dateisystem abgedeckt.		* Batch-Layer: Diese Ebene verarbeitet Daten als Teil von langdauernden Batchprozessen. Dies wird häufig durch Hadoop MapReduce, Spark oder Hive in Kombination mit dem HDFS-Dateisystem abgedeckt.
	* Speed-Layer: Diese Ebene verarbeitet Datenströme (Streaming) von ~~"Live"~~-Events. Es handelt sich dabei um große Datenströme von häufig mehreren Terabyte/Stunde von Geräten aus dem Internet of Things/Industrie 4.0 oder sozialen Netzwerken wie z. B. Twitter, Facebook usw. Oft kommen hier Online-Machine-Learning-Algorithmen zum Einsatz, da diese das Modell auf neueste Ereignisse adaptieren können. Häufig werden hier Kafka, zum Bündeln der Datenströme, und Spark Streaming, Flink Streaming oder Storm verwendet.		* Speed-Layer: Diese Ebene verarbeitet Datenströme (Streaming) von „Live“-Events. Es handelt sich dabei um große Datenströme von häufig mehreren Terabyte/Stunde von Geräten aus dem Internet of Things/Industrie 4.0 oder sozialen Netzwerken wie z. B. Twitter, Facebook usw. Oft kommen hier Online-Machine-Learning-Algorithmen zum Einsatz, da diese das Modell auf neueste Ereignisse adaptieren können. Häufig werden hier Kafka, zum Bündeln der Datenströme, und Spark Streaming, Flink Streaming oder Storm verwendet.
	* Serving-Layer: Diese Ebene stellt die Ergebnisse aus dem Batch-Layer und Speed-Layer in einfacher Form den Benutzern möglichst schnell für interaktive Analysen zur Verfügung. Dieser Bereich wird häufig durch traditionelle Datenbanken abgedeckt, aber immer öfter auch durch NoSQL-Datenbanken, da diese geeignetere Datenstrukturen anbieten, wie z. B. Dokumentdatenbanken (z. B. MongoDB), Graphdatenbanken (z. B. TitanDB), Spalten-orientierte Datenbanken (z. B. HBase) oder Key-Value-Stores (z. B. Redis).		* Serving-Layer: Diese Ebene stellt die Ergebnisse aus dem Batch-Layer und Speed-Layer in einfacher Form den Benutzern möglichst schnell für interaktive Analysen zur Verfügung. Dieser Bereich wird häufig durch traditionelle Datenbanken abgedeckt, aber immer öfter auch durch NoSQL-Datenbanken, da diese geeignetere Datenstrukturen anbieten, wie z. B. Dokumentdatenbanken (z. B. MongoDB), Graphdatenbanken (z. B. TitanDB), Spalten-orientierte Datenbanken (z. B. HBase) oder Key-Value-Stores (z. B. Redis).

	=== Kappa-Architektur ===		=== Kappa-Architektur ===
	Bei der Kappa-Architektur wird vollständig auf den Batchlayer verzichtet. Es werden nur noch ~~"Live"~~-Events betrachtet und verarbeitet, um sie im Serving-Layer den Benutzern zur Verfügung zu stellen. Dies stellt besondere Herausforderungen bzgl. Verfügbarkeit, Ausfallsicherheit und Once-and-Only-Once-Delivery.		Bei der Kappa-Architektur wird vollständig auf den Batchlayer verzichtet. Es werden nur noch „Live“-Events betrachtet und verarbeitet, um sie im Serving-Layer den Benutzern zur Verfügung zu stellen. Dies stellt besondere Herausforderungen bzgl. Verfügbarkeit, Ausfallsicherheit und Once-and-Only-Once-Delivery.

	== Auszeichnungen ==		== Auszeichnungen ==
Zeile 116:		Zeile 116:

	== Literatur ==		== Literatur ==
	* Ramon Wartala: ''Hadoop. Zuverlässige, verteilte und skalierbare Big-Data-Anwendungen.'' Open Source Press, München 2012. ISBN 978-3-941841-61-1		* Ramon Wartala: ''Hadoop. Zuverlässige, verteilte und skalierbare Big-Data-Anwendungen.'' Open Source Press, München 2012, ISBN 978-3-941841-61-1

	== Weblinks ==		== Weblinks ==

Svenchecktrechtschreibung: /* Transparente Dateiformatunterstützung */ "schemabasierend" ist ein Adjektiv und daher klein zu schreiben.

2024-07-05T15:32:16Z

Transparente Dateiformatunterstützung: "schemabasierend" ist ein Adjektiv und daher klein zu schreiben.

← Nächstältere Version		Version vom 5. Juli 2024, 17:32 Uhr
Zeile 46:		Zeile 46:

	=== Transparente Dateiformatunterstützung ===		=== Transparente Dateiformatunterstützung ===
	Hadoop unterstützt transparent die Verwendung unterschiedlicher Dateiformate je nach Anwendung. Unterstützt werden sowohl unstrukturierte als auch strukturierte Formate, darunter einfache Textformate wie [[CSV (Dateiformat)\|CSV]], [[JSON]] aber auch hochoptimierte ~~Schemabasierende~~ Dateien ([[Apache Avro]]) und hochoptimierte tabulare Formate wie ORC und Parquet. Daneben können weitere Dateiformate einfach entwickelt werden. Weitere Plugins unterstützen die Analyse von CryptoLedgern.		Hadoop unterstützt transparent die Verwendung unterschiedlicher Dateiformate je nach Anwendung. Unterstützt werden sowohl unstrukturierte als auch strukturierte Formate, darunter einfache Textformate wie [[CSV (Dateiformat)\|CSV]], [[JSON]] aber auch hochoptimierte schemabasierende Dateien ([[Apache Avro]]) und hochoptimierte tabulare Formate wie ORC und Parquet. Daneben können weitere Dateiformate einfach entwickelt werden. Weitere Plugins unterstützen die Analyse von CryptoLedgern.

	[[Extensible Markup Language\|XML]] gilt im Hadoop-Ökosystem als veraltet, da es sich nicht für hochperformante Big-Data-Anwendungen eignet. Stattdessen wird empfohlen, Apache Avro als Austauschformat zu nutzen und ORC oder Parquet als Abfrageformat für hochstrukturierte Daten.		[[Extensible Markup Language\|XML]] gilt im Hadoop-Ökosystem als veraltet, da es sich nicht für hochperformante Big-Data-Anwendungen eignet. Stattdessen wird empfohlen, Apache Avro als Austauschformat zu nutzen und ORC oder Parquet als Abfrageformat für hochstrukturierte Daten.

MultiPolitikus: Archivlink(s) geprüft

2024-04-17T17:44:00Z

Archivlink(s) geprüft

Regi51: Änderungen von 37.39.164.136 (Diskussion) auf die letzte Version von Regi51 zurückgesetzt

2024-03-25T14:56:25Z

Änderungen von 37.39.164.136 (Diskussion) auf die letzte Version von Regi51 zurückgesetzt

← Nächstältere Version		Version vom 25. März 2024, 16:56 Uhr
Zeile 75:		Zeile 75:
	=== ZooKeeper ===		=== ZooKeeper ===
	ZooKeeper dient der (verteilten) Konfiguration von verteilten Systemen.		ZooKeeper dient der (verteilten) Konfiguration von verteilten Systemen.

			=== Spark ===
			[[Apache Spark\|Spark]]<ref>https://spark.apache.org/</ref> ist eine in-memory Batch Processing Engine, welche vornehmlich für Machine-Learning-Anwendungen entwickelt wurde. Es werden Graphanwendungen, Streaminganwendungen und Datei-basierte Batchjobs unterstützt. Eine Machine-Learning-Anwendung, sowie eine in-memory Batch Processing SQL Engine, welche Hive unterstützt, stehen zur Verfügung.

	=== Flink ===		=== Flink ===

37.39.164.136 am 25. März 2024 um 14:56 Uhr

2024-03-25T14:56:15Z

← Nächstältere Version		Version vom 25. März 2024, 16:56 Uhr
Zeile 75:		Zeile 75:
	=== ZooKeeper ===		=== ZooKeeper ===
	ZooKeeper dient der (verteilten) Konfiguration von verteilten Systemen.		ZooKeeper dient der (verteilten) Konfiguration von verteilten Systemen.

	=== Spark ===
	[[Apache Spark\|Spark]]<ref>https://spark.apache.org/</ref> ist eine in-memory Batch Processing Engine, welche vornehmlich für Machine-Learning-Anwendungen entwickelt wurde. Es werden Graphanwendungen, Streaminganwendungen und Datei-basierte Batchjobs unterstützt. Eine Machine-Learning-Anwendung, sowie eine in-memory Batch Processing SQL Engine, welche Hive unterstützt, stehen zur Verfügung.

	=== Flink ===		=== Flink ===

Regi51: Änderungen von 37.39.164.136 (Diskussion) rückgängig gemacht (HG) (3.4.12)

2024-03-25T14:55:45Z

Änderungen von 37.39.164.136 (Diskussion) rückgängig gemacht (HG) (3.4.12)

← Nächstältere Version		Version vom 25. März 2024, 16:55 Uhr
Zeile 44:		Zeile 44:
	=== Transparente Kompression ===		=== Transparente Kompression ===
	Hadoop unterstützt die transparente Kompression von Dateien zur optimalen Speicher- und Ressourcen-Unterstützung. Es wird eine Vielzahl von Formaten unterstützt, darunter [[Snappy (Datenkompressionssoftware)\|Snappy]] für schnelle Komprimierung, [[zlib]] für hohe Kompressionsraten und [[Bzip2]] für höchste Komprimierung. Es können beliebige weitere Formate Hadoop-Anwendungen transparent zur Verfügung gestellt werden. Kompression kann zur Verbesserung der Performance führen, da diese die notwendigen IO-Operationen signifikant reduziert. Jedoch sind nicht alle Kompressionstypen "splitable", d. h. parallel dekomprimierbar. Dies umgehen moderne Dateiformate, wie ORC oder Parquet, indem sie die zu komprimierenden Dateien intern in Blöcke aufteilen. Dadurch ist jedes Kompressionsformat geeignet, um die Dateien parallel zu verarbeiten.		Hadoop unterstützt die transparente Kompression von Dateien zur optimalen Speicher- und Ressourcen-Unterstützung. Es wird eine Vielzahl von Formaten unterstützt, darunter [[Snappy (Datenkompressionssoftware)\|Snappy]] für schnelle Komprimierung, [[zlib]] für hohe Kompressionsraten und [[Bzip2]] für höchste Komprimierung. Es können beliebige weitere Formate Hadoop-Anwendungen transparent zur Verfügung gestellt werden. Kompression kann zur Verbesserung der Performance führen, da diese die notwendigen IO-Operationen signifikant reduziert. Jedoch sind nicht alle Kompressionstypen "splitable", d. h. parallel dekomprimierbar. Dies umgehen moderne Dateiformate, wie ORC oder Parquet, indem sie die zu komprimierenden Dateien intern in Blöcke aufteilen. Dadurch ist jedes Kompressionsformat geeignet, um die Dateien parallel zu verarbeiten.

			=== Transparente Dateiformatunterstützung ===
			Hadoop unterstützt transparent die Verwendung unterschiedlicher Dateiformate je nach Anwendung. Unterstützt werden sowohl unstrukturierte als auch strukturierte Formate, darunter einfache Textformate wie [[CSV (Dateiformat)\|CSV]], [[JSON]] aber auch hochoptimierte Schemabasierende Dateien ([[Apache Avro]]) und hochoptimierte tabulare Formate wie ORC und Parquet. Daneben können weitere Dateiformate einfach entwickelt werden. Weitere Plugins unterstützen die Analyse von CryptoLedgern.

			[[Extensible Markup Language\|XML]] gilt im Hadoop-Ökosystem als veraltet, da es sich nicht für hochperformante Big-Data-Anwendungen eignet. Stattdessen wird empfohlen, Apache Avro als Austauschformat zu nutzen und ORC oder Parquet als Abfrageformat für hochstrukturierte Daten.

	== Erweiterungen ==		== Erweiterungen ==

← Nächstältere Version		Version vom 17. April 2024, 19:44 Uhr
Zeile 29:		Zeile 29:
	Sowohl Dateiblocklänge als auch [[Redundanz (Technik)\|Redundanzgrad]] sind konfigurierbar.		Sowohl Dateiblocklänge als auch [[Redundanz (Technik)\|Redundanzgrad]] sind konfigurierbar.

	HDFS eignet sich für große Dateien. Viele kleinere Dateien sind nicht sinnvoll und sollten über Hadoop Archives (HAR) anwendungstransparent zusammengefasst werden.<ref>https://hadoop.apache.org/docs/current/hadoop-archives/HadoopArchives.html</ref> In zukünftigen Releases werden durch den Hadoop Distributed Data Store (HDDS) auch kleine Dateien ohne Umwege transparent unterstützt.<ref>{{Webarchiv\|url=https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Distributed+Data+Store+and+Applications \|wayback=20180527202302 \|text=Archivierte Kopie \|~~archiv-bot~~=~~2019~~-08-~~24 13:50:20 InternetArchiveBot~~ }}</ref>		HDFS eignet sich für große Dateien. Viele kleinere Dateien sind nicht sinnvoll und sollten über Hadoop Archives (HAR) anwendungstransparent zusammengefasst werden.<ref>https://hadoop.apache.org/docs/current/hadoop-archives/HadoopArchives.html</ref> In zukünftigen Releases werden durch den Hadoop Distributed Data Store (HDDS) auch kleine Dateien ohne Umwege transparent unterstützt.<ref>{{Webarchiv\|url=https://cwiki.apache.org/confluence/display/HADOOP/Hadoop+Distributed+Data+Store+and+Applications \|wayback=20180527202302 \|text=Archivierte Kopie }}{{Abrufdatum \|1=2024-04-17}}</ref>

	HDFS kann durch andere verteilte Dateisysteme wie [[CassandraFS]], [[MapRFS]], [[GPFS]], S3 und [[Azure Blockstorage]] ersetzt werden.<ref>{{Webarchiv\|url=https://wiki.apache.org/hadoop/HCFS \|wayback=20160127080145 \|text=Archivierte Kopie \|~~archiv-bot~~=~~2022~~-10-~~04 09:45:54 InternetArchiveBot~~ }}</ref> Mit Einschränkungen werden auch FTP-Server als Dateisystem unterstützt.<ref>http://hadoop.apache.org/docs/r2.7.1/api/org/apache/hadoop/fs/ftp/FTPFileSystem.html</ref> Hadoop-Ökosystem-Anwendungen, die fremde Dateisysteme nutzen sollen, müssen für optimale Performance die entsprechende Datenlokalität unterstützen, was durch Tests sichergestellt werden sollte.		HDFS kann durch andere verteilte Dateisysteme wie [[CassandraFS]], [[MapRFS]], [[GPFS]], S3 und [[Azure Blockstorage]] ersetzt werden.<ref>{{Webarchiv\|url=https://wiki.apache.org/hadoop/HCFS \|wayback=20160127080145 \|text=Archivierte Kopie }}{{Abrufdatum \|1=2024-04-17}}</ref> Mit Einschränkungen werden auch FTP-Server als Dateisystem unterstützt.<ref>http://hadoop.apache.org/docs/r2.7.1/api/org/apache/hadoop/fs/ftp/FTPFileSystem.html</ref> Hadoop-Ökosystem-Anwendungen, die fremde Dateisysteme nutzen sollen, müssen für optimale Performance die entsprechende Datenlokalität unterstützen, was durch Tests sichergestellt werden sollte.

	=== Yet Another Resource Negotiator (YARN) ===		=== Yet Another Resource Negotiator (YARN) ===
Zeile 55:		Zeile 55:

	=== Hive ===		=== Hive ===
	Hive erweitert Hadoop um [[Data-Warehouse]]-Funktionalitäten, namentlich die Anfragesprache ''HiveQL'' und Indizes. HiveQL ist eine auf [[SQL]] basierende [[Abfragesprache]] und ermöglicht dem Entwickler somit die Verwendung einer SQL99-ähnlichen Syntax.<ref>https://cwiki.apache.org/confluence/display/Hive/Home</ref> Seit Hive 2.0 wird Hybrid Procedural SQL On Hadoop (HPL/SQL) unterstützt, welches Ausführung von [[PL/SQL]] und vielen weiteren SQL-Dialekten unterstützt. Außerdem werden durch Verwendung des ORC-Tabellenformats, durch LLAP und viele weitere Optimierungen neben Batch-Anwendung zunehmend auch komplexe interaktive Abfragen unterstützt. Diese Optimierungen entstammen der Stinger-Initiative,<ref>{{Webarchiv\|url=https://de.hortonworks.com/solutions/ \|wayback=20170326225843 \|text=Archivierte Kopie \|~~archiv-bot~~=~~2023~~-03-~~07 20:35:24 InternetArchiveBot~~ }}</ref> welche auch eine Unterstützung von SQL:2011 Analytics vorsieht. Erweiterungen wie HiveMall<ref>https://github.com/myui/hivemall</ref> bieten in-database Analytics für komplexe Machine-Learning-Anwendungen.		Hive erweitert Hadoop um [[Data-Warehouse]]-Funktionalitäten, namentlich die Anfragesprache ''HiveQL'' und Indizes. HiveQL ist eine auf [[SQL]] basierende [[Abfragesprache]] und ermöglicht dem Entwickler somit die Verwendung einer SQL99-ähnlichen Syntax.<ref>https://cwiki.apache.org/confluence/display/Hive/Home</ref> Seit Hive 2.0 wird Hybrid Procedural SQL On Hadoop (HPL/SQL) unterstützt, welches Ausführung von [[PL/SQL]] und vielen weiteren SQL-Dialekten unterstützt. Außerdem werden durch Verwendung des ORC-Tabellenformats, durch LLAP und viele weitere Optimierungen neben Batch-Anwendung zunehmend auch komplexe interaktive Abfragen unterstützt. Diese Optimierungen entstammen der Stinger-Initiative,<ref>{{Webarchiv\|url=https://de.hortonworks.com/solutions/ \|wayback=20170326225843 \|text=Archivierte Kopie }}{{Abrufdatum \|1=2024-04-17}}</ref> welche auch eine Unterstützung von SQL:2011 Analytics vorsieht. Erweiterungen wie HiveMall<ref>https://github.com/myui/hivemall</ref> bieten in-database Analytics für komplexe Machine-Learning-Anwendungen.
	Transaktionalität wird ebenfalls durch das ORC-Tabellenformat unterstützt. Es gibt die Möglichkeit, traditionelle Indexe wie den B-Tree-Index und den Bitmap-Index zu definieren. Für Data-Warehouse-Szenarien wird allerdings empfohlen, nicht diese zu nutzen, sondern das ORC-Format mit Unterstützung von Komprimierung, Bloom-Filtern und Storage-Indexen.<ref>{{Webarchiv\|url=https://snippetessay.wordpress.com/2015/07/25/hive-optimizations-with-indexes-bloom-filters-and-statistics/ \|wayback=20160304183122 \|text=Archivierte Kopie \|~~archiv-bot~~=~~2023~~-06-~~10 18:57:28 InternetArchiveBot~~ }}</ref> Dies ermöglicht wesentlich performantere Abfragen, sofern die Daten sortiert sind. Moderne Datenbank-Appliances wie Oracle Exadata unterstützen diese Optimierungsmöglichkeiten und empfehlen ebenfalls, auf traditionelle Indexe aus Performance-Gründen zu verzichten.		Transaktionalität wird ebenfalls durch das ORC-Tabellenformat unterstützt. Es gibt die Möglichkeit, traditionelle Indexe wie den B-Tree-Index und den Bitmap-Index zu definieren. Für Data-Warehouse-Szenarien wird allerdings empfohlen, nicht diese zu nutzen, sondern das ORC-Format mit Unterstützung von Komprimierung, Bloom-Filtern und Storage-Indexen.<ref>{{Webarchiv\|url=https://snippetessay.wordpress.com/2015/07/25/hive-optimizations-with-indexes-bloom-filters-and-statistics/ \|wayback=20160304183122 \|text=Archivierte Kopie }}{{Abrufdatum \|1=2024-04-17}}</ref> Dies ermöglicht wesentlich performantere Abfragen, sofern die Daten sortiert sind. Moderne Datenbank-Appliances wie Oracle Exadata unterstützen diese Optimierungsmöglichkeiten und empfehlen ebenfalls, auf traditionelle Indexe aus Performance-Gründen zu verzichten.

	Hive unterstützt die Ausführung von Abfragesprachen durch sogenannte „Engines“. MapReduce (MR) gilt als veraltet und sollte nicht mehr verwendet werden (seit 2.0 als „deprecated“ gekennzeichnet). Stattdessen wird TEZ empfohlen. Alternativ wird Spark als Engine angeboten. Beide basieren auf Optimierungsverfahren durch gerichtete azyklische Graphen.		Hive unterstützt die Ausführung von Abfragesprachen durch sogenannte „Engines“. MapReduce (MR) gilt als veraltet und sollte nicht mehr verwendet werden (seit 2.0 als „deprecated“ gekennzeichnet). Stattdessen wird TEZ empfohlen. Alternativ wird Spark als Engine angeboten. Beide basieren auf Optimierungsverfahren durch gerichtete azyklische Graphen.
Zeile 62:		Zeile 62:
	LLAP bietet einen transparenten in-memory cache der auf interaktive Big Data Warehouse Anwendungen ausgerichtet ist.<ref>https://cwiki.apache.org/confluence/display/Hive/LLAP</ref>		LLAP bietet einen transparenten in-memory cache der auf interaktive Big Data Warehouse Anwendungen ausgerichtet ist.<ref>https://cwiki.apache.org/confluence/display/Hive/LLAP</ref>

	Im Sommer 2008 stellte [[Facebook]], der ursprüngliche Entwickler von Hive, das Projekt der Open-Source-Gemeinde zur Verfügung.<ref>http://www.dbms2.com/2009/05/11/facebook-hadoop-and-hive/</ref> Der von Facebook verwendete Hadoop-Cluster gehört mit etwas mehr als 100 [[Petabyte]] (Stand: August 2012) zu den größten der Welt.<ref>{{Webarchiv\|url=https://de.scribd.com/doc/103621762/Big-Data-Whiteboard-082212 \|wayback=20170326225931 \|text=Archivierte Kopie \|~~archiv-bot~~=~~2019~~-08-~~24 13:50:20 InternetArchiveBot~~ }}</ref> Das Datenvolumen wuchs bis 2014 auf 300 PByte an.<ref>https://code.facebook.com/posts/229861827208629/scaling-the-facebook-data-warehouse-to-300-pb/</ref>		Im Sommer 2008 stellte [[Facebook]], der ursprüngliche Entwickler von Hive, das Projekt der Open-Source-Gemeinde zur Verfügung.<ref>http://www.dbms2.com/2009/05/11/facebook-hadoop-and-hive/</ref> Der von Facebook verwendete Hadoop-Cluster gehört mit etwas mehr als 100 [[Petabyte]] (Stand: August 2012) zu den größten der Welt.<ref>{{Webarchiv\|url=https://de.scribd.com/doc/103621762/Big-Data-Whiteboard-082212 \|wayback=20170326225931 \|text=Archivierte Kopie }}{{Abrufdatum \|1=2024-04-17}}</ref> Das Datenvolumen wuchs bis 2014 auf 300 PByte an.<ref>https://code.facebook.com/posts/229861827208629/scaling-the-facebook-data-warehouse-to-300-pb/</ref>

	=== Pig ===		=== Pig ===
Zeile 113:		Zeile 113:
	* [[SAS Institute\|SAS]] ermöglicht es, SAS-Skripte verteilt auf einem Hadoop-Cluster auszuführen.		* [[SAS Institute\|SAS]] ermöglicht es, SAS-Skripte verteilt auf einem Hadoop-Cluster auszuführen.
	* [[Matlab]] von Mathworks unterstützt die verteilte Ausführung von Matlab-Skripten auf einem Hadoop-Cluster.		* [[Matlab]] von Mathworks unterstützt die verteilte Ausführung von Matlab-Skripten auf einem Hadoop-Cluster.
	Daneben existieren weitere Anbieter.<ref>{{Webarchiv\|url=https://wiki.apache.org/hadoop/Distributions%20and%20Commercial%20Support \|wayback=20170318141219 \|text=Archivierte Kopie \|~~archiv-bot~~=~~2022~~-10-~~04 09:45:54 InternetArchiveBot~~ }}</ref>		Daneben existieren weitere Anbieter.<ref>{{Webarchiv\|url=https://wiki.apache.org/hadoop/Distributions%20and%20Commercial%20Support \|wayback=20170318141219 \|text=Archivierte Kopie }}{{Abrufdatum \|1=2024-04-17}}</ref>

	== Literatur ==		== Literatur ==