Vés al contingut

Apache Hadoop

De la Viquipèdia, l'enciclopèdia lliure
Aquesta és una versió anterior d'aquesta pàgina, de data 09:20, 3 gen 2022 amb l'última edició de Rebot (discussió | contribucions). Pot tenir inexactituds o contingut no apropiat no present en la versió actual.
Apache Hadoop
Modifica el valor a Wikidata

Tipusentorn de treball Modifica el valor a Wikidata
Versió inicial2014
Versió estable0.26.0 / 13 setembre 2017
LlicènciaLlicència Apache, versió 2.0
GNU General Public License Modifica el valor a Wikidata
Característiques tècniques
Sistema operatiumultiplataforma i POSIX Modifica el valor a Wikidata
PlataformaMàquina Virtual Java Modifica el valor a Wikidata
Escrit enJava Modifica el valor a Wikidata
Equip
Desenvolupador(s)Apache Software Foundation Modifica el valor a Wikidata
Més informació
Lloc webhadoop.apache.org (anglès) Modifica el valor a Wikidata
Stack ExchangeEtiqueta Modifica el valor a Wikidata
Guia d'usuariGuia d'usuari Modifica el valor a Wikidata

Apache Hadoop és un entorn de programari emprat per a l'emmagatzemament i processat distribuït de dades usant el model de programació MapReduce. L'Apache Hadoop consisteix en clústers d'ordinadors construïts mitjançant maquinari estàndard. La idea fonamental de l'arquitectura Hadoop és l'assumpció que les fallides al maquinari són comuns i haurien de ser reparades automàticament a través d'aquest programari.[1][2][3]

Propietats

El nucli de l'Apache Hadoop consisteix dels mòduls :

  • Hadoop Common : conté les biblioteques i utilitats cridades des del altres mòduls.
  • HDFS (Hadoop Distributed File System) : part d'emmagatzematge distribuït entre diversos nodes o ordinadors.
  • Hadoop YARN : plataforma per a la gestió dels recursos (nodes, amplada de banda assignat...)
  • Hadoop MapReduce : part de processament de dades a gran escala, és una versió adaptada del programari MapReduce.
Fig1. Exemple d'estructura distribuïda Hadoop

Arquitectura

  • Sistema d'arxius : HDFS és un sistema d'arxius distribuïts, portabble i escalable, escrit en llenguatge java. HDFS emmagatzema grans arxius (típicament de l'ordre de gigabytes a terabytes) a través de múltiples màquines. S'aconsegueix la fiabilitat dels arxius mitjançant el replicat de les dades en molts ordinadors. Un avantatge d'emprar HDFS és el coneixement de l'estat de les dades entre els assignadors de tasques. Aquests assignadors de tasques redueixen la quantitat de processos o optimitzen el temps total. Per exemple, si el node A conté les dades (x,y,z) i el node B conté les dades (a,b,c),ns data (a, b, c), l'assignador de taques adjudicarà les dades (x,y,z) al node A i les dades (a,b,c) al node B. D'aquesta manera es redueix el tràfic total per la xarxa.
  • Assignador de tasques : cada node està donat d'un assignador de tasques implementat mitjançant una Java virtual machine (JVM). 

Projectes basats en Hadoop

  • Ambari: una eina basada en web per a provisionar, gestionar i monotoritzar l'Apache Hadoop, que inclo suport per a Hadoop HDFS, Hadoop MapReduce, Hive, HCatalog, HBase, ZooKeeper, Oozie, Pig i Sqoop.
  • Avro: un sistema de serialització de dades.
  • Cassandra: una base de dades multimáster escalable sense punts de fallida.
  • Chukwa: un sistema de col·lecta de dades per a gestionar grans sistemes distribuïts.
  • HBase: una base de dades distribuïda que suporta emmagatzemament de dades estructurades per a garns taules.
  • Hive: una inaestructura de dipòsits de dades.
  • Mahout: una biblioteca d'escaneig de dades i aprenentatge automètic.
  • Pig: un llenguatge de flux de dades d'alt nivell i entorn de programació en paral·lel.
  • Spark: una màquina de càlcul ràpid i general per a les dades Hadoop.
  • Tez: un entorn de programació de flux de dades genèric, construït sobre Hadoop YARN.
  • ZooKeeper: un servei de coordinació d'altes prestacions per a aplicacions distribuïdes.

Referències

  1. «What is Apache Hadoop?» (en anglès). Hortonworks, 26-10-2017.
  2. «What is Apache™ Hadoop®? | MapR» (en anglès). [Consulta: 26 octubre 2017].
  3. «Apache™ Hadoop» (en anglès). https://www.slideshare.ne.+[Consulta: 26 octubre 2017].

Vegeu també

Programaris similars : Google File System.