Apache Hadoop

Apache Hadoop
Тип	розподілені обчислення
Автори	Doug Cuttingd і Mike Cafarellad
Розробник	Apache Software Foundation
Стабільний випуск	2.7.0 (21 квітня 2015; 10 років тому)
Платформа	віртуальна машина Java
Операційна система	крос-платформовий
Мова програмування	Java
Стан розробки	активний
Ліцензія	Apache License 2.0
Онлайн-документація	cwiki.apache.org/confluence/display/hadoop
Репозиторій	https://git-wip-us.apache.org/repos/asf/hadoop.git, https://gitbox.apache.org/repos/asf?p=hadoop.git, https://github.com/apache/hadoop
Вебсайт	hadoop.apache.org
	Медіафайли у Вікісховищі ;

~~|posix compliant=~~

Apache Hadoop — вільна програмна платформа і каркас для організації розподіленої обробки великих обсягів даних (що міряється у петабайтах) з використанням парадигми MapReduce, при якій завдання ділиться на безліч дрібніших відособлених фрагментів, кожен з яких може бути запущений на окремому вузлі кластера. До складу Hadoop входить також реалізація розподіленої файлової системи Hadoop Distributed Filesystem (HDFS), котра автоматично забезпечує резервування даних і оптимізована для роботи MapReduce-застосунків. Для спрощення доступу до даних в сховищі Hadoop розроблена БД HBase і SQL-подібна мова Hive, яка є свого роду SQL для MapReduce і запити якої можуть бути розпаралелені і оброблені кількома Hadoop-платформами.

Історія

Розробка була ініційована на початку 2005 Дуґом Каттінгом (en:Doug Cutting) з метою побудови програмної інфраструктури розподілених обчислень для проекту Nutch — вільної програмної пошукової машини на Java, її ідейною основою стала публікація співробітників Google Джеффрі Діна і Санжая Гемавата^[1] про обчислювальну концепцію MapReduce^[2]. Новий проект був названий на честь іграшкового слоненяти дитини засновника проекту.

Протягом 2005-2006 років Hadoop розвивався зусиллями двох розробників — Каттінга і Майка Кафареллі (Mike Cafarella) в режимі часткової зайнятості^[2], спочатку в рамках проекту Nutch, потім — проекту Lucene. У січні 2006 року корпорація Yahoo запросила Каттінга очолити спеціально виділену команду розробки інфраструктури розподілених обчислень, до цього ж моменту відноситься виділення Hadoop в окремий проект. У лютому 2008 року Yahoo запустила в продуктивну експлуатацію кластерну пошукову машину на 10 тисяч процесорних ядер, керовану засобами Hadoop.

У січні 2008 року Hadoop стає проектом верхнього рівня системи проектів Apache Software Foundation. У квітні 2008 року Hadoop побив світовий рекорд продуктивності в стандартизованому бенчмарку сортування даних — 1 Тбайт був оброблений за 309 сек на кластері з 910 вузлів. З цього моменту починається широке застосування Hadoop за межами Yahoo — технологію для своїх сайтів впроваджують Last.fm, Facebook, The New York Times, проводиться адаптація для запуску Hadoop у хмарах Amazon EC2.

У вересні 2009 року Каттинг переходить в каліфорнійський стартап Cloudera, який, завдяки такому переходу, коментатори характеризують як «нового прапороносця Hadoop», попри те, що основна частина проекту була створена все-таки співробітниками Facebook і Yahoo^[3].

У квітні 2010 року корпорація Google надала Apache Software Foundation права на використання технології MapReduce, через три місяці після її захисту в патентному бюро США, тим самим позбавивши організацію від можливих патентних претензій^[4].

Починаючи з 2010 року Hadoop неодноразово характеризується як ключова технологія «Великих Даних», прогнозується його широке розповсюдження для масово-паралельної обробки даних, і, разом з Cloudera, з'явилася серія технологічних стартапів, повністю орієнтованих на комерціалізацію Hadoop^[5]. Протягом 2010 року декілька підпроектів Hadoop — Avro, HBase, Hive, Pig, Zookeeper — послідовно стали проектами верхнього рівня фонду Apache. У березні 2011 року Hadoop удостоєний щорічної інноваційної нагороди медіагрупи Guardian, на церемонії вручення технологія була названа «швейцарським армійським ножем XXI століття»^[6].

Застосування

Hadoop активно використовується у великих промислових проектах, надаючи можливості, аналогічні платформі Google Bigtable/GFS/MapReduce, при цьому компанія Google офіційно делегувала Hadoop та іншим проектам Apache право використання технологій, на які поширюються патенти, пов'язані з методом MapReduce. Одним з найбільших користувачів і розробників Hadoop є компанія Yahoo!, вона активно використовує цю систему в своїх пошукових кластерах (Hadoop-кластеру Yahoo, що складається з 40 тисяч вузлів, належить світовий рекорд швидкості сортування великого обсягу даних). Hadoop-кластер використовується в Facebook для обробки однієї з найбільших баз даних, в якій зберігається близько 30 петабайт інформації. Hadoop також лежить в основі платформи Oracle Big Data і активно адаптується компанією Microsoft для роботи з СУБД SQL Server, Windows Server і хмарній платформі Azure Cloud з метою створення нових продуктів для організації розподіленої обробки великих обсягів даних. Hadoop є одним з ключових ланок суперкомп'ютера IBM Watson, який виграв бій з найкращими гравцями телевізійної гри-вікторини "Jeopardy!".

Виноски

↑ Dean, Jeffrey and Ghemawat, Sanjay. MapReduce: Simplified Data Processing on Large Clusters : [англ.] // OSDI ’04: 6th Symposium on Operating Systems Design and Implementation. — USENIX, 2004. — С. 137-149. — doi:10.1145/1327452.1327492.
↑ ^а ^б Cutting, Doug (24 березня 2008). Hadoop: a brief history (англійською) . Yahoo!. Архів оригіналу (PDF) за 11 березня 2012. Процитовано 25 грудня 2011.
↑ Handy, Alex (9 жовтня 2009). Hadoop creator goes to Cloudera (англійською) . SD Times. Архів оригіналу за 11 березня 2012. Процитовано 25 грудня 2011. I've said for a while now that Cloudera is the company with the Hadoop banner firmly in its grasp, despite the fact that Yahoo and Facebook both contribute mountains of code the project
↑ Metz, Cade (27 квітня 2010). Google blesses Hadoop with MapReduce patent license (англійською) . The Register. Архів оригіналу за 11 березня 2012. Процитовано 30 грудня 2011.
↑ Моррисон, Алан та інші (17 грудня 2010). Великі Дані: як витягти з них інформацію. Технологический прогноз. Ежеквартальный журнал, российское издание, 2010 выпуск 3 (російською) . PricewaterhouseCoopers. Архів оригіналу (PDF) за 11 березня 2012. Процитовано 12 листопада 2011. К началу 2010 года Hadoop, MapReduce и ассоциированные с ними технологии с открытым кодом стали движущей силой целого нового явления, которое O’Reilly Media, The Economist и другие издания окрестили большими данными
↑ Winckler, Marie (25 березня 2011). Apache Hadoop takes top prize at Media Guardian Innovation Awards (англійською) . The Guardian. Архів оригіналу за 11 березня 2012. Процитовано 25 грудня 2011. Described by the judging panel as a “Swiss army knife of the 21st century”, Apache Hadoop picked up the innovator of the year award for having the potential to change the face of media innovations

Посилання

Official Hadoop Homepage
Introducing Apache Hadoop: The Modern Data Operating System — lecture given at Stanford University by Co-Founder and CTO of Cloudera, Amr Awadallah (video archive)
Релиз Apache Hadoop 1.0.0, платформы для распределённой обработки данных

[1] Dean, Jeffrey and Ghemawat, Sanjay. MapReduce: Simplified Data Processing on Large Clusters : [англ.] // OSDI ’04: 6th Symposium on Operating Systems Design and Implementation. — USENIX, 2004. — С. 137-149. — doi:10.1145/1327452.1327492.

[cutting-2] а ^б Cutting, Doug (24 березня 2008). Hadoop: a brief history (англійською) . Yahoo!. Архів оригіналу (PDF) за 11 березня 2012. Процитовано 25 грудня 2011.

[3] Handy, Alex (9 жовтня 2009). Hadoop creator goes to Cloudera (англійською) . SD Times. Архів оригіналу за 11 березня 2012. Процитовано 25 грудня 2011. I've said for a while now that Cloudera is the company with the Hadoop banner firmly in its grasp, despite the fact that Yahoo and Facebook both contribute mountains of code the project

[4] Metz, Cade (27 квітня 2010). Google blesses Hadoop with MapReduce patent license (англійською) . The Register. Архів оригіналу за 11 березня 2012. Процитовано 30 грудня 2011.

[5] Моррисон, Алан та інші (17 грудня 2010). Великі Дані: як витягти з них інформацію. Технологический прогноз. Ежеквартальный журнал, российское издание, 2010 выпуск 3 (російською) . PricewaterhouseCoopers. Архів оригіналу (PDF) за 11 березня 2012. Процитовано 12 листопада 2011. К началу 2010 года Hadoop, MapReduce и ассоциированные с ними технологии с открытым кодом стали движущей силой целого нового явления, которое O’Reilly Media, The Economist и другие издания окрестили большими данными

[6] Winckler, Marie (25 березня 2011). Apache Hadoop takes top prize at Media Guardian Innovation Awards (англійською) . The Guardian. Архів оригіналу за 11 березня 2012. Процитовано 25 грудня 2011. Described by the judging panel as a “Swiss army knife of the 21st century”, Apache Hadoop picked up the innovator of the year award for having the potential to change the face of media innovations

[1]

[2]

[3]

[4]

[5]

[6]

п о р Apache Software Foundation
Основні проєкти	ActiveMQ · Airflow · Ant · Apache HTTP Server · APR · Apache Beam^[en] · Bloodhound · Buildr · Camel · Cassandra · Cayenne · Chemistry · CloudStack · Cocoon · Commons · Cordova · CouchDB · CXF · Deltacloud · Derby · Directory · Excalibur · Felix · Flex · Forrest · Geronimo · Gump · Hadoop · iBATIS · Isis · Jackrabbit · James · Lenya · Lucene · Maven · mod_perl · MyFaces · OFBiz · OpenEJB · OpenJPA · OpenNLP · OpenOffice · POI · Qpid · Rave · Roller · Sling · SpamAssassin · Spark · Sqoop · Stratos · Struts · Subversion · Tapestry · Tika · Tomcat · Traffic Server · Tuscany · Velocity · Wicket · XMLBeans^[en]
Інші проєкти	Jakarta Project · Apache XML · Apache Incubator
Підпроєкти	BCEL · BSF · Cactus · Chainsaw · HBase · JMeter · Xerces · Batik · FOP · Log4j · XAP · River · ServiceMix · Log4Net · Abdera · Ivy · ODE · JSPWiki · Wink · Solr
Інкубатор	MXNet · OpenMeetings · Superset
Колишні проєкти (Attic)	Beehive · Harmony · HiveMind · Slide · Shale · Wave
Ліцензія: Apache License · Сайт: http://apache.org/