Apache Airflow

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая InternetArchiveBot (обсуждение | вклад) в 03:04, 4 мая 2022 (Спасено источников — 3, отмечено мёртвыми — 0. Сообщить об ошибке. См. FAQ.) #IABot (v2.0.8.7). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску
Apache Airflow
Логотип программы Apache Airflow
Тип проект Фонда Apache[вд] и Python-библиотека[вд]
Разработчик Apache Software Foundation
Написана на Python
Последняя версия
Репозиторий github.com/apache/airflow
Лицензия Apache License 2.0[2] и лицензия Apache
Сайт airflow.apache.org (англ.)
Логотип Викисклада Медиафайлы на Викискладе

Apache Airflow — это открытое программное обеспечение для создания, мониторинга и оркестрации сценариев обработки данных.

Обзор

Этот проект был изначально разработан в Airbnb в октябре 2014 г.[3] в качестве решения для управления всё более сложными процессами обработки данных. Создание Airflow позволило Airbnb программно создавать и планировать свои рабочие процессы и отслеживать их через встроенный Airflow пользовательский интерфейс.[4][5] С самого начала, проект был сделан с открытым исходным кодом, став проектом Apache Incubator в марте 2016 года и проектом верхнего уровня Apache Software Foundation в январе 2019 года.

Airflow написан на Python, а рабочие процессы создаются с помощью скриптов Python. Airflow спроектирован по принципу «конфигурация как код». В то время как существуют другие платформы рабочих процессов «конфигурация как код», использующие языки разметки, такие как XML, использование Python позволяет разработчикам импортировать библиотеки и классы, чтобы помочь им создавать свои рабочие процессы.

Airflow использует направленный ациклический граф (DAG) для управления оркестровкой рабочего процесса. Задачи и зависимости определяются в скриптах на Python, а Airflow управляет планированием и выполнением кода в этих скриптах. Сценарии обработки данных (DAGs) могут запускаться либо по определенному расписанию (например, ежечасно или ежедневно), либо на основе триггеров внешних событий (например, появление файла в Hive[6]). Предыдущие планировщики на основе DAG, такие как Oozie и Azkaban, как правило, полагались на несколько файлов конфигурации и структуру файловой системы для создания DAG, тогда как в Airflow DAG могут часто записывается в один файл Python.[7]

Поставщики облачных сервисов

Многие крупные поставщики облачных сервисов предоставляют AirFlow в виде управляемого сервиса:

  • Astronomer создал SaaS инструмент и Kubernetes-развёртываемый стек Airflow, который помогает в мониторинге, оповещении, DevOps и управлении кластером.[8]
  • Cloud Composer — это управляемый облачный сервис Airflow, работающий на Google Cloud Platform (GCP) и интегрированный с другими сервисами GCP.[9] Начиная с ноября 2020 г.
  • Amazon Web Services также предлагает управляемый облачный сервис Apache Airflow.[10]

Примечания

  1. https://airflow.apache.org/docs/apache-airflow/2.10.5/release_notes.html
  2. https://airflow.incubator.apache.org/license.html
  3. Apache Airflow. Apache Airflow. Дата обращения: 30 сентября 2019. Архивировано 12 августа 2019 года.
  4. Beauchemin, Maxime. -a-workflow-management-platform-46318b977fd8 Airflow: платформа управления рабочим процессом. Medium (2 июня 2015). Дата обращения: 30 сентября 2019. [https ://web.archive.org/web/20190813011749/https://medium.com/airbnb-engineering/airflow-a-workflow-management-platform-46318b977fd8 Архивировано] 13 августа 2019 года.
  5. Airflow. Дата обращения: 30 сентября 2019. Архивировано 6 июля 2019 года.
  6. Trencseni, Marton. Обзор Airflow. BytePawn (16 января 2016). Дата обращения: 1 октября 2019. Архивировано 28 февраля 2019 года.
  7. {{Cite web|url=https://cwiki.apache.org/confluence/display/incubator/AirflowProposal%7Ctitle=AirflowProposal%7Cdate=28 марта 2019 г.|website=Apache Software Foundation|access-date=1 октября 2019 г.}
  8. Lipp, Cassie. Astronomer теперь компания Apache Airflow. americaninno (13 июля 2018). Дата обращения: 18 сентября 2019. Архивировано 14 октября 2019 года.
  9. -automation-tool-for-developers/ Google запускает Cloud Composer, новый инструмент автоматизации рабочих процессов для разработчиков (амер. англ.). TechCrunch. Дата обращения: 18 сентября 2019.
  10. -airflow-mwaa/ Введение в управляемые рабочие процессы Amazon для Apache Airflow (MWAA) (амер. англ.). Amazon Web Services (24 ноября 2020). Дата обращения: 17 декабря 2020.