airflow 开源工作流管理平台使用教程

2023-03-21 宋洋葱 宋洋葱

前言

Apache Airflow 是用于数据工程管道的开源工作流管理平台。它于2014年10月在Airbnb启动,是管理公司日益复杂的工作流程的解决方案。通过创建Airflow,Airbnb可以通过编程方式编写和计划其工作流程,并通过内置的Airflow用户界面对其进行监控。

安装 airflow

本次安装环境: 参考 prerequisites:

  • Python: 3.10
  • PostgreSQL: 15
  • Kubernetes: 1.24.0
  • 机器内存:32G

使用 docker 安装: 基于 docker-compose 安装

# 下载 docker-compose.yaml
curl -LfO 'https://airflow.apache.org/docs/apache-airflow/2.5.2/docker-compose.yaml'
# 安装
mkdir -p ./dags ./logs ./plugins
echo -e "AIRFLOW_UID=$(id -u)" > .env
docker compose up airflow-init
# 看到 User "airflow" created with role "Admin" 就是初始化成功
# 清理环境
# ocker compose down --volumes --remove-orphansdocker-compose.yaml
# 启动
# vi docker-compose.yaml 修改 airflow-webserver 的端口
docker compose up -d

airflow-web 默认端口 8080 账密为 airflow

使用

如何定义 task

如何定义 drag

参数如何传递

如何启动 drag

参考文档