airflow 开源工作流管理平台使用教程
前言
Apache Airflow 是用于数据工程管道的开源工作流管理平台。它于2014年10月在Airbnb启动,是管理公司日益复杂的工作流程的解决方案。通过创建Airflow,Airbnb可以通过编程方式编写和计划其工作流程,并通过内置的Airflow用户界面对其进行监控。
安装 airflow
本次安装环境: 参考 prerequisites:
- Python: 3.10
- PostgreSQL: 15
- Kubernetes: 1.24.0
- 机器内存:32G
使用 docker 安装: 基于 docker-compose 安装
# 下载 docker-compose.yaml
curl -LfO 'https://airflow.apache.org/docs/apache-airflow/2.5.2/docker-compose.yaml'
# 安装
mkdir -p ./dags ./logs ./plugins
echo -e "AIRFLOW_UID=$(id -u)" > .env
docker compose up airflow-init
# 看到 User "airflow" created with role "Admin" 就是初始化成功
# 清理环境
# ocker compose down --volumes --remove-orphansdocker-compose.yaml
# 启动
# vi docker-compose.yaml 修改 airflow-webserver 的端口
docker compose up -d
airflow-web 默认端口 8080 账密为 airflow
使用
如何定义 task
如何定义 drag
参数如何传递
如何启动 drag