数据Datapipeline

充分利用云原生服务,提供高效便捷的数据流水线管理方案

方案背景

在如今的实际数据工作中,需要处理的数据常常是多种多样的,需要配置、管理、监控的任务也数以百计,任务的重要程度、时效性要求和性能要求都千差万别。我们迫切需要一个解决方案来连接数据处理分析的各个环节,将整个庞杂的系统变得井然有序,便于管理和扩展。

客户需求

数据处理作业繁多,作业之间的流程依赖比较复杂,比如离线数仓报表处理业务,从数据采集,清洗,到各个层级的报表的汇总运算,到最后数据导出到外部业务系统,一个完整的业务流程,可能涉及到成百上千个相互交叉依赖关联的作业。因此企业面临诸多任务调度的问题。

方案架构

月亮巴巴充分利用云原生服务,提供高效便捷的数据流水线管理方案,帮助企业针对不同类型的数据进行自动化整合、转换和管理,并在此基础上拓展更多的功能,例如自动生成报表,自动分析与预测等。通过流水线管理,可以定义依赖性进程来创建数据节点组成的管道、活动或业务逻辑,例如按顺序运行的数据计算处理作业或数据查询,以及业务逻辑执行的时间线。

方案优势

直观便捷

图形化界面,方便创建和管理任务;

操作灵活

支持数据任务的灵活编排和修改;

实时跟踪任务

为任务分级分组,并关注所有任务的完成情况;

监控告警

权限控制、监控报警、质量分析。