【限时免费新课程】每天5分钟,一起学Greenplum ETL

Greenplum 作为新一代数据平台,可以与其他数据平台协同工作,充分发挥各自的优势。Greenplum 的定位是一个可以并行计算的大数据平台,它为商业智能(Business Intelligence) 和决策提供数据分析引擎。它的工作模式为:从不同的原始数据源集中汇总数据,对这些数据进行分析和计算,以及帮助上层 BI 应用生成报表。原始数据源主要用于记录各种对数据的操作,例如一笔交易,或者对某个信息的更新。这类操作通常称为在线交易处理(OLTP),它要求操作执行完成后快速返回,表结构通常为第三范式。

然而,应用数据平台的目标是尽快完成复杂的分析任务(OLAP),因此表的设计原则也是尽可能有助于快速得到查询结果,其典型代表是雪花模型或维度建模。以维度建模为例,事实表需要包含特定业务相关的尽可能多的信息,从而避免额外的关联(join)操作。事实表需要的信息通常是从多个不同的数据源汇总而来的,这个汇总工作就是 ETL 的主要任务。ETL 在所有的数据平台架构中都扮演着重要的角色。Greenplum 提供了官方的 ETL 工具 GPLOAD,除了满足高速 数据加载的需求外,还可以完成很多数据转换操作。

(以上内容修改引用自Greenplum官方书籍《Greenplum:从大数据战略到实现》第六章《从 ETL 到数据联邦和数据虚拟化》)

为了让大家系统的学习Greenplum ETL,Greenplum中文社区为大家准备了ETL连载课程《每天5分钟,一起学ETL》,每周三更新,目前的课程限时免费哦!这套课程旨在帮助大家从GPFDIST和GPLOAD开始,到GPCOPY、PXF,理论结合实践,详细介绍Greenplum ETL工具。

学习方式:

  • 思否社区(支持网页版和手机版):点击链接购买订阅
  • 今日头条专栏(仅支持手机版)上搜索“Greenplum中文社区”,即可看到Greenplum中文社区-相关专栏里的课程内容,您也可以扫描下面二维码进行购买。