ETL篇 – Kettle(Data Integration)简介及安装注意事项

Greenplum作为一款数据平台软件,多用于数据仓库、数据湖等场景下,将多个源端数据抽取、转换并加载到Greenplum数据库可能是目前很多用户较为关心的场景。

在数据集成方面,除了自己写程序或脚本来实现特定的功能,有一款顺手的ETL工具能大大提升工作效率。目前市场上现存的ETL工具或有部分ETL的CDC工具五花八门,老牌产品有Informatica、Datastage、Kettle等,新秀有NiFi、HVR等。从今天开始,陆续给大家分享一些ETL相关的内容,分享中有任何建议请留言沟通。

Kettle简介

话不多说,今天开始介绍的一些列文章都与Kettle相关,Kettle这个ETL工具集,允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。它是一款开源的ETL工具,纯java编写,可以在Windows、Linux、Unix(包括Mac)上运行,运行高效稳定,图形化界面使用方便,可以说是目前开源产品中用户体验最好的产品。但是在监控和集群运行方面仍然存在短板(后期在介绍NiFi的时候会体会更深)。

Kettle起初由开发大神MATT开源,其目的就是统一多个数据源数据并输出,目前它被日立公司收购,目前官方名称为Data Integration,已经发展到Data Integration 9.x版本。所以大家可能会在百度搜索时看到很多概念,请不要让这些噪音混淆了你的判断,你大爷仍然是你大爷,Kettle仍然可以免费下载使用。

随着Kettle版本的更迭,所支持的产品也越来越多,几乎包含了目前我们所能遇到的绝大部分产品。当然功能越全,软件包就越大,我在这里采用的是Kettle 7.0版本,用的比较顺手而已(当然我自己认6.x\7.x版本比较经典,国内好多厂商都是基于这两个版本的Kettle进行的国产化),大家日常可以自行选择版本。

Kettle安装

Kettle安装简单,由于其基于Java开发,所以首先需要在对应的环境下安装JDK,然后将下载的Kettle安装包解压缩,点击Data Integration文件夹下的spoon.sh/bat运行即可,这里最需要关注的是Kettle版本与JDK版本的对应关系。

Kettle下载地址

传送门 –> https://sourceforge.net/projects/pentaho/files/

各版本参考资料

常见问题解答

传送门 –> https://wiki.pentaho.com/display/EAI/Beginners+FAQ

与JDK对应关系

官方文档指出:Since Kettle version 5 you need Java 7 (aka 1.7), download this version from Oracle. When the right version is not found on the path (verify with java -version on a command line) you can set this within the Spoon.bat file (see the set PATH line).

上面说的比较笼统,意指只要安装JDK 1.7版本即可。

在实际使用过程中,如果您发现启动报错或有卡住不动的情形,可以简单参考以下对应关系(仅为个人经验)。

Kettle 5.x --> JDK 1.6/JDK 1.7
Kettle 6.x --> JDK 1.7/JDK 1.8
Kettle 7.x/8.x --> JDK 1.8

Kettle在Mac平台的安装注意事项

我这里下载了Kettle 7.1版本的安装包:pdi-ce-7.1.0.0-12.zip。解压完后,如果直接点击 Data Integration.app(Mac下启动方式),程序是没有任何反应的,但是直接在terminal中执行spoon.sh可以启动,从terminal启动呢,极有可能遇到菜单栏和资源库Connect按钮无法点击问题。

这个问题大概是因为Mac OS 的安全策略禁止了这个应用去访问一些数据,此处只需要把这个应用的一些权限删除即可,正确的操作姿势应该是:

$ cd data-integration
$ sudo xattr -dr com.apple.quarantine . Data\ Integration.app
将整个文件夹拖到【应用程序】文件夹,通过Mac的程序坞打开。

Kettle在Windows/Linux/Unix平台的安装注意事项

在Mac之外的平台使用Kettle,只需要执行压缩包下的Spoon.bat(windows)或spoon.sh(Linux/Unix)即可。


发表评论

电子邮件地址不会被公开。 必填项已用*标注