Kettle的设计原则

更新时间:2021年06月04日14时23分来源:传智教育浏览次数:

好口碑IT培训

每个ETL工具都会有自己的设计原则，Kettle也不例外。Kettle的设计原则一共有7点，具体内容如下。

1.易于开发

作为数据仓库和ETL的开发者，如果只想把时间用在创建BI解决方案上，那么任何用于软件安装和配置的时间都是一-种浪费。例如，为了创建数据库连接，很多与Kettle类似的工具都要求用户手工输入数据库驱动的类名和JDBCURL连接串,虽然用户可以通过互联网搜索到这些信息，但这明显把用户的注意力转移到了技术方面，并非业务方面，而Kettle就是尽量避免这类问题出现。

2.避免自定义开发

一般来说,ETL工具的作用是使复杂的事情变得简单，简单的事情更简单。ETL提供了标准化的构建组件满足ETL开发人员不断重复的需求,通过手工编写Java代码或Java脚本代码实现一些功能，但是增加的代码会给项目增加复杂度和维护成本,因此要尽量避免手工开发，可组合使用已提供的组件完成任务。

3.所有功能都能通过用户界面完成

对于“所有功能都能通过用户界面完成”这一黄金准则也有几个例外(如kettle.properties和shared.xmr文件就是两个例外，不能通过Kettle界面修改这两个配置文件，而是需要通过手工修改)，如果不直接把所有功能通过界面的方式提供给用户，那么就是在浪费开发人员的时间，也是在浪费用户的时间。

4.没有命名限制

ETL转换里有各种各样的名称，如数据库连接、转换、步骤、数据字段、作业等都有一个名称。若在命名时考虑到一-些限制(如长度、选择的字符)，就会使工作变得烦琐。ETL只需要足够智能化的处理ETL开发人员设置的各种名称。

5.透明

如果有ETL工具需要了解转换中某一部分工作是如何完成的，那么这个ETL工具就是不透明的。若想实现ETL工具里的某一个功能，就需要准确地知道这个功能是如何完成的。允许用户看到ETL过程中各部分的运行状态也很重要，这样可以加快开发速度，降低维护成本。

6.灵活的数据通道

对ETL开发者来说，创造性极为重要,不但可以让你享受到工作的乐趣,而且还能让的以最快的方式开发出ETL方案。Kettle在数据的发送、接收方式上设计得尽可能灵的。Kettle可以在文本文件、关系数据库等不同数据源之间复制和分发数据。

7.只映射需要映射的字段

在一些ETL工具里可以看到数百行的输入和输出映射，对于维护人员来说,这是一个很强大的功能。在ETL开发过程中,字段在不断地变化,大量的字段映射也会增加维护的成本,而Kettle的一个核心原则是将ETL流程中所有未指定的字段自动传递到下一个组件中,因此极大地降低了维护的成本。也就是说,输人的字段会自动出现在输出流中,除非中间过程专门设置了终止某个字段的传递。

猜你喜欢：

数据仓库的结构详细介绍

Spark SQL架构的工作原理和工作流程是什么？

大数据Hadoop生态圈包含哪些子系统？

传智教育高级python+大数据培训课程

上一篇：Redis的基本数据类型【Python面试题】 下一篇：ETL数据增量抽取的四种方式