欢迎投稿

今日深度:

在kettle中实现数据验证和检查,kettle实现数据验

在kettle中实现数据验证和检查,kettle实现数据验证


在kettle中实现数据验证和检查

     

      在ETL项目,输入数据通常不能保证一致性。在kettle中有一些步骤可以实现数据验证或检查。验证步骤可以在一些计算的基础上验证行货字段;过滤步骤实现数据过滤;javascript步骤可以实现更复杂的计算。

 

      通常以某种方式查看那些数据是有缺陷的也是有用的,因为大多数ETL是无人值守运行的,所以通常ETL程序会把这些缺陷数据通知给ETL开发者或管理员。建议把这些问题数据行保存到一个特定的公共表格中,以便跟踪这些数据;那么该表格应该包括一些元信息,如:运行转换的名称、验证错误及错误描述等。

 

      在这里下载示例文件,csv输入文件中记录客户到达和离开的两个健身场所,转换程序验证客户ID,场所名称,日期格式,给定日期的合理性。正确的数据写入到excel文件,错误数据重定向到错误收集步骤,每行错误数据被拼成一个字符字段,同时也收集一些关于转换的元数据信息及错误描述,最终这些错误数据行信息保存到另一个excel文件。

      实际场景中输出步骤更可能是表输出步骤,“get System Info”步骤会收集更多数据,之后的错误手机步骤,最好使用子转换,为了在其他转换中重用。

 

      以结构化的方式保存验证错误也使很好地方便数据监测成为可能,ETL过程完成后,可以简单地发送邮件给管理员,简短的说明关于包括错误代码,转换名称,BATCH_ID等数据的缺陷,以及任何你需要的元数据。如果你工作是关于DWH或BI方面的,现在手头已经有了必要的工具。如果您不想使用的excel报告的方式,你可能仍然使用kettle的job创建一个简短的报告文件,并邮寄给了管理员。

 

 

 

 

 


在kettle的图形界面中可以直接实现数据抽取与转换 为何还要先保存成ktr文件然后用java程序调用

都可运行,非图形界面运行可减少图形界面消耗的资源,且运行方式很多种,例如图形界面运行、命令行调用运行、程序调用运行、远程机子运行(集群运行)等。
 

使用kettle完成数据迁移后,怎再通过kettle工具对源数据库中的数据与迁移后的数据进行对比?

使用kettle的核心对象:插入更新,根据主键来完成判断。
 

www.htsjk.Com true http://www.htsjk.com/shujukunews/3289.html NewsArticle 在kettle中实现数据验证和检查,kettle实现数据验证 在kettle中实现数据验证和检查 在ETL项目,输入数据通常不能保证一致性。在kettle中有一些步骤可以实现数据验证或检查。验证步骤可...
评论暂时关闭