欢迎投稿

今日深度:

对于数据去重的处理-PDI导入前及数据库端的双重设定,

对于数据去重的处理-PDI导入前及数据库端的双重设定,


数据重复是一个比较麻烦的问题,影响数据质量,这个问题困扰了我好一阵子,研究后,用以下方法解决。


首先是PDI导入前,在写入数据库之前增加一步Sort Rows来过滤数据,如果发现有重复的则只导入一条记录,用序列号和时间戳来检验数据唯一性,总体步骤如下:


数据库端的话,采用类似的方法,用indexs的方法,锁定序列号+时间戳为唯一值,这样如果有重复的话,数据也无法导入而报错,设置方法如下:


www.htsjk.Com true http://www.htsjk.com/teradata/36645.html NewsArticle 对于数据去重的处理-PDI导入前及数据库端的双重设定, 数据重复是一个比较麻烦的问题,影响数据质量,这个问题困扰了我好一阵子,研究后,用以下方法解决。 首先是PDI导入前,在...
相关文章
    暂无相关文章
评论暂时关闭