对于数据去重的处理-PDI导入前及数据库端的双重设定,
数据重复是一个比较麻烦的问题,影响数据质量,这个问题困扰了我好一阵子,研究后,用以下方法解决。
首先是PDI导入前,在写入数据库之前增加一步Sort Rows来过滤数据,如果发现有重复的则只导入一条记录,用序列号和时间戳来检验数据唯一性,总体步骤如下:
数据库端的话,采用类似的方法,用indexs的方法,锁定序列号+时间戳为唯一值,这样如果有重复的话,数据也无法导入而报错,设置方法如下:
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。