数据清洗小记:分类进行字符串转日期(某日期字段存在多类格式处理)
【背景】
在清洗数据时,发现源端系统某时间类字段下的数据存在三类格式,怀疑这是源端接受自三个或更多系统的来源数据格式不统一造成的。之所以出现这种情况,因为源端该时间类字段竟然用的varchar2格式,可能源端系统在接受不同系统上传数据时没做规范造成的。需要把该字段下的数据按分类进行处理、清洗。
【解决】
我们可以利用case函数,对不同类型的数据进行分类处理,例如:
select CASE WHEN 条件1 THEN 处理方式1 WHEN 条件2 THEN 处理方式2 ELSE 处理方式3 END 命名 from 源端表;
【实验】
创建实验表,如下:
create table 实验表 (ID varchar2(32) default sys_guid(), DATE_TIME varchar2(50), MEMO varchar2(32) );
插入实验数据,模拟出三类时间格式类型,如下:
insert into 实验表 (DATE_TIME,MEMO) values('2017-08-11 23.0:18.0:30.0','1'); insert into 实验表 (DATE_TIME,MEMO) values('2015-05-27 12.0:24.0:20.0','1'); insert into 实验表 (DATE_TIME,MEMO) values('20140409 11:00:12 PM','2'); insert into 实验表 (DATE_TIME,MEMO) values('20120401 10:10:00 AM','2'); insert into 实验表 (DATE_TIME,MEMO) values('2013 02 08 08:12:23:000 PM','3'); insert into 实验表 (DATE_TIME,MEMO) values('2015 01 31 09:00:00:000 PM','3'); commit; select * from 实验表;
创建目标表,如下:
create table 目标表 (ID VARCHAR2(32), RESULT_TIME DATE, LEVEL_NUMBER VARCHAR2(32) );
不处理情况下,抽取数据,报错如下:
INSERT /*+append*/ INTO 目标表 NOLOGGING SELECT ID ID, CASE WHEN DATE_TIME LIKE '%-%-%' THEN TO_DATE(REPLACE(DATE_TIME,'.0',''),'YYYY-MM-DD HH24:MI:SS') WHEN DATE_TIME LIKE '% % % %:%:%:%' THEN TO_DATE(REPLACE(DATE_TIME,':000',''),'yyyy mm dd HH:MI:SS AM','NLS_DATE_LANGUAGE=American') ELSE TO_DATE(DATE_TIME,'yyyy mm dd HH:MI:SS AM','NLS_DATE_LANGUAGE=American') END RESULT_TIME, MEMO LEVEL_NUMBER FROM 实验表; COMMIT; SELECT * FROM 目标表;
小知识,简而记之。
补充:对于英文格式日期处理
select to_date('1-JULY-15 22:23:11','DD-MON-YY hh24:mi:ss') FROM DUAL;
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。