海量数据插入数据库效率对比测试,海量对比测试
摘要:使用.NET相关技术向数据库中插入海量数据是常用操作。本文对比ADO.NET和LINQ两种技术,分别使用SqlBulkCopy()和InsertAllOnSubmit()方法进行操作。得出结论:相同插入工作量(1w条数据)插入效率相差200倍之巨!
测试场景:
准备两个数据库TestDb和TestDb2,有表:T_Users。表结构如下图所示:
SqlBulkCopy()插入方法如下:
private static Stopwatch InsertUsingSqlBulkCopy(List<UserInMemory> list) { Stopwatch stopWatch = new Stopwatch(); stopWatch.Start(); DataTable dt = new DataTable(); dt.Columns.Add("ID"); dt.Columns.Add("UserName"); for (int i = 0; i < list.Count; i++) { DataRow row = dt.NewRow(); row["ID"] = list[i].ID; row["UserName"] = list[i].UserName; dt.Rows.Add(row); } using (SqlConnection con = new SqlConnection(connStr2)) { con.Open(); using (SqlBulkCopy bulkCopy = new SqlBulkCopy(con)) { try { bulkCopy.DestinationTableName = "dbo.T_UserName"; bulkCopy.ColumnMappings.Add("ID", "ID"); bulkCopy.ColumnMappings.Add("UserName", "UserName"); bulkCopy.WriteToServer(dt); } catch (Exception ex) { Console.WriteLine(ex.ToString()); } finally { con.Close(); } } } stopWatch.Stop(); return stopWatch; }
LINQ插入方法如下所示:
private static Stopwatch InsertUsingLINQ(List<T_User> _list) { Stopwatch stopWatch = new Stopwatch(); stopWatch.Start(); DataClasses1DataContext dataContext = new DataClasses1DataContext(); dataContext.T_Users.InsertAllOnSubmit(_list); dataContext.SubmitChanges(); stopWatch.Stop(); return stopWatch; }
使用上述代码分别导入1万条User数据进入数据库。
得到结果如下图所示:
相同插入工作量(1w条数据)前提下,结论:
1 ADO.NET下SqlBulkCopy()方法是LINQ TO SQL下InsertAllOnSubmit()方法插入效率相差266倍之巨!
2 LINQ使用便捷、代码简短、学习成本低,语言表达优雅;但是,如果对效率要求较高的海量数据相关操作优先推荐使用ADO.NET方法。
相关源码下载地址:http://download.csdn.net/detail/fanrong1985/8130953
你这个称不上海量数据,之前我看过一个跨国企业采用的是预处理的方式,就是在客户设置好时间段,指定时间得到想要的数据,系统一般提前三个小时运行,那数据惊人。
BI 里面基本采用数据压缩的方式,分区间,分表,重聚合等方式。
例如销售日志--》压缩成一天内某商品的销售记录。
这样一万单品一天也就一万的行集。全年最大也就 366万左右,这对数据库来说也就 5秒的事情。
所以压缩成查询的最小计量单位,聚合成最大的数据输出,这就是原则。
至于缓存,数据钻取都是数据加工后才能用的方式。
本质,就是专门做表,专门针对分析。
一次性全部插入速度快,最好是生成成文件,然后以文件形式导入,而以单挑记录插入,数据库每插入一条都要执行语法解析、生成执行计划、执行语句等过程,所以效率很低,小数据量不明显,大数据量就非常明显了。