海量数据插入数据库效率对比测试,海量对比测试
摘要:使用.NET相关技术向数据库中插入海量数据是常用操作。本文对比ADO.NET和LINQ两种技术,分别使用SqlBulkCopy()和InsertAllOnSubmit()方法进行操作。得出结论:相同插入工作量(1w条数据)插入效率相差200倍之巨!
测试场景:
准备两个数据库TestDb和TestDb2,有表:T_Users。表结构如下图所示:
SqlBulkCopy()插入方法如下:
private static Stopwatch InsertUsingSqlBulkCopy(List<UserInMemory> list)
{
Stopwatch stopWatch = new Stopwatch();
stopWatch.Start();
DataTable dt = new DataTable();
dt.Columns.Add("ID");
dt.Columns.Add("UserName");
for (int i = 0; i < list.Count; i++)
{
DataRow row = dt.NewRow();
row["ID"] = list[i].ID;
row["UserName"] = list[i].UserName;
dt.Rows.Add(row);
}
using (SqlConnection con = new SqlConnection(connStr2))
{
con.Open();
using (SqlBulkCopy bulkCopy = new SqlBulkCopy(con))
{
try
{
bulkCopy.DestinationTableName = "dbo.T_UserName";
bulkCopy.ColumnMappings.Add("ID", "ID");
bulkCopy.ColumnMappings.Add("UserName", "UserName");
bulkCopy.WriteToServer(dt);
}
catch (Exception ex)
{
Console.WriteLine(ex.ToString());
}
finally { con.Close(); }
}
}
stopWatch.Stop();
return stopWatch;
}
LINQ插入方法如下所示:
private static Stopwatch InsertUsingLINQ(List<T_User> _list)
{
Stopwatch stopWatch = new Stopwatch();
stopWatch.Start();
DataClasses1DataContext dataContext = new DataClasses1DataContext();
dataContext.T_Users.InsertAllOnSubmit(_list);
dataContext.SubmitChanges();
stopWatch.Stop();
return stopWatch;
}
使用上述代码分别导入1万条User数据进入数据库。
得到结果如下图所示:
相同插入工作量(1w条数据)前提下,结论:
1 ADO.NET下SqlBulkCopy()方法是LINQ TO SQL下InsertAllOnSubmit()方法插入效率相差266倍之巨!
2 LINQ使用便捷、代码简短、学习成本低,语言表达优雅;但是,如果对效率要求较高的海量数据相关操作优先推荐使用ADO.NET方法。
相关源码下载地址:http://download.csdn.net/detail/fanrong1985/8130953
你这个称不上海量数据,之前我看过一个跨国企业采用的是预处理的方式,就是在客户设置好时间段,指定时间得到想要的数据,系统一般提前三个小时运行,那数据惊人。
BI 里面基本采用数据压缩的方式,分区间,分表,重聚合等方式。
例如销售日志--》压缩成一天内某商品的销售记录。
这样一万单品一天也就一万的行集。全年最大也就 366万左右,这对数据库来说也就 5秒的事情。
所以压缩成查询的最小计量单位,聚合成最大的数据输出,这就是原则。
至于缓存,数据钻取都是数据加工后才能用的方式。
本质,就是专门做表,专门针对分析。
一次性全部插入速度快,最好是生成成文件,然后以文件形式导入,而以单挑记录插入,数据库每插入一条都要执行语法解析、生成执行计划、执行语句等过程,所以效率很低,小数据量不明显,大数据量就非常明显了。