在SQL Server中的关系型数据仓库分区策略(1)
我们推荐本文的读者已经阅读并且理解以下的文章:
◆使用一个Microsoft SQL Server 2000数据仓库中的分区- http://msdn.microsoft.com/library/default.asp?URL=/library/techart/PartitionsInDW.htm
◆SQL Server 2000 步进的批量导入案例学习 - http://www.microsoft.com/technet/prodtechnol/sql/2000/maintain/incbulkload.mspx
◆Kimberly L. Tripp 所作的SQL Server 2005 分区表和索引 -
http://www.sqlskills.com/resources/Whitepapers/Partitioning%20in%20SQL%20Server%202005%20Beta%20II.htm
本白皮书关注的重点是关系型数据仓库和表分区。它的目标读者是:
◆通过使用Microsoft SQL Server中的分区视图实现了分区的开发人员和数据库管理员。这类读者将会得益于SQL Server 2005中的分区优势以及关于滑动窗口实现和策略的部份。
◆在未来计划使用分区的开发人员和数据库管理员将会通过详细阅读本白皮书而获益非浅。
数据库和系统管理员将会得益于有关存储域网络管理以及优化I/O利用策略的部份。
内容列表
对一个关系型数据仓库进行分区
关于关系型数据仓库
分区的好处
在 SQL Server 7.0/2000中的分区技术
在SQL Server 2005中的分区技术
在SQL Server 2005中分区的优势
标识一个查询计划中的 Demand Parallelism
从SQL Server 2000的分区视图迁移到 SQL Server 2005 分区表/索引
影响关系型数据仓库分区的因素
数据量
数据导入
索引
数据老化
数据存档
查询性能
滑动窗口实现
交换分区的最佳实践
将数据存储到一个性价比高I/O子系统的技术
关系型数据仓库的分区策略
策略 I – 将一个分区绑定到它自己的文件组
策略Strategy II – 将两个或更多分区绑定到同样的文件组
哪个策略更好?
结论
附录 A: 性能数值
批量插入性能
转换性能
索引构建性能
数据库备份性能
老化数据到ATA 磁盘
附录 B: 平台列表
Microsoft 软件
服务器平台
存储
主机总线适配卡
存储管理软件
附录 C: 服务器体系结构
附录 D: EMC CLARiiON 存储
拓朴
附录 E: 存储隔离
配置你的存储
附录 F: 脚本
对一个关系型数据仓库进行分区
以下的部份将会简要的解释关系型数据仓库的概念,为关系型数据仓库进行分区的好处,以及迁移到Microsoft® SQL Server™ 2005分区的好处。
关于关系型数据仓库
关系型数据仓库提供了一个广泛的数据来源以及一个用来构建业务智能BI)解决方案的体系结构。另外,关系型数据仓库可以为报表应用程序以及复杂且专用的SQL查询所用。
一个典型的关系型数据仓库是由维度表以及事实表组成的。维度表通常会比事实表小一些并且其中提供了关于解释事实的属性的详细信息。一个维度的例子是货物,商店和时间。事实表提供了对商业记录的描述,比如在所有商店中货物销售的信息。事实表通过最近收集到的数据进行不断的更新。
一个成功的关系型数据仓库解决方案的实现包括细致而长期的规划。以下列出了在构建一个关系型数据仓库时要考虑的要素:
◆数据量
◆数据导入窗口
◆索引维护窗口
◆工作负载特征
◆数据老化策略
◆存档和备份策略
◆硬件特征
这个文档后面的部份将会有对以上要素的详细讨论。
一个关系型数据仓库在实现时可以采用分区的方法或者一个巨大)事实表的方法。对于使用分区还是不分区方式的设计选择主要依赖于前面列出的各个要素。关系型数据仓库可以从数据分区中获益。以下部份着重谈到了分区为关系型数据仓库带来的好处。