欢迎投稿

今日深度:

数据仓库的选择,

数据仓库的选择,


author:skate

time:2010-03-11


 

数据仓库的选择 

 

数据仓库的选择单从技术方面要从服务器硬件,数据库软件,ETL和前端展示软件,存储系统,仓库的架构设计几方面综合考虑。根据数据库的操作类型不同,数据库一般分为OLAPOLTP,他们分别的操作特点如下:

 

OLAP 典型的数据仓库环境具有大量复杂的数据处理和综合分析,要求系统具有很高的I/O处理能力,并且存储系统需要提供足够的I/O带宽与之匹配

 

OLTP:典型的OLTP系统则以联机事务处理为主,每个交易所涉及的数据不多,要求系统具有很高的事务处理能力,能够在单位时间里处理尽量多的交易

 

1. 选择服务器硬件

 

服务器体系架构一般分为三种:SMP体系,NUMA体系MPP系统(http://blog.csdn.net/wyzxg/archive/2010/03/11/5371199.aspx)

 

从NUMA架构来看,它可以在一个物理服务器内集成许多CPU,使系统具有较高的事务处理能力,由于远地内存访问时延远长于本地内存访问,因此需要尽量减少不同CPU模块之间的数据交互。显然,NUMA架构更适用于OLTP事务处理环境,当用于数据仓库环境时,由于大量复杂的数据处理必然导致大量的数据交互,将使CPU的利用率大大降低。

相对而言,MPP服务器架构的并行处理能力更优越,更适合于复杂的数据综合分析与处理环境。当然,它需要借助于支持MPP技术的关系数据库系统来屏蔽节点之间负载平衡与调度的复杂性。另外,这种并行处理能力也与节点互联网络有很大的关系。显然,适应于数据仓库环境的MPP服务器,其节点互联网络的I/O性能应该非常突出,才能充分发挥整个系统的性能。

 

知道了技术指标,剩下就是不同厂商,不同型号的机器选择了啊

 

2. 软件选择

 

A

数据库软件的选择,要了解当前各种数据库的特点(包括平台、方案、数据库、团队),然后对比选择最适合自己的产品

 

一般根据下面几项来作为参考:

 

数据管理能力(Data Management)

系统管理能力(Data  Administration)
扩充能力和适应能力
(Platform Suitability & Scalability )
并发查询管理能力
(Concurrent Query Management)
查询性能(Query Performance)

 

 

可选数据库

大型数据库:OracleSybaseDb2Teradata

中小型:MssqlMysql

 

不同的数据库特点及适用范围

Oracledb2OLTP市场占有很大的优势

Teradatasybase在海量数据高效查询的OLAP中占有优势

Mssqlmysql是中小企业最好的选择,适合小数据量

 

 

B

ETL:最好的应该是Informatica PowerCenterIBM Data Stage两种,

 

C

前端展现工具现在非常多,有国外的也有国产的产品,从目前市场的占有率及使用情况来分析,主要是BOCOGNOS两种产品。我主要用COGNOS;他的的界面比较美观,在进行大数据量查询时也比较快,价格也不是特别贵,网上也有破解版(如果你敢用的话,呵呵)

 

3. 存储系统

 

存储系统的选择,要注意几个性能指标(吞吐量,Ipos,响应时间),最好选择稳定耐用的

 

 

4. 仓库的架构设计

 

数据仓库的数据量很大,而且增长也非常快,所以系统要方便扩展,增加节点

 

并行数据库的架构

Shared-Memory:扩展受限,几乎不用

Shared-disk:扩展时会增加磁盘的竞争,为了保证数据的一致性,都需要消耗很多额外的资源,所以几点过多,扩展不能实现线性扩展

Shared-nothing:可以实现线性扩展,但数据是分布存储在各节点

 

Shared-Disk结构的典型代表是Oracle集群,

Shared-Nothing结构的典型代表是TeradataIBM DB2MySQL的集群也使用了这种结构。

 

 -----end----

 

 

 

 

 

 

 

 

www.htsjk.Com true http://www.htsjk.com/teradata/35929.html NewsArticle 数据仓库的选择, author:skate time:2010-03-11   数据仓库的选择     数据仓库的选择单从技术方面要从服务器硬件,数据库软件, ETL 和前端展示软件,存储系统,仓库的架构设计几方面...
相关文章
    暂无相关文章
评论暂时关闭