欢迎投稿

今日深度:

企业级数据仓库平台产品中计算机体系架构的重要意义,

企业级数据仓库平台产品中计算机体系架构的重要意义,


 

1、引言

        “计算机体系架构30年来就始终没有改变过!”, 在科学院研究生院的第一节计算机体系结构课上,董占球老师当时歪着嘴说道。我们当时对这位不追求先进技术与理念的老师还是颇为敬佩的。直到今天,在数据仓库市场上拼搏近5年,才又想起董老师这番话来,真是别有一番的敬佩之情。企业级数据仓库如今在各个行业都已经广泛的应用,虽然还没有达到象国外市场的规模与成熟度,不过国内各行业的大型企业还是非常重视分析性业务系统的战略布局,在这中间企业级数据仓库产品的选型更显得尤为重要。大型企业的数据仓库系统需求基本上都具有下面一些特点,大数据量、高性能、高可用性、可扩展性、灵活性、易于管理等。这些被大家日常就经常挂在嘴边的系统特性放到数据仓库市场上,却是异常的困难。什么样的系统才能够满足数据仓库分析型应用的业务需求呢?这些问题摆在了所有面临企业级数据仓库系统建设的决策者面前。

2、现状

        一些对这个行业不甚了解的人一定会想,如今的计算机硬件发展这么快,只要莫尔定律还适用,处理大规模的数据量的分析型业务,只需要增加处理器、内存、存储就OK了。确实在浮躁的IT行业中,计算机硬件已经慢慢的沦为大白菜式的销售策略。经常听到卖BOX的销售问客户,“你只需要告诉我你有多大数据量,多少并发用户,我就能卖多大的机器给你,低端的PC Server,2C,4G,高端的Unix服务器,4C的不行就8C的,8C不行就16C的,16C不行还有32,64,128C”。不过他们没有想到的是,在这些代表着最为先进的计算机设备上来跑企业级商业智能系统的时候,这些高配置的设备根本无法实现预期的高性能。他们就像配备了最为先进的发动机的老牛车一样,尽管不断的提高发动机的容量,但是牛车依然是牛车。

        在超大数据量处理的分析型业务市场中,企业级数据仓库产品的计算机体系架构决定着谁能够登上大规模数据处理的最高峰。只有在这个特殊的市场,不再是莫尔定律的天下,增加处理器、内存、存储无法解决根本性问题,而具有先进的计算机体系架构设计的产品才能够立于不败之地。目前来讲,在企业级数据仓库平台产品中,只有HP的Neoview平台,IBM的BCU平台以及NCR的Teradata平台能够一拼高下。因为他们有最为先进的计算机体系架构设计,虽然他们中一些架构的设计已经存在20多年,甚至30年,但是仍在在这个越来越重要的领域体现着先进性。

3、计算机体系架构在EDW平台上的重要性

        非共享体系架构。这些系统采用的都是非共享式(Shared Nothing)的体系架构设计,目来来看只有非共享式的体系架构才能够真正的做到高性能的线性扩展。因为数据仓库应用面临着业务应用、业务用户的大规模增长,特别是企业数据量的线性增长,就决定了无法实现性能线性增长的系统是无法满足不断发展的业务需求的。如何才能实现系统容量和性能的线性增长呢?这个问题其实早在20多年前就已经有了回答。NCR的Teradata平台的设计就可以在昂贵的、受工艺限制的处理器、内存上实现系统容量、性能的线性扩展。由于当时CPU、内存、存储技术所限,无法实现使用高性能处理器、大容量内存、存储来处理数据的要求,只能够通过非共享的体系架构将数据分别分布在不同的处理器和内存上进行处理。1984年,Teradata的第一台设备下线,立刻就进入了企业分析型应用市场,利用其强大的处理性能来满足业务的需求。IBM虽然现在已经能够将大量的高性能处理器、内存提供给业务应用进行共享,但是共享式的体系架构仍然无法实现投资的线性回报,往往是多加了一倍的设备投入,只能换来极少量的性能提高。IBM的BCU架构正式在这种情况下产生的,它利用了BCU实现了非共享式的体系架构,所有的处理器、内存、存储都相互独立的处理数据。HP的Neoview在体系架构上更为回归,它采用了一个安腾2的处理器、4G内存来处理146G的数据,这种极致的非共享体系架构,要比Teradata的1个至强处理器、2GB内存管理4-7个146G硬盘更为充分的发挥了非共享体系架构所带来的高性能。

        点对点模式的系统网络互联。非共享系统体系架构能够带来系统的线性扩展,满足不断增长的业务需要,但是这种架构带来的新问题仍然需要解决,那就是如何进行这些非共享节点之间的网络互联。由于所有的处理器、内存、存储之间都是非共享的,当这些单独的进程之间不可避免的会有大量的数据交换,这是优秀的网络体系架构的设计就尤为重要,否则网络容量将会直接影响到大数据量处理的性能。点对点模式的系统网络互联明显是所有网络体系架构的胜出者。非共享结构中的任何节点之间都至少一条物理链路相连,而且中间最多只有一个HOP,这样类似于电话网络的点对点的网络数据传输才能够满足非共享体系架构的数据交换,而且这种模式的网络互联也可以支持多播以及广播。点对点的节点互联方式极大的提高了网络交换机设计的难度,因为当使用大量的非共享节点时,网络交换机将极为复杂,因此目前仍然只有少数厂商能够具有这种节点互联技术。Teradata的BYNET是符合点对点模式的系统网络互联专利技术,它是一个双向的冗余网络,能够支持单播、多播、组播等几种传输方式。IBM采用的是InfiniBand光纤交换机作为BCU之间的数据交换。HP的Neoview采用的是ServerNET网络互联技术,它由两组SAN的MESH拓扑结构的光纤交换机。这些网络互联技术都必须保证点对点独享的数据传输带宽,这样才能保证数据重组或者数据重分布的性能要求。

        硬件冗余架构实现高可用性。如今的BI系统的应用越来越广泛,很多分析型的应用已经融入于操作型业务系统当中,这样就决定了不但业务系统需要保证高可用性,分析型的商业智能应用也会对企业级数据仓库产品有高可用性的需求。企业级数据仓库产品的高可用性可以分为硬件容错保证可用性以及软件容错保证可用性。从计算机体系架构上来讲硬件的冗余架构能够保证硬件容错以及进一步的提高性能。一旦产生了任何的单点硬件故障,采用了冗余架构的硬件会保证仍然提供正常的服务。同时冗余的架构会给性能带来进一步性能的提高。无论NCR、IBM以及HP几乎都采用了硬件冗余容错的架构,双向冗余的网络交换机,RAID1或者5的磁盘存储以及建立在非共享体系架构下的单点硬件故障的软件容错方式,如NCR的AMP迁移,IBM的BCU的接管切换以及HP的进程对技术等。这些硬件上的容错架构都能够极大的提高系统平台的可用性,高性能,同时保证产品的长时间稳定提供在线服务。

4、结论

        在企业级数据仓库平台产品中,莫尔定律并没有占据主流地位,最为重要的是计算机体系结构的设计。计算机发展初期系统资源的有限、网络互联模式的完美想象以及不稳定的底层硬件都催生了最为出色的计算机体系结构设计。而这些优秀的体系结构设计在20多年之后的今天,在发展最为迅猛的商业智能、企业级数据仓库市场仍然发挥着勃勃生机。它们带来的高性能、高可用性以及近无限的扩展能力让人不得不为这些体系架构的设计者感到由衷的敬佩。

www.htsjk.Com true http://www.htsjk.com/teradata/35347.html NewsArticle 企业级数据仓库平台产品中计算机体系架构的重要意义,   1、引言         “计算机体系架构30年来就始终没有改变过!”, 在科学院研究生院的第一节计算机体系结构课上,董占...
相关文章
    暂无相关文章
评论暂时关闭