欢迎投稿

今日深度:

物转星移,大数据平台Spark与Hadoop取代还是合作?,sparkhadoop

物转星移,大数据平台Spark与Hadoop取代还是合作?,sparkhadoop



--------

作者:刘学习


大数据应用中,Hadoop占据非常重要的地位,运行在其上的大数据应用也很多。


Hadoop最大的优势就是可处理的数据量庞大且运行稳定。在节点资源不增加的情况下,Hadoop的运行速度虽然不占优势,但却是十分稳定的。在海量数据处理方面,Hadoop依旧是目前为止可以找到的最合适的解决方案。既是优势也是劣势,Hadoop在批处理方面的强大无法掩盖其在实时处理以及流处理方面的缺憾。


同时Hadhoop核心组件——MapReduce、Hive和HDFS与边缘组件的边界正在变得越来越清晰,Spark、Flink正在逐渐成长,生态渐渐庞大,可供选择的组件越来越多。


作为后来者的Spark和Flink正是弥补了Hadoop的这些劣势,在大数据市场分得了一方天下。那么,Spark会替代Hadoop,还是与Hadoo合作?


春风十里,不如奔跑的你?


一个非常有趣的比喻可以让大家了解这两个概念:Hadoop是一家大型包工队,可以组织一大堆人合作(HDFS)搬砖盖房(用MapReduce),但是速度比较慢。


Spark是另一家包工队,虽然成立得晚一些,但是搬砖很快、很灵活,可以实时交互地盖房子,比Hadoop快得多。


Hadoop开始升级,指定调度专家YARN调度工人。Spark从多个仓库(HDFS、Cassandra、S3、HBase)搬砖,还允许不同专家如YARN/ MESOS对人员和任务进行调度。


这两者并不是水火不容。Spark经常和Hadoop团队合作,这让问题变得更加复杂。不管怎么说,Spark和Hadoop都是两个独立的包工队,都有着各自的优缺点和特定的业务用例。


Spark在内存中运行速度比Hadoop快100倍,在磁盘上运行速度快10倍。这样,Spark在数量只有十分之一的电脑上,对100TB数据进行排序的速度比Hadoop MapReduce快3倍。此外,Spark在机器学习应用中的速度同样更快,例如Naive Bayes和k-means。


所以说大数据应用基础平台并不是固定的,也是需要优化的,优化后的性能表现会有出色的表现。


螳螂捕蝉,黄雀在后?


在Spark之后,Apache Flink 这两年也逐渐火了起来。那么 Flink 和现在流行的Spark 到底有什么异同呢?


Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台。和Spark类似,两者都希望提供一个统一功能的计算平台,都在尝试建立一个统一的平台以运行批量、流式、交互式、图处理、机器学习等应用。


虽然目标非常类似,但是 Flink在实现上和 Spark存在着很大的区别,Flink 从另一个视角看待流处理和批处理,将二者统一起来:Flink 是完全支持流处理,也就是说作为流处理看待时输入数据流是无界的;批处理被作为一种特殊的流处理,只是它的输入数据流被定义为有界的。


专家从框架、SQL支持、性能等几方面来对比两者的区别:


框架:Flink和Spark都是基于内存计算、支持实时/批处理等多种计算模式的统一框架,但Flink 的设计理念是 Stream as Platform,而 Spark 的设计理念是 Batch as Platform。


流计算:Spark 基于小批量处理,把 Streaming 看成是更快的批处理,支持秒级计算,在流计算方面延时较大。而 Flink 基于每个事件处理,是真正的流式计算,跟 Storm 的性能差不多,支持毫秒级计算。


SQL支持:Spark提供SparkSQL,Flink通过Table API提供 SQL 交互支持。两者相比,Spark 对SQL支持更好,而且Spark支持对SQL的优化和扩展等,相关社区非常活跃。而 Flink 在 SQL 支持方面还有很大提升空间。


性能:在大家都关心的计算性能方面,两者都有较好的表现,但Flink支持增量迭代等特性,因此 Flink 具有更好的性能表现。


社区活跃度:Spark社区非常活跃,生态系统越来越完善。而Flink社区活跃度相对较低,但相信随着 Flink应用越来越广泛,这一现象会得到改变。


所以,Spark、Flink与Hadoop不是取代,是合作。如果未来用户在部署大数据平台时,选择放弃Spark或者Flink,那就是瞎子下象棋,不识相了!


专家认为,企业没有必要将运行良好的整个底层架构替换掉。但是,Hadoop生态中各个组件的可替换性还是很高的,Hadoop生态的概念被慢慢淡化是有可能的。比如,不少企业会在机器学习任务中使用Spark或者Tensorflow,甚至尝试类似Flink这样的新技术。


作者简介


刘学习

前15年,专注于服务器、存储以及云计算

后5年,爱上基础软件、管理软件,以及国产化系统

冀望与企业一起成长,与产业一起发展!


微信:Fiyinghare

邮箱:lxx@soft6.com


往期文章

阿里巴巴钉钉大量新品推出  无招再出招折射出哪些方向?

开源数据库成为发展自主可控产品的主要途径 ▏开源数据库系列谈之三



www.htsjk.Com true http://www.htsjk.com/cassandra/34245.html NewsArticle 物转星移,大数据平台Spark与Hadoop取代还是合作?,sparkhadoop -------- 作者:刘学习 大数据应用中,Hadoop占据非常重要的地位,运行在其上的大数据应用也很多。 Hadoop最大的优势就是可处...
相关文章
    暂无相关文章
评论暂时关闭