物转星移，大数据平台Spark与Hadoop取代还是合作？，sparkhadoop

和通数据库htsjk.Com2019-09-06 23:31 来源:未知阅读:9833 评论 212 热度2

标签：

物转星移，大数据平台Spark与Hadoop取代还是合作？，sparkhadoop

--------

作者：刘学习

大数据应用中，Hadoop占据非常重要的地位，运行在其上的大数据应用也很多。

Hadoop最大的优势就是可处理的数据量庞大且运行稳定。在节点资源不增加的情况下，Hadoop的运行速度虽然不占优势，但却是十分稳定的。在海量数据处理方面，Hadoop依旧是目前为止可以找到的最合适的解决方案。既是优势也是劣势，Hadoop在批处理方面的强大无法掩盖其在实时处理以及流处理方面的缺憾。

同时Hadhoop核心组件——MapReduce、Hive和HDFS与边缘组件的边界正在变得越来越清晰，Spark、Flink正在逐渐成长，生态渐渐庞大，可供选择的组件越来越多。

作为后来者的Spark和Flink正是弥补了Hadoop的这些劣势，在大数据市场分得了一方天下。那么，Spark会替代Hadoop，还是与Hadoo合作?

春风十里，不如奔跑的你？

一个非常有趣的比喻可以让大家了解这两个概念：Hadoop是一家大型包工队，可以组织一大堆人合作(HDFS)搬砖盖房(用MapReduce)，但是速度比较慢。

Spark是另一家包工队，虽然成立得晚一些，但是搬砖很快、很灵活，可以实时交互地盖房子，比Hadoop快得多。

Hadoop开始升级，指定调度专家YARN调度工人。Spark从多个仓库(HDFS、Cassandra、S3、HBase)搬砖，还允许不同专家如YARN/ MESOS对人员和任务进行调度。

这两者并不是水火不容。Spark经常和Hadoop团队合作，这让问题变得更加复杂。不管怎么说，Spark和Hadoop都是两个独立的包工队，都有着各自的优缺点和特定的业务用例。

Spark在内存中运行速度比Hadoop快100倍，在磁盘上运行速度快10倍。这样，Spark在数量只有十分之一的电脑上，对100TB数据进行排序的速度比Hadoop MapReduce快3倍。此外，Spark在机器学习应用中的速度同样更快，例如Naive Bayes和k-means。

所以说大数据应用基础平台并不是固定的，也是需要优化的，优化后的性能表现会有出色的表现。

螳螂捕蝉,黄雀在后？

在Spark之后，Apache Flink 这两年也逐渐火了起来。那么 Flink 和现在流行的Spark 到底有什么异同呢?

Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台。和Spark类似，两者都希望提供一个统一功能的计算平台，都在尝试建立一个统一的平台以运行批量、流式、交互式、图处理、机器学习等应用。

虽然目标非常类似，但是 Flink在实现上和 Spark存在着很大的区别，Flink 从另一个视角看待流处理和批处理，将二者统一起来：Flink 是完全支持流处理，也就是说作为流处理看待时输入数据流是无界的；批处理被作为一种特殊的流处理，只是它的输入数据流被定义为有界的。

专家从框架、SQL支持、性能等几方面来对比两者的区别：

框架：Flink和Spark都是基于内存计算、支持实时/批处理等多种计算模式的统一框架，但Flink 的设计理念是 Stream as Platform，而 Spark 的设计理念是 Batch as Platform。

流计算：Spark 基于小批量处理，把 Streaming 看成是更快的批处理，支持秒级计算，在流计算方面延时较大。而 Flink 基于每个事件处理，是真正的流式计算，跟 Storm 的性能差不多，支持毫秒级计算。

SQL支持：Spark提供SparkSQL，Flink通过Table API提供 SQL 交互支持。两者相比，Spark 对SQL支持更好，而且Spark支持对SQL的优化和扩展等，相关社区非常活跃。而 Flink 在 SQL 支持方面还有很大提升空间。

性能：在大家都关心的计算性能方面，两者都有较好的表现，但Flink支持增量迭代等特性，因此 Flink 具有更好的性能表现。

社区活跃度：Spark社区非常活跃，生态系统越来越完善。而Flink社区活跃度相对较低，但相信随着 Flink应用越来越广泛，这一现象会得到改变。

所以，Spark、Flink与Hadoop不是取代，是合作。如果未来用户在部署大数据平台时，选择放弃Spark或者Flink，那就是瞎子下象棋，不识相了！

专家认为，企业没有必要将运行良好的整个底层架构替换掉。但是，Hadoop生态中各个组件的可替换性还是很高的，Hadoop生态的概念被慢慢淡化是有可能的。比如，不少企业会在机器学习任务中使用Spark或者Tensorflow，甚至尝试类似Flink这样的新技术。

作者简介

刘学习

前15年，专注于服务器、存储以及云计算

后5年，爱上基础软件、管理软件，以及国产化系统

冀望与企业一起成长，与产业一起发展！

微信：Fiyinghare

邮箱：lxx@soft6.com

往期文章

阿里巴巴钉钉大量新品推出无招再出招折射出哪些方向？

开源数据库成为发展自主可控产品的主要途径 ▏开源数据库系列谈之三