大数据与hadoop前景杂谈,hadoop前景杂谈
(一家之言,不喜勿喷)
2014年,大数据可谓是互联网用烂的词之一了,动不动就是大数据,大数据预测世界杯之类的。
各方培训机构也纷纷开设hadoop之类的课程,动不动就说是大数据世界已经到来。
本人差不多两年前就开始接触hadoop,大数据,说实话,一开始对大数据是十分有热情的,也认为大数据的前景非常好。
不过,大数据真的那么火吗?
我看未必,大数据时代还早着呢。
互联网上自称是大数据是应用根本算不上是大数据,举个例子,大数据预测世界杯,就算把人类所有的足球比赛都拿来预测,那有多少数据量,100G已经是顶天了, 100G算得上是大数据吗,全部的数据都适用吗?答案是否定的,过多的数据参杂进来,就算算法逆天也会产生副作用。
类似这样的应用,这样的数据量根本不是大数据,根本用不上hadoop,说白了就是数据挖掘而已,而今人们说的大数据,其实就是数据挖掘。对于现在互联网对大数据的热情,对大数据的跟风,其实是非常不一样的,试想,有多少公司拥有大数据?一天几百GB的数据根本用不上hadoop,除了BAT,有公司一天会产生几百个GB吗,也许有,号称几个TB的日志,可是搞过服务器端的同志就知道,几个TB的日志有多少水分呢?几个TB的数据其实就是一大堆框架有的没的输入,重复数据多得难以置信,而对这些数据的处理无非就是例如分组,统计之类的操作。这些操作又有多少含金量,高中我们就学过,对与大数据量,抽样统计的效果是差不多的,那么大数据究竟有什么作用。
就算是BAT,大数据究竟有多少实用性?百度能用大数据来提高搜索体验吗?百度算法还是一样的烂,大数据的作用可能就是做广告推荐,现在百度也是恶心得受不了,到处都是广告,举个例子,我上个贴吧总是看到北大青鸟之类的it培训,可是这些广告我会点进去吗?显然不会,大数据带来了什么?仅仅是匹配,统计我搜索内容而判断我是个it工作者,采用逻辑判断和使用诸多分类聚类算法有何意义?
最近看到淘宝宣称对大数据进行打假,点进去才看到所谓的大数据是配合人工,号称可以对大数据对图片进行判断,分类等等,我就呵呵一笑了,计算机视觉能完成现在人类都无法完成的事情吗?面对高仿的假货能判断出来?
商品推荐又是另一回事,能带来多少增量购买我不知道,对于淘宝推荐出来的东西,可能流量产生了,但是真正购买的未必多,就我现在用淘宝的感觉来看,所谓的推荐只是将我搜索过的东西在热度这维度上给我显示出来的,至于什么用户协同推荐之类的,也是没有多大感觉,别人喜欢的东西我一定喜欢吗?人与人的差异性太大了,简单的协同算法根本没有多大作用。
腾讯就不算了,在人工智能和自然语言处理这两个领域没有突破性进展之前,庞大的聊天数据可用性不见得多。
现在大数据,说在话是个噱头,还有近年来所谓热门的hadoop,spark,能用上的公司真心不多,很多公司在招hadoop, 根本就是跟风,可用性没有多少,一天几百GB的数据用spark, TB级的数据量才够格用hadoop。那些一个集群才两位数的公司就不说了。
广东移动一天的数据量也才几百个GB,这个数据量不算大,勉强算上大数据。我所了解的真正有用的大数据国家电网的大数据分析,国家电网有钱(收入是移动的几倍),他们的电气设备有很大的冗余,他们利用大数据对历史数据分析,去冗余。不过这里面也就是数据挖掘起了大作用。
就hadoop这个所谓热门的工具而言,hdfs是用的。不过其他的,我持保留意见,大数据的根本是数据挖掘,hadoop等是个工具,海量数据的工具,算法才是“神”,说白了hadoop等就是谷歌不用的东西才开源出来的,谷歌早就是后三架马车时代了,我们不必要拿别人不用的东西当成宝,在机器学习领域里,我们国人都是跟着外国的脚步走(整个计算机领域也一样),我们中国的技术其实是非常落后的(我觉得是国内的大佬公司没有起好带头作用,只想着赚钱),现在机器学习仅仅是处理分类聚类的问题,还有很多东西未突破,真心希望国内能出现一两个全新的机器学习算法,引领大数据风潮。