大数据是啥?来我的厨房看看就明白了
小Ke同学 | 2023-03-21 16:47:16  1705 浏览

今天小编走在街上,一会儿的功夫收到好几张传单广告:“健身房游泳馆了解一下,我们的私教可以为您量身定制,根据大数据分析为您挑选最适合您的健身计划”。 

 “对不起,没钱”。

说完这句万能通用的应答传单口令之后,小编愉快的回到了家中。看着窗外的星光,想到了自己寥寥的工资。突然一个激灵想到,为什么现在到处都是大数据大数据,大数据到底是个什么东西啊。


小编顺势拿起了手机在某直聘上搜了一下关键词“大数据”,我勒个亲娘了,这个东西为什么这么高工资啊!!! 


于是小编痛定思痛,开始了解,大数据到底是个啥。这时小编的脑子里全是走上人生巅峰,迎娶白富美的剧情。


接下来就是小编给大家总结的大数据。 可以说,大数据跟在厨房做菜是一样一样的。我现在给大家讲一个故事,来解释这一切。 

有一天,小明的爸爸吩咐小明说,家里马上要来客人,让小明准备两道拿手菜。小明得到了这个通知后开始着手筹划,他将做菜这个任务分解为买菜、洗菜摘菜、制定菜单、炒菜。起初是他一个人做这些所有的事情。

终于饭菜都做好了,并且得到了客人满意的答复,小明的厨艺也日益精湛。后来小明家逐渐开起了餐馆,他们换了更大的厨房,起了很多个炉灶一起炒菜,很多个水池一起择菜洗菜,雇了一些员工共同承担这些工作。

他们能承担的酒席也由最开始的一桌菜,到现在可以承担10桌客人的用菜。小明还说,就算之后来再多的客人,我也可以再承包一个厨房,也能够接待的过来。最后小明家餐馆的生意也越来越红火了。 


看到这,想要关闭页面的同学们赶紧回来,干货时间来了。

上面这个故事咋一看像小学生作文在记流水账,但实际上这个故事已经说明白了大数据所处理的大部分的问题。咱们一起来看看。 


首先小明的爸爸吩咐小明说,家里要来客人,需要做几道拿手菜。这个过程是大数据开发过程的需求立项阶段,大多数的产品开发都是根据需求来细化开发过程。 

现在已经有了需求了,小明将需求进行了分解和细化,提出了完成这几道拿手菜需要进行几个步骤,买菜、洗菜摘菜、制定菜单、炒菜这几个环节。这几个步骤在大数据开发流程中可以称为:数据采集、数据清洗、数据分析/数据建模、数据加工/数据应用。 

数据采集顾名思义,跟炒菜一样,巧妇难为无米之炊,需要做几道好菜,首先得有原材料。那么数据采集就是买菜的过程。

数据清洗同样对应着洗菜摘菜,也就是把一些脏了的数据剔除。 

数据分析/数据建模可以看成是制定菜单的环节,模型就等于是一个菜单,菜单上有每道菜的做法,我们将洗好的菜按照菜单上的做法就可以做出好吃的菜啦。模型可以看成是每道菜的做法,它让数据能真正变得有实际利用的价值,它能真正的去挖掘数据中更深层的意义。

最后炒菜过程实际就是数据的加工和应用了,最终通过模型得出来的数据,我们可以在很多地方应用,比如用来做个性化推荐、用来通过数据可视化制作数据分析图表、使用数据模型来预测事件等等。

大数据开发流程已经说明白了,有同学可能会问,你这些开发流程我可以在很多很小的场景使用也是一样,为什么偏偏要强调是大数据开发呢?这位同学别急,等我慢慢来说完这整个故事。 


咱接着说故事,制定完这些计划,最开始都是小明一个人完成,也完成的比较好。这种场景也就对应我们最开始使用单机进行数据开发的情形,通过这种开发流程确实也可以应对大多数的问题,但后来问题就来了。

小明家后来开了餐馆,由于生意太好,他发现靠他的双手无法做这么多菜来接待大量的客人,所以他重新装修了厨房,洗菜的水池扩充、炉灶扩充、买菜炒菜的人手同样雇了很多人。 

这也对应着数据开发的场景,一开始数据量不大时,用单机进行处理可以从容应对,当用户量增加,数据量增加后,单机数据处理的瓶颈也来了,这么多数据采集不过来、清洗不过来、分析不过来。 

所以大数据技术应运而生,大数据技术的核心说白了就是可以处理大量的数据,而一般的做法就是将大数据“厨房”中的设备增加,比如水池、炉灶、增加人手等。

这些情况对应着大数据的分布式技术,大数据通常是以分布式集群的形式存在,既然单机处理大数据有瓶颈,那我就多叫几个兄弟一起来处理,你来10倍数据,我就多叫10倍的兄弟。所以理论上,不管你的数据有多大,只要我的兄弟足够多,我都能够处理得了。

故事说到最后,小编也被说饿了,同学们先在厨房里呆会儿,想明白大数据是怎么回事儿再走吧。拜拜,小编去吃肉啦。


标签: