华体会体育HTH-走出大数据行业的两大误区

2024-08-03 作者:华体会体育HTH

举世医药网 > 医药资讯 > 行业新闻 > 正文 走出年夜数据行业的两年夜误区2014/7/11 浏览数:

先从概念上来讲,年夜数据是甚么?

其实数据处置从人类降生期间就有了,前人结绳记事就是根基的统计,统计本身吃了几顿饭打了几回猎等等;再往近说,皇帝每晚翻嫔妃的牌子也是数据处置,在翻牌子之前,要从一年夜堆牌子里阐发“便利”、“热度高”、“新颖度”等指标;更近的说,数据仓库早在年夜数据这个词呈现前就已成熟成长了好几十年了。所以说,年夜数据其实不新颖,只是某些手艺如Hadoop、MR、Storm、Spark成长到必然阶段,适应这些手艺炒出来的概念,可是这些概念都基在一个根基的理念“开源”,这个理念是之前任何阶段都没有过,可以节流费用提高效力,所以大师才都往这个行业里扔火柴(话说此刻良多人跟风乱吵,小我认为也不是坏事)。

误区一:只有弄年夜数据手艺开辟的,才是真正“圈内助”

笔者曾加入过若干会议,70%是偏手艺的,在场的都是国内各个数据相干项目司理和手艺带头人,大师会商的话题都是在进级CDH版本的时辰有甚么问题,在处置Hive功课的时辰哪一种体例更好,在Storm、Kafka匹配时若何效力更高,在Spark利用时内存若何释放这些问题。参会者都一个立场:不懂年夜数据手艺的人没资历评论年夜数据,您要不懂Hadoop2.0中的资本设置装备摆设,不懂Spark在内存的驻留时候调优,不懂Kafka收集就别加入这个会!对了,比来Google完全丢弃MR只用Dataflow了,您懂吗?不懂滚粗!

在这里我想说,手艺的前进都是由营业驱动的,某宝去了IOE才能叫年夜数据吗,我作为一个聋哑人推拿师用结绳记事完成了对分歧体型的人,用甚么推拿手法进行全流程医治,就不叫年夜数据阐发了吗?手艺成长到甚么水平,只有一小部门是由科学家寻求极致的精力驱动,年夜部门缘由是由于营业成长到必然水平,要求手艺必需做出前进才能告竣方针的。

所以,真实的年夜数据“圈内助”最少要包括以下几种人:

1、营业运营人员

好比互联网的产物司理要求手艺人员,必需在用户达到网站的时辰就算出他今天的表情指数,并且要实现动态监测,这时候候只能用Storm或Spark来处置了;好比电信运营商要求做到及时营销,用户进入营业厅的时辰,必需顿时推送短信给用户,提醒他本营业厅有一个特殊合适他的相亲对象(显现身高、三围、体重等指标),可是碰头前要先采办4G手机;再好比病人来到银行开户,银行领会到用户比来1周曾去病院门诊过两次,出国旅游过3次,带孩子泅水两次,顿时客户司理就给客户保举相干的银行保险+理财富品。这些营业人员,常常是驱动手艺前进的焦点缘由。

2、架构师

架构师有何等主要,当一个营业人员和一个工程师,一个说着营业说话,一个说着手艺术语在那边会商问题的时辰,工程师常常想着用甚么样的代码能顿时让他闭嘴,而架构师常常会跳出来讲“不,不克不及那样,你如许写只能解决一个问题而且会制造后续的若干问题,依照我这个方案来,可以解决后续的若干问题!”一个非手艺企业的IT系统程度,常常有70%以上的尺度把握在架构设计人员手里,尽快良多优异的架构师都是从工程师渐渐成长进修而来的,IT架构的主要性,良多企业都意想到了,这就是良多企业有CTO和CIO两个职位,一样主要!架构之美,当IT系统安稳运行的时辰没人能感触感染到,可是在一个烟囱林立、架构紊乱的情况中走过的人眼中,IT开辟必然要架构现行,开辟在后!

3、投资人

老板,不消说了,老板给你吃穿,你给老板卖力,生成的根本资料供给者,老板说要有山便有了山,老板说要做及时数据处置阐发,便有了Storm,老板说要做开源,便有了Hadoop,老板还说要做迭代发掘,便有了Spark……

4、科学家

他们是他人眼中的Geek,他们是他人眼中的高峻上,他们是近似在霍金一样的神秘的早出晚归昼伏夜出的眼睛男女,他们是驱动世界手艺前进的焦点气力。除世界顶级的IT公司(常常世界手艺标的目的把握在他们手中),其他公司一般需要1-2个科学家足以,他们是真正投身在科学的人,不要让他们去斟酌营业场景,不要让他们去斟酌营业流程,不要让他们去计较本钱,不要让他们去斟酌项目进度,他们独一需要斟酌的就是若何在某个指标上击败敌手,在某个指标上提高0.1%已让他们可以持续奋战,不眠不休,让我们都为这些科学家喝采和喝彩吧。在中国,我认为真实的年夜数据科学家不跨越百人……

5、工程师

工程师是如许一群可爱的人,他们年青,感动,有抱负,又被人尊称为“屌丝”“键盘党”,他们孳孳不倦的为本身的抱负而拼搏,每次本身获得一点点前进的时辰,都在斟酌是否是地铁口的鸡蛋灌饼又涨了五毛钱。他们敏感,自大,历来不屑在和营业人员去争辩。工程师和科学家的分歧点在在,工程师需要频仍改动代码,频仍测试法式,频仍上线,可是最后的系统是由若干工程师的代码组合起来的。每一个自大的工程师看到系统的汗青代码城市鄙夷的发出一声“哼,这垃圾代码”,以后便投入到被后人继续鄙夷的代码编写工作中去。

6、跟风者

他们中有些是培训师,有些是杀马特洗剪吹,有些是煤老板有些是掉足少女。他们的特点就是炒,和炒房者独一分歧的就是,他们不消支出金钱,他们认为只要和数据沾边就叫年夜数据,他们有些人乃至历来没碰过IT系统,他们是混水摸鱼、滥竽凑数的高手,他们是被前几种人鄙夷的隐形人。不外我想说,接待来炒,一个行业炒的越凶,真正有价值的人就更能阐扬本身的感化。

误区二:只有年夜数据才能解救世界

年夜数据今朝的手艺和利用都是在数据阐发、数据仓库等方面,首要针对OLAP(OnlineAnalyticalSystem),从手艺角度来讲,包括我总结的两条腿:一条腿是批量数据处置(包罗MR、MPP等),另外一条腿及时数据流处置(Storm、内存数据库等)。在此根本上,部门场景又发现MR框架或及时框架不克不及很好的知足近线、迭代的发掘需要,故又发生了今朝很是火的基在内存数据处置Spark框架。良多企业今朝的年夜数据框架是,一方面以Hadoop2.0之上的Hive、Pig框架处置底层的数据加工和处置,把依照营业逻辑处置完的数据直接送入到利用数据库中;另外一方面以Storm流处置引擎处置及时的数据,按照营业营销的法则触发响应的营销场景。同时,用基在Spark处置手艺集群知足对及时数据加工、发掘的需求。

以上描写可以看出,年夜数听说白了就是还没有进入真实的买卖系统,没有在OLTP(OnlineTransactionsystem)方面做出太年夜的进献。至在良多文章把年夜数据和物联网、泛在网、聪明城市都联系在一路,我认为年夜数据不外是前提之一,其余的OLTP系统是不是具有,物理收集乃至组织架构都是主要身分。

最后还想说,年夜数据处置手艺,再炫如Google的Dataflow或成熟如Hadoop2.0、数据仓库、Storm等,素质上都是数据加工东西,对良多工程师来讲,只需要把数据处置流程弄清晰便可以了,在这个平台上可以用固定的模版和剧本进行数据加工已足够。究竟数据的价值70%以上是对营业利用而���������HTH言的,一个炫词对营业假如没有帮忙,终将只是屠龙之术。任何手艺、IT架构都要合适营业计划、合适营业成长的要求,不然手艺只会故障营业和出产力的成长。

跟着时期变迁,年夜浪淘沙,作为数据行业的一员,我们每一个人都在分歧的脚色之间转换,今天你多是科学家,明天就会酿成架构师,今天的工程师也会酿成几年后的科学家,部门人还终将步入跟风者的行列。

编纂:小惠


上一篇:华体会体育HTH-三大因素影响药店商品周转速度 下一篇:华体会体育HTH-宛西制药谋求单独上市 剥离西泵股份股权