新闻中心
大数据hadoop和spark怎么选择?(大数据hadoop分析怎么样)
Hadoop作为早期的大数据框架,主要处理了海量数据的存储、计算工作,使用MR计算模型稳定性、吞吐量较好,但由于中间环节需要落地,所以计算效率不高,而计算引擎Spark正是解决海量数据计算效率等问题的,采用了DAG计算模型加上优先基于内存处理所以速度较快,另外Spark作为整体技术栈还涉及到实时场景、图计算等其他技术方向。总之,目前大数据的基本使用是以Hadoop为基础应用进行了数据存储,采用其他计算引擎在集群中进行计算,它们相互配合形成整个的技术解决方案的重要部分。
你可以看看我下面写到介绍Spark的文章,详细说明了spark的优缺点.
Spark特点及缺点? - 拥抱大数据的回答 -
https://www.zhihu.com/question/26844217/answer/1183564018对于语言的选择(是java还是python)
从事大数据开发,Python和Java都要学习,首先要学习Java语言,Java是大数据的基础编程语言,除此之外还有一门必须的语言---Scala,它是专门用于大数据Spark开发的.当到了大数据高级阶段在做一些与大数据分析,人工智能,机器学习相关的工作时才会用到Python,换句话说对于大数据Java,Scala是基础必须要学,而Python等学到大数据高级时再学也可以.
做大数据,如果细说的话需要用到好几种,java,sql,scala,python,但是主要使用的是java与scala.
hadoop生态圈框架使用的都是java语言,spark,flink等目前流行的运算框架使用的是scala语言,进行数据仓库建设管理或相关开发使用的是hql(跟sql的语法结构非常相似),进行高级的机器学习,人工智能方向研发可以使用python语言.
如果你要从头学习大数据,肯定要先学习java,因为hadoop生态圈建设是大数据开发的基础.
如果你想学习大数据开发,建议不要自学,我前面写了文章分析过为什么小白不建议自学,想快速进入开发行业,目前来看,捷径就是找个培训机构.