新闻中心
腾讯资深大数据专家的最新总结:Spark大数据分析实战(spark大数据分析源码解析与实例详解)
前言
Spark是基于内存计算的大数据并行计算框架,因为它基于内存计算,所以提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。
本书分为11章内容:
第1章从Spark概念出发,介绍Spark的来龙去脉,阐述Spark机制与如何进行Spark编程。
第2章详细介绍Spark的开发环境配置。
第3章详细介绍Spark生态系统重要组件Spark SQL . Spark Streaming、GraphX、MLlib的实现机制,为后续使用奠定基础。
第4章详细介绍 如何通过Flume、Kafka. Spark Streaming. HDFS、 Flask 等开源工具构建实时与离线数据分析流水线。
由于文档内容过多,所以只截取了目录部分,每个知识点都有更细化的内容!!
需要获取这份Spark资料的朋友: 转发文章并关注我,后台私信【资料】即可免费获取
第5章从实际出发,详细介绍如何在Azure云平台,通过Nodejs、AzureQucue. Azure Table. Spark Streaming、MLib等组件对用户行为数据进行分析与推荐。
第6章详细介绍如何通过Twitter API、Spark SQL, Spark Streaming. Cassandra 、D3等组件对Titter进行情感分析与统计分析。
第7章详细介绍如何通过Scrapy、Katka、 MongoDB、Spark 、Spark Streaming、Elastic Search等组件对新闻进行抓取、分析、热点新闻聚类等挖掘工作。
第8章详细介绍了 协同过滤概念和模型,讲解了如何在Spark中实现基于ltem-based. User-based 和Model-based协同过滤算法的推荐系统。
第9章详细介绍了社交网络分析的基本概念和经典算法,以及如何利用Spark实现这些经典算法,用于真实网络的分析。
第10章详细介绍了主题分析模型(LDA),讲解如何在Spark中实现LDA算法,并且对真实的新闻数据进行分析。
第11章详细介绍了搜索引擎的基本原理,以及其中用到的核心搜索排序相关算法一PageRank 和Ranking SVM,并讲解了如何在Spark中实现PageRank和RankingSVM算法,以及如何对真实的Web数据进行分析。
由于文档内容过多,所以只截取了目录部分,每个知识点都有更细化的内容!!
需要获取这份Spark资料的朋友: 转发文章并关注我,后台私信【资料】即可免费获取