新闻中心

阿里大佬用两年时间编写的Spark大数据分析实践(spark大数据平台涵盖了哪些有用的大数据分析工具)

2023-10-10
浏览次数:
返回列表

本书特色

Spark作为一款基于内存的分布式计算框架,具有简洁的接口,可以快速构建上层数据分析算法,同时具有很好的兼容性,能够结合其他开源数据分析系统构建数据分析 应用或者产品。

为了适合读者阅读和掌握知识结构,本书从Spark基本概念和机制介绍入手,结合笔者实践经验讲解如何在Spark之上构建机器学习算法,并最后结合不同的应用场景构 建数据分析应用。

读者对象

本书中一些实操和应用章节,比较适数据分析和开发人员,可以作为工作手边书; 机器学习和算法方面的章节,比较适合机器学习和算法工程师,可以分享经验,拓展解 决问题的思路。

□ Spark初学者

□ Spark应用开发人员

□ Spark机器学习爱好者

□开源软件爱好者

□其他对大数据技术感兴趣的人员

如何阅读本书

本书分为11章内容:

1 从Spark概念出发,介绍Spark的来龙去脉,阐述Spark机制与如何进行 Spark编程。

第 2 章 详细介绍Spark的开发环境配置。

第 3 章 详细介绍Spark生态系统重要组件Spark SQL、Spark Streaming、GraphX、 MLlib的实现机制,为后续使用奠定基础。

第 4 章详细介绍如何通过 Flume、Kafka、Spark Streaming, HDFS、Flask 等开 源工具构建实时与离线数据分析流水线。

第 5 章从实际出发,详细介绍如何在Azure云平台,通过Node.js、Azure Queue > Azure Table. Spark Streaming、MLlib等组件对用户行为数据进行分析与推荐。

第 6 章 详细介绍如何通过 Twitter API, Spark SQLX Spark Streaming > Cassandra s D3等组件对Twitter进行情感分析与统计分析。

第 7 章详细介绍如何通过 Scrapy、Kafka、MongoDB、Spark > Spark Streaming、Elastic Search等组件对新闻进行抓取、分析、热点新闻聚类等挖掘工作。

第 8 章 详细介绍了协同过滤概念和模型,讲解了如何在Spark中实现基于Itembased、 User-based和Model-based协同过滤算法的推荐系统。

第 9 章 详细介绍了社交网络分析的基本概念和经典算法,以及如何利用Spark实 现这些经典算法,用于真实网络的分析。

第10章 详细介绍了主题分析模型(LDA),讲解如何在Spark中实现LDA算法, 并且对真实的新闻数据进行分析。

第11章详细介绍了搜索引擎的基本原理,以及其中用到的核心搜索排序相关算 法 一PageRank 和 Ranking SVM,并讲解了如何在 Spark 中实现 PageRank 和 Ranking SVM算法,以及如何对真实的Web数据进行分析。

如果你有一定的经验,能够理解Spark的相关基础知识和使用技巧,那么可以直接 阅读第4 - 11章。然而,如果你是一名初学者,请一定从第1章的基础知识开始学起。

需要的朋友可以点击我的头像,私信我 “ 666 ” 即可免费领取

更多编程相关资讯和资料可以来下图领取:

搜索