新闻中心

有哪些数据分析的模板和案例?(数据分析呈现优秀案例)

2023-05-02
浏览次数:
返回列表

介绍一种常用的数据分析模板:Split-Aplly-Combine

这个数据处理模式的3个英文词词代表了数据处理的一种通用模板方法,我们分开来看,首先Split是对数据进行分组,具体来讲就是按照某种规则对数据进行分组。

好比,你高考完,进入大学去学习,进大学报到的第一天,学校会对你按照报考专业进行分组,每个进入大学的人都按照专业分组,比如你是计算机专业组的,你是数学专业组的。

我们再来看Apply,是指对分组后的数据进行操作,比如求平均值,求标准差等等。因为是分组计算,所以每一组都会有个计算结果。例如你所在的大学有2个专业,分别是计算机专业,数学专业。对每个专业的学生进行普通话考试,那么这里的普通话考试就是对每组数据进行函数计算。

Combine是对第2步Apply的计算结果进行汇总。因为涉及到对个组,所以要对每个组的计算结果汇总。

我们来看下面图片中的一个更详细的例子:

假设我们的数据分析目标是:分析航班航行距离与延误时间的关系。

是航行距离越长,飞机越容易延误呢?还是航行距离越短,飞机越容易延误呢?更进一步,航行距离与延误时间是线性关系,还是非线性关系呢?

这里我们关注两个变量航行距离,同样的航行距离在航班里就是指到达同样的目的地,那么飞行到达同一目的的航班就可以归为一组数据,因为同一组的数据航行距离相同。

接下来图片中我们做第一步数据分组

按照飞行目的地,我们将数据分为两组,一组是达到北京的所有航班,他们的飞行距离都是4000英里,共有3条数据

两一组是到达上海的航班,他们的飞行距离都是5000英里,共有2条数据。

下面图片是对分组的两组数据分别应用函数Apply

我们分别对两组数据求航班平均延误时间,和平均距离。

对于到达北京的航班,我们看平均延误时间是200分钟,平均距离是4030英里。

对于到达上海的航班,我们平均延误时间是250分钟,平均距离5050。

完成第2步Apply后,我们看最后一步组合结果。

组合结果就是将每组数据的计算结果合并到一张表里。

这样我们就得到了航行距离,与到达延误时间的表。这张表按目的地分组,并计算出了不同目的地的平均延误时间和平均距离。

我是猴子,中科院硕士/前IBM高级软件工程师/豆瓣8分《数据分析思维》作者,我和知乎联合出品的「数据分析训练营」即将开课,3天带你掌握数据分析实用技巧,包含课程+实战带练,工作提效、升职加薪必备神器!

报名还有独家Excel自学资料领取,点击开启数据分析升职加薪密码:

前 IBM 数据分析大咖 3 天实战训练营打工人升职加薪必备立即解锁

搜索