新闻中心

怎样用EXCEL做数据分析?

2023-05-12
浏览次数:
返回列表

数据分析说简单也简单,EXCEL就可以实现,

说难也难,想要深入不能只局限于EXCEL,

不过,

今天咱就从简单的开始吧~

下面将用到数据: https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

本文食用指南

一、明确问题

只有明确了问题,才能围绕这个问题展开后面的分析。如果一开始问题就定义错了,那么再怎么分析,也只是白白浪费时间。

从给到的两个表格来看,咱们可以就产品和用户层面展开分析

产品层面:

1、 “商品一级分类”中,哪一类销量更佳?

2、 “商品一级分类”下,哪一子类销量更佳?

3、商品销量跟时间的关系?

用户层面:

4、婴儿年龄与商品选择?

5、婴儿性别与商品选择?

二、理解数据

详见:锤子:数据分析学习打基础

三、数据清洗:把数据改变成我们喜欢的样子,以便后续的数据分析

1、选择子集

以问题为导向,将可能用到的列进行展示,其他则利用EXCEL的“隐藏”功能进行隐藏。

2、列名重命名

重命名的目的是方便后续做数据分析,将复杂的列名改成通俗易懂的名称。这里检查表1表2,列名都很浅显易懂,所以不做更改

3、删除重复值

表1购买商品表属于行为数据,每一条数据代表一种行为且唯一,因此无需删除;表2婴儿信息表的用户ID是用户下单的身份信息,有唯一特性,因此通过EXCEL的“删除重复值”功能进行处理,操作过后未发现有重复值。

4、缺失值处理

原始数据会经常由于缺失记录或者是技术原因没有爬取到一些数据,然而这些缺失会影响到数据分析,因此需对其缺失数据进行处理。处理步骤如下;

第一步:统计缺失值

对比每列包含数据的单元格数,发现商品属性一栏存在缺失值

第二步:缺失值处理

因数据体量较大,缺失的值占比很小,为方便起见,对其缺失数据直接舍弃

EXCEL路径:开始—查找和选择—定位条件—空值—确定

5、一致化处理

一致化指的是数据是否有统一的标准或者命名,比如将表1和表2的日期都通过“分列”功能更改为“yyyy/mm/dd”的格式,如图:

6、数据排序

数据经过排序后可以帮助我们看到更多信息,这里咱们在后面的数据分析中体现

7、异常值处理

根据要研究的问题来看,表1表2无异常值。

四、数据分析

前面对表格进行了清洗,问题也明确好了,终于到了数据分析的阶段!废话不多说,咱就前面的问题一一展开分析:

1、 “商品一级分类”中,哪一类销量更佳?

对表1购买商品表进行数据透视,行字段选择“商品一级分类”,值字段求和“购买数量”,再对求和项购买数量进行降序排序,如图:

以上数据排序结果可知:“28”类别的商品更畅销,其次是“50014815”,“50008168”,最差类别是“122650008”

2、 “商品一级分类”下,哪一子类销量更佳?

紧接上一步,将“商品二级分类”字段拖入行标签,再对求和项购买数量排序,如下图展示:

由此可知:“28”类目下子类目“50011993”销量更佳;

“50014815”类目下子类目“50018831”销量更佳;

“50008168”类目下子类目“50007016”销量更佳;

“38”类目下子类目“211122”销量更佳;

“50022520”类目下子类目“50023591”销量更佳;

“122650008”类目下子类目“50012359”销量更佳。

3、商品销量跟时间的关系?

以“年”为单位查看销量情况,2012-2014销量是逐年递增,由于2015数据只统计到2月,因此我们在前面大前提下,只对比每年1-2月数据,也会发现15年这两月数据同比前几年数据都是要好一些的。

以“季度”为单位查看销量情况,发现第四季度销量基本上最好,就2013年第三季度要优于第四季度,但其实数量相差也不大

为此可以更进一步分析季度下的以“月”为单位的销量情况,对每年的销量按月销量进行排序,会发现销量好的月份基本上在9月和11月,由此可以更深入的分析下造成此现象的原因,但更为意外的是我们发现2013年的7月也排到了销量冠军的位置,可以着重研究下该月,由于数据是网络上随意拿来的,这里下一步无从核实,因此这里不做下一步分析。

4、婴儿年龄与商品选择?

婴儿的年龄需要结合表1跟表2,这里利用vlookup 函数进行多表关联,再利用datedif函数得出对应ID婴儿年龄,如图:

由于该问题是对年龄进行研究,为此这里就年龄进行分组,首先设置年龄范围,如图:

再利用vlookup函数对整个表格进行年龄分组,得到如下图数据:

最后结合数据透视表对整个数据进行分析,将“年龄分组”、“商品一级分类”拖到列标签,“求和项购物数量”拖到值区域,再对“求和项购物数量”进行降序排序如图:

由此可以看出:婴儿用品的需求量较大的群体在3岁以下。将商品一级分类展开来看,可以分析各年龄层次的购物偏好,

3岁以下的婴儿对“50014815”,“50008168”“28”需求较多,

3-6岁对“50008168”需求大

对于未出生的婴儿对以下商品也会有少量需求

6岁开始对婴儿用品的需求逐渐减少,如图:

5、婴儿性别与商品选择?

如4号问题一样,需要将两表关联,这里研究性别,因此将表2的婴儿性别利用VLOOKUP函数关联到表1,得到下图:

再对其进行数据透视:将“性别”(0:女,1:男,2:未知)、“商品一级分类”拖到列标签,“求和项购物数量”拖到值区域,再对“求和项购物数量”进行降序排序,值显示方式为“列汇总百分比”如图:

由此可知,用户给女宝宝(0)买婴儿用品的花费更大,再对“商品一级分类”进行展示:

用户给女宝宝(0)购买“50014815”及“50008168”多,给男宝宝(1)购买“5000168”较多。

五、数据可视化

想知后事如何,请见下篇分晓。

搜索