新闻中心
怎样用EXCEL做数据分析?
数据分析说简单也简单,EXCEL就可以实现,
说难也难,想要深入不能只局限于EXCEL,
不过,
今天咱就从简单的开始吧~
下面将用到数据: https://tianchi.aliyun.com/dataset/dataDetail?dataId=45本文食用指南
一、明确问题
只有明确了问题,才能围绕这个问题展开后面的分析。如果一开始问题就定义错了,那么再怎么分析,也只是白白浪费时间。
从给到的两个表格来看,咱们可以就产品和用户层面展开分析
产品层面:
1、 “商品一级分类”中,哪一类销量更佳?
2、 “商品一级分类”下,哪一子类销量更佳?
3、商品销量跟时间的关系?
用户层面:
4、婴儿年龄与商品选择?
5、婴儿性别与商品选择?
二、理解数据
详见:锤子:数据分析学习打基础三、数据清洗:把数据改变成我们喜欢的样子,以便后续的数据分析
1、选择子集
以问题为导向,将可能用到的列进行展示,其他则利用EXCEL的“隐藏”功能进行隐藏。
2、列名重命名
重命名的目的是方便后续做数据分析,将复杂的列名改成通俗易懂的名称。这里检查表1表2,列名都很浅显易懂,所以不做更改
3、删除重复值
表1购买商品表属于行为数据,每一条数据代表一种行为且唯一,因此无需删除;表2婴儿信息表的用户ID是用户下单的身份信息,有唯一特性,因此通过EXCEL的“删除重复值”功能进行处理,操作过后未发现有重复值。
4、缺失值处理
原始数据会经常由于缺失记录或者是技术原因没有爬取到一些数据,然而这些缺失会影响到数据分析,因此需对其缺失数据进行处理。处理步骤如下;
第一步:统计缺失值
对比每列包含数据的单元格数,发现商品属性一栏存在缺失值
第二步:缺失值处理
因数据体量较大,缺失的值占比很小,为方便起见,对其缺失数据直接舍弃
EXCEL路径:开始—查找和选择—定位条件—空值—确定
5、一致化处理
一致化指的是数据是否有统一的标准或者命名,比如将表1和表2的日期都通过“分列”功能更改为“yyyy/mm/dd”的格式,如图:
6、数据排序
数据经过排序后可以帮助我们看到更多信息,这里咱们在后面的数据分析中体现
7、异常值处理
根据要研究的问题来看,表1表2无异常值。
四、数据分析
前面对表格进行了清洗,问题也明确好了,终于到了数据分析的阶段!废话不多说,咱就前面的问题一一展开分析:
1、 “商品一级分类”中,哪一类销量更佳?
对表1购买商品表进行数据透视,行字段选择“商品一级分类”,值字段求和“购买数量”,再对求和项购买数量进行降序排序,如图:
以上数据排序结果可知:“28”类别的商品更畅销,其次是“50014815”,“50008168”,最差类别是“122650008”
2、 “商品一级分类”下,哪一子类销量更佳?
紧接上一步,将“商品二级分类”字段拖入行标签,再对求和项购买数量排序,如下图展示:
由此可知:“28”类目下子类目“50011993”销量更佳;
“50014815”类目下子类目“50018831”销量更佳;
“50008168”类目下子类目“50007016”销量更佳;
“38”类目下子类目“211122”销量更佳;
“50022520”类目下子类目“50023591”销量更佳;
“122650008”类目下子类目“50012359”销量更佳。
3、商品销量跟时间的关系?
以“年”为单位查看销量情况,2012-2014销量是逐年递增,由于2015数据只统计到2月,因此我们在前面大前提下,只对比每年1-2月数据,也会发现15年这两月数据同比前几年数据都是要好一些的。
以“季度”为单位查看销量情况,发现第四季度销量基本上最好,就2013年第三季度要优于第四季度,但其实数量相差也不大
为此可以更进一步分析季度下的以“月”为单位的销量情况,对每年的销量按月销量进行排序,会发现销量好的月份基本上在9月和11月,由此可以更深入的分析下造成此现象的原因,但更为意外的是我们发现2013年的7月也排到了销量冠军的位置,可以着重研究下该月,由于数据是网络上随意拿来的,这里下一步无从核实,因此这里不做下一步分析。
4、婴儿年龄与商品选择?
婴儿的年龄需要结合表1跟表2,这里利用vlookup 函数进行多表关联,再利用datedif函数得出对应ID婴儿年龄,如图:由于该问题是对年龄进行研究,为此这里就年龄进行分组,首先设置年龄范围,如图:
再利用vlookup函数对整个表格进行年龄分组,得到如下图数据:
最后结合数据透视表对整个数据进行分析,将“年龄分组”、“商品一级分类”拖到列标签,“求和项购物数量”拖到值区域,再对“求和项购物数量”进行降序排序如图:
由此可以看出:婴儿用品的需求量较大的群体在3岁以下。将商品一级分类展开来看,可以分析各年龄层次的购物偏好,
3岁以下的婴儿对“50014815”,“50008168”“28”需求较多,3-6岁对“50008168”需求大
对于未出生的婴儿对以下商品也会有少量需求
6岁开始对婴儿用品的需求逐渐减少,如图:
5、婴儿性别与商品选择?
如4号问题一样,需要将两表关联,这里研究性别,因此将表2的婴儿性别利用VLOOKUP函数关联到表1,得到下图:
再对其进行数据透视:将“性别”(0:女,1:男,2:未知)、“商品一级分类”拖到列标签,“求和项购物数量”拖到值区域,再对“求和项购物数量”进行降序排序,值显示方式为“列汇总百分比”如图:
由此可知,用户给女宝宝(0)买婴儿用品的花费更大,再对“商品一级分类”进行展示:
用户给女宝宝(0)购买“50014815”及“50008168”多,给男宝宝(1)购买“5000168”较多。
五、数据可视化
想知后事如何,请见下篇分晓。