新闻中心
数据分析案例实践(Excel)(数据分析基础与案例实战Excel)
一、明确问题
通过对天猫和淘宝用户2012-2015年部分婴幼儿产品的购买数据,分析:
各商品类目的销售量分析,e.g. 销售总量、季度销售量婴儿性别和年龄对商品需求程度二、理解数据
1.采集数据
数据来源:
Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.com/dataset/dataDetail?dataId=45
2.查看数据信息
本数据集包含2个Excel文件。
表一:商品购买信息
共包含7个字段信息:
user_id:用户id;
auction_id:物品编号;
cat_id:商品种类id(二级商品分类);
cat1:商品种类id(以及商品分类);
property:商品属性(e.g. 大小,颜色,尺码,品牌等);
buy_mount:购买数量;
day:购买时间。
表二:婴儿信息
共包含3个字段信息:
user_id:用户id;
birthday:出生日期;
gender:性别(0:女性;1:男性;2:未知)。
三、数据清洗/数据预处理
1.选择子集
在明确了想要分析的问题之后,我们发现表一中的auction_id和property两个子集不会被用到,因此我们选择隐藏这两列数据。隐藏列操作后,表一包含的字段信息如下图:
2.列名重命名
为了方便分析,将表一和表二的列名改为中文,如图:


3.删除重复值
用户id是数据集中对用户进行区分的唯一依据,我们将依据用户id字段删除重复值。
处理表一中的数据,考虑到同一用户id有可能有多次购买行为,我们全选全部数据集进行删除重复值操作,未发现重复值。
处理表二的数据,我们仅依照用户id进行删除重复值,同样未发现重复值。
4.缺失值处理
表一中各列均是包含29972条数据信息,表二中各列均包含954条数据信息,都没有出现缺失值。
5.一致化处理
处理日期数据将表一中的购买日期和表二中的出生日期样式利用分列和设置单元格格式设置成为yyyy/m/d格式。

利用vlookup函数将表二中婴儿信息合并至表一。

用户id、商品一级分类以及商品二级分类均不用于计算,因此将其改为字符串类型。
将出生日期性别两列利用复制和选择性粘贴去除公式,仅保留其值。利用查找和替换将出生日期和性别中的“#N/A”改为“未知”,并将性别列中0、1、2分别改为“女“、”男“和”未知“。
结果如下:
增加年龄段、年龄分组字段通过购买时间和出生日期差值计算婴幼儿的年龄段,并利用vlookup将数据分为“未出生”、“1岁以下”、“1-3岁“、”4-6岁“、“6岁以上”、“未知”等6组。

6.数据排序
对购买数量进行描述统计分析,最小值为1,最大值为10000,未发现明显的异常值。但购买数量10000远超排名第二的2800件,应该核实其来源再进一步判断是否为异常值。将年龄按照升序、降序排列,最小值为-2,最大值28。出现负数是因为婴儿未出生,不将其视为异常值,28为明显异常值。对异常值处理后,年期最小值为-2,最大值为12。7.异常值处理
在年龄字段下发现年龄28为异常值,对比发现出现异常值原因是出生日期填写错误,将其改为“未知”。
四、数据分析
利用数据透视表进行数据分析。
累计销售量

一级分类中,编号为“28”、“50008186”和“50008186”是累计销售量最高的三类产品,月占全部商品类别销售量的88%。

编号“28”的一级分类下累计销售量最高的前三类二级商品类目分别是:“50011993“(12.64%)、”50012788“(10.40%)以及“50003700”(7.51%)。

编号“50008186”的一级分类下销售量最高的前三如上图所示,其中“50018831“占全部二级类目销售额的64.04%。

编号“50008186”的一级分类下,“50007016”、“50013636”以及“50006602”类商品销售量最高。
季度销售量
上图中显示,2012年只有第三季度和第四季度数值,同时2015年只包含第一季度数值。
在2012年中,第四季度销量远高于第三季度。同时可以看出在2013年和2014年第四季度销量都是全年最高,且第一季度至第四季度的销量呈递增趋势,但2014年第一季度较上一年第四季度销量出现回落。分析这三年第四季度销量较高可能受“双十一”等促销节日影响。
2014年全年销售总量较2013年相比增长近一倍。
婴幼儿性别与销售量的关系
全部数据中,已知婴幼儿性别为男性的共有438,已知女性婴幼儿有492位。

由上图可以看出,商品一级分类“50022520“和”12265008“类商品婴幼儿性别对商品购买量没有明显影响。“50014815”类商品在男性和女性婴幼儿中购买量差别较大。虽然商品二级分类下出现了某些商品仅有男性婴幼儿或者女性婴幼儿购买的情况,但由于样本数量较小不能得出性别是其决定因素。
婴幼儿年龄与销售量的关系
全部数据中,已知婴幼儿年龄的数据共有955条。其中人数最多的“1-3岁”年龄组,其占比超过50%。人数最少的年龄组为“未出生”,共有36条数据。

在“未出生”年龄组购买数量最多的商品为“28”类和“50008168”类,在“1岁以下”年龄组购买数量最多的商品为“50014815”,在“1-3岁”年龄组购买数量最多的是“50008168”和“50014815”,“4-6岁”和“6岁以上”年龄组购买数量最多是“50008168”。“50008168”类商品在大部分年龄段为销售量最高的产品,可能是婴幼儿长期需要的产品。
各年龄组中,“1-3岁“年龄组是已知年龄的各组中累计商品购买量最高的一组,但考虑到所有统计人数中该组人数占比超过50%,不能得出这个年龄段对各类商品累计需求最高的结论。