新闻中心
数据分析之使用Excel进行数据分析(excel数据分析功能怎么用)
此次数据分析的数据来源均来自于阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
一、明确问题
1.2014年销量变化趋势及其可能的影响因素
2.2014年产品复购率
3.婴儿性别占比
4.婴儿年龄分布
5.不同年龄段对品类产品的喜好
二、熟悉数据集
表1(表1购买商品)中共有209797个数据、7个字段:
user_id为用户ID
auction_id为商品编号
cat_id为商品的类目
cat1为商品品类
property为商品属性
buy_mount为购买数量
day为购买日期
表2(表2婴儿信息)中共有2859个数据、3个字段:
user_id为用户 ID
birthday为婴儿生日信息
gender为婴儿性别
三、数据清洗
选择子集因本次数据分析与商品属性无关,故将表一中的商品属性列隐藏。
列名重命名为了方便后期操作,将表一表二的列名改为中文。
表1:

→

表2:

→

对表二中的用户ID列进行删除重复值操作,发现不存在重复值。

将查找与选择中的定位条件设为空值,在表2中并未查找到缺失值;在表1中的商品属性列查找到空值,并用筛选功能查看空值,发现有144个空值。

因商品属性与本次数据分析无关联,故不处理其空值。
一致化处理利用分列与单元格格式设置将表1的购买日期及表2的出生日期进行一致化处理,使其变成yyyy/m/d的时间格式。


将表1按照购买时间进行降序排序。
异常值处理利用筛选功能删除表2中的异常值“2”

四、数据分析及构建模型
1.利用VLOOKUP函数将表2中的出生日期、性别配对填充至表1中。
后续分析都将围绕表1进行。

2.将出生日期的单元格格式设为yyyy/m/d格式。
因为并非全部用户都提供婴儿信息,所以无法将购买产品信息的全部数据与婴儿信息一一对应。未能配对成功信息的性别列与出生日期列显示#N/A,利用筛选功能将成功匹配的行数据复制至一个新的工作表。

3.利用YEAR函数算出婴儿年龄。

4.利用VLOOKUP函数将婴儿年龄进行分组。

5.选中购买数量列,调用数据分析中的描述性统计功能,可知购买数量的平均数、中位数、众数、标准差、方差、第一大/小值、总数。

6.选中表格区域插入数据分析表,进行分析。
7.分析结果
A.2014年销量变化趋势及其可能的影响因素


因2015年只有第一季度的数据,所以抓取2014年一整年的数据进行分析,11月的销量是全年最高,占全年销售量的30.88%,其原因可能是受双十一购物狂欢节影响。可在其他月份也进行不同类型的促销活动,增加销量。
B.2014年产品复购率
筛选2014年数据复制至新工作表中分析,选中用户ID列进行删除重复值。

产品复购率计算公式:重复购买客户数量/客户样本数量
可得2014年的产品复购率为:0.026%,因母婴产品的特殊性,复购率可能较其他类商品低。
C.婴儿性别占比
在受访用户中,婴儿性别为女性占62.58%,男性占37.42%。
D.婴儿年龄分布
因为母婴产品的特殊性,存在婴儿未出生就提前购入相关产品的情况,故将出生日期晚于购买日期两年内的数据也纳入婴儿期进行分析;
经过筛选发现有一条数据的年龄为28岁,应是用户误将本人年龄填入婴儿年龄导致,因数量不大,统一划入青年期,暂不做处理。
经过分析可知婴儿期的购买量占总购买量的77%,其次是幼儿期、儿童期。婴儿期的购买量最大。
E.不同年龄段对品类的喜好
婴儿期对商品品类50014815需求较大,幼儿期、儿童期对于商品品类50008168需求较大。可根据用户的婴儿年龄推送相关商品品类的商品,以促进销量增长。