新闻中心

数据分析第二步 用EXCEL进行数据分析实例(数据分析excel怎么用)

2023-11-18
浏览次数:
返回列表

现在我们用第一步的数据源做实战分析。

数据分析总共分这几个步骤,接下来我们按照步骤一步一步对表1和表2的数据进行分析。

数据清洗:

1、缺失值处理。表1的商品属性中有144项空值,由于商品属性较为多样,每个订单的长度也不一,无法进行平均值填充,故全部填充为0,作为没有商品属性处理。

2、将表1表2的购买时间改为日期格式。这里用到EXCEL里的分列功能,要点为格式选择日期格式。

数据关联:

1、关联购买时间与出生日期、婴儿性别:在表1增加辅助列出生日期、婴儿性别,并用VLOOKUP函数,通过用户ID将表2的婴儿出生日期和性别关联到表1。

2、清洗数据,去除N/A的无效值(出现该值是因为表2相比于表1数据较少,表1内的用户无法全部在表2找到,因此返回N/A),得到的数据建立新表表3,作为跨表分析的基础。

数据分析

一、用户分析

(一)婴儿年龄

1、计算购买时婴儿年龄:直接用购买日期-出生日期,可以得到两个日期的间隔时间,计算结果为天数。这里我将间隔天数再除以365天,得到购买商品时的婴儿年龄。

2、描述性统计:用四分位数函数和平均值函数,计算婴儿年龄相关描述性统计信息。从中我们可以获得用户最早会提前两年购买母婴产品、75%的用户在购买时婴儿年龄在3岁以下等结论。

3、分类统计:由于目标是母婴产品,一周岁以下为婴儿,3-6岁即为学龄前儿童。故将婴儿年龄以6周岁以下、一年划分一个区间,通过透视表分类汇总,得到的用户购买时对应婴儿年龄分类统计如下。从中我们可以获得母婴商品的购买人群大多为3岁以下的婴幼儿,其中1周岁以下的婴儿最多,其次是1-2岁幼儿,5-6岁的儿童的用户最少等结论。

(二)婴儿性别

1、以表2婴儿信息作为数据分析源,通过透视表,以性别为尺度计数,得到用户的婴儿性别统计数据,也可直接筛选性别,得到性别信息:

二、行为分析

(一)购买数量:

1、描述性统计:用四分位数函数和平均值函数,计算用户购买数量相关描述性统计信息。从中我们可以获得至少75%的用户在购买时每次只购买一件商品、即表内商品很可能为非消耗品的母婴商品,最多有用户一次性购买10000件商品等结论。

(二)购买时段

1、数据透视:对表1进行数据透视,以购买时间为行,商品编号为计数。由于购买时间为日期格式,透视表可以自动拆分到季度和月度,十分方便。

2、描述性统计:从透视表我们可以按年、季度和月度分析。由于2012年和2015年非全年数据,所以可以不做年度分析,按季度和月度进行统计。

季度:由于2012缺少一、二季度,2015缺少二三四季度,因此不能直接按季度的汇总数得到季度销量,这里我将透视表的结果,按季度再计算平均值,得到季度销量的统计数据(例如第四季度为销量最高的季度,第一季度的销量最低等)。

月度:同理,由于数据源2012、2015年度月度不全,可将透视表的月度销量进行平均,得到月销量的相关数据(例如全年销量最高的月份为11月、其次为9月,全年销量最低的月份为2月等等)。

三、产品数据

(一)商品类型销售特征

1、描述性统计:通过对表1进行透视表分析,得到商品一级分类和二级分类的汇总销售数据。点击一级分类的+号看到一级分类下二级分类的销售情况,例如我们可以获得一级分类中销量最好的是50014815, 二级分类中销量最好的是50011993

四、关联分析

关联分析里,我们以数据关联步骤形成的表3作为分析基础。

(一)商品销量与婴儿性别关系

对表3建立透视表,将商品分类与性别分别作为行列维度,以商品数量求和项作为统计值,得到商品分类与性别的关联统计表。从该表中,我们可以初步统计商品销量与性别的分析,例如:一级分类50008168、50022520、122650008商品,购买人群的性别比差别不大,而一级分类38、50014815的主要购买人群为女婴;一级分类中50022520的消费主力为男婴、50014815非的消费主力为女婴 等结论。

(一)商品销量与婴儿性别关系

对表3建立透视表,将商品分类与年龄层分别作为行列维度,以商品数量求和项作为统计值,得到商品分类与婴儿年龄的关联统计表。从该表中,我们可以初步统计商品销量与年龄的分析,例如:该统计表中,未出生及一周岁以下的婴儿为母婴产品消费主力;一级产品28、50008168、50014815为所有年龄段都会购买的产品,且50008168的适用年龄段较为广泛,从未出生只6周岁以上都可广泛使用;未出生和1周岁以下婴儿的偏好商品为50014815、2周岁以上的幼儿及儿童则偏好购买50008168 等等结论。

搜索