新闻中心

数据分析应用案例(bi系统 数据分析)

2023-05-15
浏览次数:
返回列表

一、分析背景和目的

通过研究2013年和2014年的销售数据进行复盘总结。发现历史销售规律、找到需要改善的地方,并给出具体实施建议更好地运营实现销量最大化。

数据来源:阿里巴巴天池

Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.com/dataset/dataDetail?dataId=45

二、理解数据

数据包含两个excel表.其中表1是购买商品明细,表2是婴儿信息。其中字段如下:

对数据从用户、行为、产品进一步分类如下:

用户数据:用户id、出生日期、性别行为数据:购买数量、购买时间产品数据:商品编号、商品一级分类、商品二级分类和商品属性

三、提出问题

1)过去的销量情况怎么样?如果销量好(不好)的原因是什么?不同品类是否又差异?

2)婴儿性别在购买数量和品类是否有差异?

四、数据清洗

1)选择子集,将不需要的信息可以隐藏,商品属性信息并没有参与分析可以隐藏。

2)查看是否有重复数据

3)对列重新命名

4)数据一致化处理,性别将0、1转化为中文,性别2标记为未知。可以用if函数实现。

5) 分别对数据进行描述统计。婴儿数据一共953条记录,其中发现在出生日期这列发现最大出生日期是19840616这个显然不太符合实际,需要对数据做特殊标记为异常数据,后续不再参与分析。

购买商品表中发现中位数、众数都是1,但最大销量是10000,通过明细发现这个是10000的销量是来一个用户在20141113购买商品39769942518,10000件,由于处于双11期间,所以会可能存在促销期间大量订购的情况,但后续要多时刻数据

6)两份数据基于用户id通过vlookup进行关联。数据发生时间包含了2012年7月至2015年2月期间。

五、分析问题

购买行为:方向1:整体销量随时间是如何变化的?

从下图可以看出整体的用户购买数量是沉现增加的趋势,但是在2014年11月发生突增。

接下来针对2014年11月的数据取定位一下,这个"突增"是因为什么?

定位原因的方法:

a.确定数据来源是哪里?(数据库系统导出还是工作人员录入)

b.确认数据时间(这里没有地域属性,如有可以一起看,异常来自那个地域):平时的销量基本相对稳定,一般日销量在100以内,双11当天销量是774,但是1113这天居然销量是10061。假设当天并没有发生大宗团购订单的话,我们就需要简单看一下异常问题定位了。

c.针对20141113这一天基于购买数量通过对商品一级品类拆解发现,99%的销量来自于一级品类=50014815,进一步拆分二级品类发现50018831对应的销量是10000,对于这个二级品类下钻商品编号发现是来自同一款商品39769942518,进一步看这个商品购买用户会发现是来自同一个用户一次购买10000件商品导致的。这块要进一步确定是发现了大宗团购还是异常情况。在本文后面的数据中先将该记录删除。

去掉上述异常数据后,得到如下图的趋势:从2012年7月至2015年2月整体的销量是增加的趋势。首先说明我们的客户群的趋势是朝着好的方向进行的。但是我们是因为扩展了新用户还是老用户复购,这个需要进一步去探索。

由于13年和14年全年的数据是完整的故针对这两年我们接下来做进一步的对比。

通过13年和14年的年度购买总量对比可发现,14年全年销量比13年增加了41%,购买量增加了9428。那么接下来分析用户购买数量增加的原因可能是什么呢?

具体分析思路如下:

购买数量=用户数*人均购买数量。基于这个指标我们可以采用假设检验的方法进一步去验证。

假设1:用户数增加。发现2013年产生购买的用户是9745,2014年是15019。14年比13年增加购买用户5274,涨幅为54.1%。在购买用户中发现产出复购用户很低基本可以忽略。假设成立。购买用户增加,同时主要是新用户带来的销量。

假设2:人均购买数量。从数据可以发现2013年和2014年人均购买数量约2件左右,没有显著变化,所以假设不成立。

假设3:扩展新品类增加销量。通过按二级品类去分别计算13年和14年的购买量看,可以将品类分为3类型,13和14年同时有购买量、仅13年有购买量、仅14年有购买量。在这里我们可以将仅14年产生购买量的品类认为是14年新增加的品类,仅13年有购买量的品类可以认为是13年下架的品类。我们发现,14年较13年有进行品类扩展及淘汰。但是增加的销量中68%是来自原有二级品类,新增加的二级品类仅带来35%购买量。

通过上面可以发现:14年销量较13年购买数量增加了41%,其中购买用户数增加了5274人,涨幅约54.1%,人均购买数量约2件,用户基本不回复;受品类扩展带来销量占增量35%。购买量增加主要来自老品类。

方向2:不同品类商品销售有差异吗?

发现:2013-2014期间40%多的购买量都来自28这个一级品类,同时发现每年的购买量相对稳定。近3成的购买量来自50008168,且该品类在14年增长较为显著,其增幅高达108%。

结论:不同品类销量有显著差异。购买增长较快的品类是50014815(14年较13年购买量增长率是108%),该品类今年因作为重点销售品类。

方向3:不同性别购买的差异

发现:女婴儿比男婴购买数量多说明女婴购买力更强。不同品类性别差异不一样。我们发现38和50014815两个品类女婴购买量要高于男婴。

建议:男婴购买力稍欠佳,建议通过丰富品类及差异化话推荐提升男婴消费力。

2、画像分析:

13-14年间,从性别构成看女婴占52%,男婴48%,基本持平。从年龄看近80%的婴儿都是3岁以下。说明店铺的主要用户群体是低龄宝宝。

建议:1、针对用户性别进行个性化推荐产品;2、适当丰富低龄宝宝,尤其是0-3岁宝宝所需的品类

六、报告可视化

搜索