新闻中心

数据分析之探索性分析

2023-03-20
浏览次数:
返回列表

数据分析基于以下五大步骤展开:

1、提出问题

2、理解数据

3、数据清洗

4、构建模型

5、数据可视化

明确要解决的问题,对数据有了充分的理解。下一步就是解决问题,而解决问题的第一步就是清洗数据。

01

数据清洗可分为七步进行:

选择子集、列名重命名、删除重复值、缺失值处理、一致化处理、数据排序、异常值处理

下面将针对婴儿购买商品的数据进行清洗

1、将各列名称修改为便于识别的汉字描述

2、选择子集删除重复项(PS:目前使用两张表中暂无需要删除的重复值)

3、将无关字段隐藏,避免信息干扰(购买行为号、商品属性等)

4、关联文件,使用vlookup根据用户ID将商品信息与婴儿信息关联组合为一张新表

5、用DATEDIF计算出婴儿年龄

6、处理缺失值,将上述过程中产生的有缺失值数据和有问题的数据(如婴儿性别为2的数据) 删除

清洗后部分数据

02

清洗后剩余794条数据,首先对这些进行描述统计,掌握数据的基本特征。

描述统计

商品平均购买1.59次,平均年龄在1.7岁;多数客户曾购买一次,年龄为0岁。

03

依据要解决的问题进行建模、可视化,进一步了解数据。

根据商品销售分布透视图可观察到商品50014815、50008168占比最高,达到销售总额的63.67%。

0~3岁婴儿是商品主要购买群体。

各类商品在2015年销量明显下滑

从历年销售情况看50014815类商品一直处于销量下滑状态;5008168及28类商品2012~2014销量连续三年增长,2015销量较2014年大幅度下滑;其余三类商品2013年销量增长,2014年与2013持平,2015销售量接近于0。

根据以上粗略分析,该平台商品主要针对0~3对婴儿售卖。虽然50014815、50008168销量较好,但平台整体销售处于下滑状态很不乐观,需要针对0~3岁婴儿及时调整销售策略改变现状。

搜索