新闻中心
数据分析之探索性分析
数据分析基于以下五大步骤展开:
1、提出问题
2、理解数据
3、数据清洗
4、构建模型
5、数据可视化
明确要解决的问题,对数据有了充分的理解。下一步就是解决问题,而解决问题的第一步就是清洗数据。
01
数据清洗可分为七步进行:
选择子集、列名重命名、删除重复值、缺失值处理、一致化处理、数据排序、异常值处理
下面将针对婴儿购买商品的数据进行清洗
1、将各列名称修改为便于识别的汉字描述
2、选择子集删除重复项(PS:目前使用两张表中暂无需要删除的重复值)
3、将无关字段隐藏,避免信息干扰(购买行为号、商品属性等)
4、关联文件,使用vlookup根据用户ID将商品信息与婴儿信息关联组合为一张新表
5、用DATEDIF计算出婴儿年龄
6、处理缺失值,将上述过程中产生的有缺失值数据和有问题的数据(如婴儿性别为2的数据) 删除

02
清洗后剩余794条数据,首先对这些进行描述统计,掌握数据的基本特征。

商品平均购买1.59次,平均年龄在1.7岁;多数客户曾购买一次,年龄为0岁。
03
依据要解决的问题进行建模、可视化,进一步了解数据。

根据商品销售分布透视图可观察到商品50014815、50008168占比最高,达到销售总额的63.67%。

0~3岁婴儿是商品主要购买群体。

各类商品在2015年销量明显下滑

从历年销售情况看50014815类商品一直处于销量下滑状态;5008168及28类商品2012~2014销量连续三年增长,2015销量较2014年大幅度下滑;其余三类商品2013年销量增长,2014年与2013持平,2015销售量接近于0。
根据以上粗略分析,该平台商品主要针对0~3对婴儿售卖。虽然50014815、50008168销量较好,但平台整体销售处于下滑状态很不乐观,需要针对0~3岁婴儿及时调整销售策略改变现状。