新闻中心
Excel,进行数据分析
根据上表的信息,再结合数据分析的基本思路,我将进行操作:
第一部分:数据清洗
一:明确问题
1、一级分类中婴儿商品的销售情况?哪一类最畅销?各一级分类商品的销售百分比?
2、最畅销一级分类婴儿商品中,二级分类商品的销售情况?
3、近几年婴儿商品的销售情况?
4、根据性别分类,男婴用户和女婴用户所占的百分比?
5、婴儿产品主要面向的婴儿年龄段?
二、理解数据
数据表中的字段含义都很明确,但表二中“性别”:0-女性;1-男性,其它方面不必补充。
三、数据清洗
1、选择子集
表1购买商品中的商品属性,暂时没有用处,所以先隐藏起来。
【注意事项:一般选择隐藏,不要直接删除】
二、列表重命名
两个表中的字段通俗易懂,不需要重命名。
【注意事项:如果字段中夹杂着英文或者其它符号,可以重命名,便于理解】
三、删除重复值
我们的问题都是围绕着用户展开,而用户ID具有唯一性,所以我们根据用户ID进行重复值删除。
四、缺失值处理
每列总数均相对,两个表格中均为发现空值。
【注意事项:如果发现空值,可以根据上述操作:选中有空值的某列-开始-查找与选择-空值-数值输入;若缺失值一样,可按ctrl+enter一次性补充】
五、一致化处理
经过查看,表1和表2中的购买时间和出生日期均为数值型,因此需要转化为日期型,
【注意事项:如果日期格式有不统一的地方可以按下图操作】
六、数据排序
七、异常值处理
对表格进行排序后,在表2中发现有一1984年出生的婴儿,数据明显异常,做删除处理。
第二部分数据分析
1、一级分类中婴儿商品的销售情况?哪一类最畅销?各一级分类商品的销售百分比?
结论:1、可以发现商品一级分类中共有6大类产品在售。2、其中编号“28”最畅销,销量为28537,占总销量的37.44%。3、其它5类产品的销量占比从高到低依次是25.93%、24.63%、4.8%、4.26%和2.94%。
2、最畅销一级分类婴儿商品中,二级分类商品的销售情况?
结论:类别为“28”的一级分类商品最畅销,查询其二级类别商品的购买数量可发现:如上图红框标记所示,销量前五的商品数量依次是3609、2969、2142、1843和1290;其销量百分比依次是12.65%、10.4%、7.51%、6.46%和4.52%。
3、近几年婴儿商品的销售情况?
结论:可以看出2012年到2014年销量是逐年攀升。其中2015年销量低于2012年,查询原表数据发现2015年的数据只统计到2015年2月5日,所以2015年销售先不做年度分析。
销量季度分析销量月度分析结论:发现2012年和2015年部分月份数据缺失,所以可以进行季度分析和月度分析。具体情况如上图所示。
4、根据性别分类,男婴用户和女婴用户所占的百分比?
结论:男性用户和女性用户百分比分别为48.69%和51.31%,差别不大。
5、婴儿产品主要面向的婴儿年龄段?
结论:从婴儿年龄这个维度来看,约80%的销量来自于0-6岁的婴儿客户,其中0-2岁婴儿段的商品更为畅销。