新闻中心
用Excel对数据进行初步分析(excel中对数据分析处理的常用操作有哪些方法)
做数据分析之前我们要确定数据分析所需用到的工具和分析时的具体步骤。
这次我们选用Excel来对母婴电商数据进行分析。
本次分析数据来源:阿里巴巴天池
理解数据集1)表1购买商品字段
user_id:用户id
auction_id:物品编号(item_id)
cat_id: 商品种类ID(商品二级分类)
cat1: 商品种类ID(商品一级分类)
property:商品属性
buy_mount:购买数量
day:购买时
2)表2婴儿信息表字段
user_id:用户id
birthday:出生日期
gender:性别(0女性;1男性;2未知的性别)
数据清洗1)列名重命名
重新对列命名,以便对后续操作更简便
2)删除重复值
将表1和表2中的用户id总数进行对比,发现表2中总共有953个用户id,在表2中选中用户id列,运用数据栏下的删除重复项发现表2中未出现重复项。表2中有953项非重复项。

3)缺失值处理
首先,定位缺失值。选中每个字段所在的列,选中开始->查找和选择->定位条件->空值
其次,填充缺失值。通过上面的步骤定位好缺失值后,将需要补充的值填在所定位的缺失值处,补充完后同时按住control和enter键来填充全部缺失值。
通过定位缺失值发现本数据集未存在缺失值。
4)一致化处理
一致化处理是对数据集统一化,如:日期格式统一、数据分列、函数公式等。
以下是对数据集进行日期格式统一的操作。




3、获取业务指标
1)用vlookup多表关联
将两张表通过vlookup函数进行整合。

我们将表1中的购买日期和购买数量通过用户id字段整合到表2中,并添加新字段宝宝年龄,宝宝年龄的计算方法为(购买日期-出生日期)/365.可以看到表中宝宝年龄有负值出现,这是由于宝宝未出生前购买商品的情况。
2)创建数据透视表
通过数据透视表分析你想要获得的业务指标。
不同性别的宝宝购买商品的数量如何?每个年龄段的宝宝购买商品的时间分布如何?吗?每年的畅销商品是什么,购买最多的商品是什么?

通过数据透视表我们可以发现女宝购买商品的数量最多。

在用数据透视表时,我们通过创建组来对宝宝的年龄进行分段。根据上表我们可以看出,0-3岁的宝宝购买数量最多。

在数据透视表中选择购买日期、商品一级分类和购买数量字段。我们可以看到从2012年到2014年销售数量逐年递增,但到了2015年有所下降。在商品一级分类中最畅销的是28分类的商品。对购买日期和商品一级分类进行交叉对比时,我们发现每一年的畅销商品类别都是28下的产品,并且分类28下的商品每年变化趋势和总销售的变化趋势相同。