新闻中心
数据分析具体案例(数据分析具体案例有哪些)
数据分析一共有五大步骤:
明确问题:想从数据里面获得什么信息,分析什么问题;理解数据:理解数据横、列,代表的信息是什么。数据清洗:目的是保留必要的信息,或者将信息的格式规范统一,便于分析。一般占到数据分析总时间的60%。数据分析or构建模型:数据可视化:用一张思维导图展现今天的分享框架~

以母婴行业电商销售数据为例

一、明确问题:
总体来看,那种商品的销量最高?卖得最好的是哪一种规格/属性?
不同年龄段的婴儿的购买偏好(各个不同年龄段不同商品的销量排名)
不同性别婴儿的购买偏好(不同性别的婴儿不同商品的销量排名)
不同年龄段不同性别的婴儿的销量排名
不同季节的购买偏好 (不同季节的商品销量排名)
销售量如何随着时间变化(年、季度、月的销售额如何变化)
每个用户的购买记录
一级分类的商品中那一类商品卖得最好?
各个一级分类下,哪种二级分类的商品卖得最好?
二、理解数据:
看行、列,分别有什么信息

三、清洗数据、
1、选择子集:确定感兴趣要分析的几个列
比如这里商品属性我就可以隐藏了
隐藏:右击选中的单元格
2、列名重命名:换成自己喜欢喜好的。比如中换英。
这里没有什么需要重命名的
3、删除重复值
这个地方不需要进行重复值处理,因为可能同一个用户买了不同的商品。
但是还是示范一下如何删除重复项

点击确认之后就是这样的界面

可能同一个用户ID买了不同的商品,所以我要把它们恢复,直接撤销刚刚的操作就可以了。
4、缺失值处理:有没有缺失-定位缺失-一键补全
首先知道有没有缺失值
把鼠标在每一列最上面点一点,看看右下角的“计数”,就知道有没有缺失值了。


如何定位呢?


点击确认之后,就会定位空白的地方
一次性补全


5、一致化处理:使用分列功能
这里用另一个招聘网站的例子

比如这个公司所属领域有逗号,就可以把它分割开



补充说一下Excel常用的一些函数。
什么是函数呢?函数是一个工具。把函数想像成榨汁机就行了。不用知道原理,只要知道扔进去水果,会有果汁出来。同样,函数就是,扔进去一些数据,出来想要的数据。
先说平均数。还是以招聘网站的信息为例。
比如薪水有个范围,我们就把它设置成最低薪水和最高薪水,然后在最低薪水和最高薪水之间算一个平均数。

点击空白单元格-公式-插入函数-直接检索需要的函数-插入,然后根据提示在函数的参数位置输入数据,如下图。
但是每一个都这样输入非常麻烦,怎么办呢?
两个办法,第一个办法是使用分列,分列标准是xK-xK中间的“-”,然后再用“k“为分列标准再分一次。具体分列方法如上。就可以得到这样的数据界面。
下面说第二种方法,用查找和截取字段的函数把数字单独分离粗来。
用find函数,查找一个字符串在另一个字符串中的位置。比如,在7k-9k中,第一个k的位置就是2。
下面几个函数经常和find函数一起使用完成字符串截取的工作。所以肯定会用到函数的嵌套了。
left函数:=LEFT(字符串所在单元格位置,从左开始 到XX位置进行截取)。如=LEFT(M2,2)
(“XX位置”是某一个数,同时包括了XX位置的内容。所以有的地方需要-1)
(比如这里2就是这个“XX位置”,怎么得来的呢?用find函数嵌套进left函数)
(所以k也被算进去了,所以我要在find函数后面-1)。不理解也没关系,一步步来,先不-1,试一下就知道k会被截进去。
这里的find是刚刚写好的,现在可以直接用,在前面写left就行。
right函数:=RIGHT(字符串所在单元格位置,从右开始到XX位置进行截取)。如RIGHT(M2,2)
mid函数:=MID(字符串所在单元格位置,开始位置,截取长度)。如
开始位置,是中间的-,用find查找。嵌套进mid中。
-的位置:FIND("-",M2)
因为数字在后一位,所以+1,FIND("-",M2)+1。开始位置是FIND("-",M2)+1。
截取长度比较复杂。要用整个字符串的长度,减去-所在的长度。剩下绿色的部分。现在只要保留数字,所以还要-1。长度是len(M2)-FIND("-",M2)-1。
最后得到最高薪水的数字如下
个人觉得,还是分列比较好用一点呢。函数脑子不太容易转。当然可以实践一下。
自动填充不用说了,鼠标放在单元格右下角,出现黑色十字架之后,然后按住鼠标,把那个十字架往下拖。
做到这里没有结束,要看一下有没有什么异常值。用筛选功能。拉到最下面。
会发现这里有异常值,是因为有的薪水项,k是用大写K表示的。一起替换一下就行了。
数据清洗可能不是一次性的,可能不同的环节会进行多次。
这种形式的错误这么处理呢?点击一个这样的单元格,然后会发现是字符串,而不是数字。怎么处理呢?
先复制数值。一定是选择性粘贴。
在进行分列处理
然后会发现复制之后单元格的绿色图标(标注是字符串)没了。
把复制之前的隐藏掉就行了。
然后再计算一次平均数~
6、数据排序
这就不用多说了吧。
7、异常值处理:需要用到数据透视表的功能
数据透视表的原理(SAC):按照一定的属性将数据进行分组(split)、应用函数(apply)、对上一步函数的计算结果进行汇总组合(combine)
如何实现呢?
选中按照什么列名分组之后,拖到行标签这里再拖到列,表示把这一列中各个项目出现的次数进行计数这张图来说明如何处理异常值。
左边黄色框出来的,就是异常的,不涉及数据分析的工作。用到3个函数
首先用find函数,找出关于“数据分析师”字眼的,此时find函数中,参数是一个数组{"数据分析","数据运营","分析师"}。
然后会变成这样,
在用count函数计数,确定这个数组参数中的值出现了几次,
就把上面的第1、3个参数出现(出现两个参数)整合成次数2了。
最后用if确定,只要这个count的值不等于0,就是“是”
再往下拉几个,就可以全部判断是不是数据分析师的岗位了。
最后进行筛选就可以了,最后只剩下数据分析师的岗位~
数据清洗工作基本到这里就结束了~虽然有点麻烦,但是只要清洗好了,后期分析起来,完全不是问题。磨刀不误砍柴工。
四、数据分析
另外,按照上面的方法,还可以探寻其他问题的答案,比如在哪个城市找到数据分析师的机会可能更大?或者说那个城市对数据分析师的需求最大。
还想看看列这里按照工作年限有什么区别,那就把工作年限拖到列那里
可以看到1-3年和3-5年的工作年限,是需求最大的。
用列百分比的方式显示,出现的表格就是百分比显示的了~
怎么看平均工资呢?
先加载勾选一下分析工具
然后按照下图中的进行勾选设置命名~
得到这样的数据
最后看看不同城市的薪水平均值,需要用到数据透视表。行有城市,另外值的计算加上平均数就行。记得最后把值汇总依据调整成“平均数“,不然就会算成求和的。。。
最后得到这样的数据
再看看不同年限的平均薪水变化
可以看到还是越老越吃香的~
五、其他
接下来说明日期的处理问题
需要用到“数据-分列”功能,前两步都是一样的
但是到第三部的时候,需要勾选到“日期”,YMD的格式了
然后会发现有了统一的格式
如果不是一样的,右键单击选择设置单元格格式
在日期这里选择一种格式即可
接下来使用透视表按月或季度看数据
在日期这一列右键单击选择“组合”就可以出现这样的界面,选择月、季度、年,就可以按这个分组看数据了
如何按周汇总数据呢?
也是在组合对话框中设置
接下来就是按周汇总的数据
和上述分析平均数的方法一样,在值字段汇总这里,把“求和”设置成“最大值,就能看到每个月的最大销售量
再来说说vlookup函数
(找什么、在哪找、第几列、准确找还是近似找)
点击插入函数之后,就会出现四个空格,分别对应
在哪找第几列精确找是0,近似找是1。
最后出现这样的结果
那如何查找重复值呢?
第一个方法添加辅助列,找什么的时候,点击“辅助列”对应的单元格
如何用vlookup对数据进行分组?
先要确定一个分组,也就是查找范围
区分三种引用:
相对引用:A1;。拖动的时候,引用的也会跟着拖动 。A1,F4按四次
绝对引用:$A$1 (按住f4可以实现)。不管怎么拖动,引动的那一个单元格都不动。$A$1,F4按一次。
混合引用:$A1 或 A$1 。行或列不动。谁前面有$美元符号,谁不动。 A$1,F4按两次;$A1,F4按三次。
下次分享数据可视化~嘻嘻