新闻中心

使用Excel进行数据分析

2023-05-12
浏览次数:
返回列表

使用Excel进行数据分析可以说是必备技能,数据分析的可分为如下五步:

1、提出问题

2、理解数据

3、数据清洗

4、构建模型

5、数据可视化

现以第一篇文章中我要Job上的抓取的数据分析职位为例进一步分析。

1、研究问题:数据分析职位的薪水如何?薪水是如何根据工作年限变动的?

2、理解数据:观察已有数据是的列名、数据类型

采集到的数据,前四列是有效信息

3、数据清洗:在数据分析中,大约有60%的时间是花在数据清洗中,比如处理缺失值、删除异常值等等。一般通过这七步可以做到,它们是选择子集-列名重命名-删除重复值-缺失值处理-一致化处理-数据排序-异常值处理。

首先将无关列名选择隐藏,不选择删除便于保持原数据完整性。

删除重复值:数据-删除重复值,出现表格中所有列名,选择能标识该表格的唯一列名,该表中选择公司名为唯一ID。

缺失值处理:查找和选择-定位条件-空值,如果所有空格填入内容一致,填完一个后,按ctrl+enter实现所有空格批量处理。

缺失值常用的四种办法:1)手工输入 2)删除数据3)用平均值代替4)使用模型计算出值去代替空值。根据情况选择合适的方法。

一致化处理:数据一致化,可以先在欲拆分的列插入一个新的列,因为分列功能会覆盖掉右列单元格,选择:数据-分列

Excel常用函数:通过计算最高薪水和最低薪水举例说明

FIND函数:查找XX字符串在另一个字符串中的起始位置,FIND输出的是一个数值型的数字(位置)

LEFT函数:读取单元格中左数到第XX位置截取的字符串

RIGHT函数:读取单元格中右数到第XX位置截取的字符串,Left和RIGHT输出的是原字符串的一部分

MID函数:单元格位置,开始位置,截取长度

先使用筛选功能,分别计算出“*千”和“*万”不同单位的薪水,最低薪水最高薪水公式分别如下图所示:

计算公式

“千”为单位的,再除以10 最低薪水=LEFT(E8,1)/10 最高薪水 =MID(E10,FIND("-",E10,1)+1,LEN(E10)-FIND("-",E10,1)-1)/10

这样,万为单位的薪水是字符型,千为单位的是数值型,现需要将它们统一为数值型。

将最低薪水复制另起一列,在新的空白数列上,数据——分列,选中连续分隔符号视为单个处理,完成。所有数据变成数值型(EXCEL中数值型靠右侧,出现绿色倒三角号表示为字符型)。随后可以算平均薪水,这样薪水部分的处理就完成了。

排序:降序——拓展当前区域

异常值处理——数据透视表

数据透视表原理:Split-Apply-Combine 数据分组-应用函数-组合结果

对职位名称筛选,IF(COUNT(FIND({"数据运营","数据分析","分析师"},L2)),"是","否")

因为数据透视表对所有的数据源进行分析,所以将筛选出来的结果需复制到新的表上。

数据建模

下一步如何使用Excel的数据分析功能?例如对薪水进行描述统计。文件-选项-加载项-转到-数据分析库(勾选)

数据-数据分析-描述统计:勾选标志位于第一行(表示第一行不带入计算)

再次回到数据透视表,行标签选择工作地区,对平均薪水一项求值,汇总依据求平均值(在单元格右击),得到透视表如下

数据可视化部分下一章解释

tip:日期数据不同格式时的处理

数据——分列——最后一步选择YMD

日期数据在创建数据透视表时,鼠标右击选择创建组合可以选择日期起始点及展示的周期。

如何使用VLOOKUP(跨表查找)

VLOOKUP(找什么,在哪找,第几行,精确or模糊)

精确查找和模糊查找的区别:

精确查找是从第一行开始逐行查到到最后一行,一找到匹配项就停止查找。

模糊查找是查遍所有数据,返回最后一行的数据。

它的弱点是它只能找到一个值,无法处理重复值的问题

那么,如何处理重复值?

创造辅助列,将两列单元格的内容作为唯一关键字,辅助列内容如:C2@D2,@表示链接,再使用VLOOKUP进行查找。

如何对数据分组?(VLOOKUP的第二个功能)

在第二行范围选项框中,全选中并按F4即可变成绝对引用。

绝对引用:$A$1 (按一次F4)

混合引用: A$1(按两次F4) $A1(按三次F4)

相对引用:A1 (按四次F4回到相对引用)

搜索