新闻中心
使用Excel进行数据分析
使用Excel进行数据分析可以说是必备技能,数据分析的可分为如下五步:
1、提出问题
2、理解数据
3、数据清洗
4、构建模型
5、数据可视化
现以第一篇文章中我要Job上的抓取的数据分析职位为例进一步分析。
1、研究问题:数据分析职位的薪水如何?薪水是如何根据工作年限变动的?
2、理解数据:观察已有数据是的列名、数据类型
采集到的数据,前四列是有效信息3、数据清洗:在数据分析中,大约有60%的时间是花在数据清洗中,比如处理缺失值、删除异常值等等。一般通过这七步可以做到,它们是选择子集-列名重命名-删除重复值-缺失值处理-一致化处理-数据排序-异常值处理。
首先将无关列名选择隐藏,不选择删除便于保持原数据完整性。
删除重复值:数据-删除重复值,出现表格中所有列名,选择能标识该表格的唯一列名,该表中选择公司名为唯一ID。
缺失值处理:查找和选择-定位条件-空值,如果所有空格填入内容一致,填完一个后,按ctrl+enter实现所有空格批量处理。
缺失值常用的四种办法:1)手工输入 2)删除数据3)用平均值代替4)使用模型计算出值去代替空值。根据情况选择合适的方法。
一致化处理:数据一致化,可以先在欲拆分的列插入一个新的列,因为分列功能会覆盖掉右列单元格,选择:数据-分列
Excel常用函数:通过计算最高薪水和最低薪水举例说明
FIND函数:查找XX字符串在另一个字符串中的起始位置,FIND输出的是一个数值型的数字(位置)
LEFT函数:读取单元格中左数到第XX位置截取的字符串
RIGHT函数:读取单元格中右数到第XX位置截取的字符串,Left和RIGHT输出的是原字符串的一部分
MID函数:单元格位置,开始位置,截取长度
先使用筛选功能,分别计算出“*千”和“*万”不同单位的薪水,最低薪水最高薪水公式分别如下图所示:
计算公式“千”为单位的,再除以10 最低薪水=LEFT(E8,1)/10 最高薪水 =MID(E10,FIND("-",E10,1)+1,LEN(E10)-FIND("-",E10,1)-1)/10
这样,万为单位的薪水是字符型,千为单位的是数值型,现需要将它们统一为数值型。
将最低薪水复制另起一列,在新的空白数列上,数据——分列,选中连续分隔符号视为单个处理,完成。所有数据变成数值型(EXCEL中数值型靠右侧,出现绿色倒三角号表示为字符型)。随后可以算平均薪水,这样薪水部分的处理就完成了。
排序:降序——拓展当前区域
异常值处理——数据透视表
数据透视表原理:Split-Apply-Combine 数据分组-应用函数-组合结果
对职位名称筛选,IF(COUNT(FIND({"数据运营","数据分析","分析师"},L2)),"是","否")
因为数据透视表对所有的数据源进行分析,所以将筛选出来的结果需复制到新的表上。
数据建模
下一步如何使用Excel的数据分析功能?例如对薪水进行描述统计。文件-选项-加载项-转到-数据分析库(勾选)
数据-数据分析-描述统计:勾选标志位于第一行(表示第一行不带入计算)
再次回到数据透视表,行标签选择工作地区,对平均薪水一项求值,汇总依据求平均值(在单元格右击),得到透视表如下
数据可视化部分下一章解释
tip:日期数据不同格式时的处理
数据——分列——最后一步选择YMD
日期数据在创建数据透视表时,鼠标右击选择创建组合可以选择日期起始点及展示的周期。
如何使用VLOOKUP(跨表查找)
VLOOKUP(找什么,在哪找,第几行,精确or模糊)
精确查找和模糊查找的区别:
精确查找是从第一行开始逐行查到到最后一行,一找到匹配项就停止查找。
模糊查找是查遍所有数据,返回最后一行的数据。
它的弱点是它只能找到一个值,无法处理重复值的问题
那么,如何处理重复值?
创造辅助列,将两列单元格的内容作为唯一关键字,辅助列内容如:C2@D2,@表示链接,再使用VLOOKUP进行查找。
如何对数据分组?(VLOOKUP的第二个功能)
在第二行范围选项框中,全选中并按F4即可变成绝对引用。
绝对引用:$A$1 (按一次F4)
混合引用: A$1(按两次F4) $A1(按三次F4)
相对引用:A1 (按四次F4回到相对引用)