新闻中心

全国数据分析师招聘分析

2023-03-21
浏览次数:
返回列表

文章大纲:

一、提出问题

二、理解数据

三、数据清洗

四、构建模型和可视化

五、结论和建议

一、提出问题

1、哪个城市对数据分析岗位的需求最大?

2、哪个城市提供的薪酬是最高的?是哪个领域的最高?

3、工作经验对薪酬的影响?

二、理解数据

数据字段

总共有14个字段,字段的具体意思就按字面意思理解就行了。理解清楚每个字段是什么数据类型(字符串即文本,数字,逻辑)。

数据来源:爬虫爬取某招聘网站的数据。

三、数据清洗(此步骤很重要,要把数据变成分析所需要的样子。)

共有七个小步骤,见下图:

数据清洗的7步骤

1、选择子集

公司所在商区和公司ID对本次的分析无多大作用,所以把这2列都隐藏起来。

2、列名重命名

这个数据表的列名不用修改。

3、删除重复值

此处选择“职位ID”作为唯一值,进行重复值删除。

剩下了5031行数据。

4、缺失值处理

以职位id这一列为标准,点击鼠标,右下角显示下图。

分别点击其他每一列,发现比这个数字少的就是有缺失值了。

本案例中,发现城市这一列有两个缺失值。

缺失值处理的4种方法,根据情况灵活使用: 1)通过人工手动补全 2)删除缺失的数据 3)用平均值代替缺失值 4)用统计模型计算出的值去代替缺失值

在这里选择第一种方法。

先定位空值,在用“ctrl+enter”去填空值。

5、一致化处理

本案例中可以发现公司所属领域和薪水这两列要进行处理。

1)对公司所属领域处理,步骤如下:

因为有些公司只有一个领域,有些就有两个领域。这里用“分列功能”,以逗号作为分隔符,进行处理。需要注意的是,分列功能会覆盖掉右列单元格,所以我们记得先要复制这一列到最后一个空白列的地方,再进行分列操作。然后将前面的列隐藏起来。分列后增加了一个公司所属领域2。

2)处理薪水

此处薪水是一个范围值,会影响后面要计算的平均薪水。分别提取最低薪水和最高薪水。

最低薪水:=LEFT(M2,FIND("k",M2)-1)

最高薪水:=MID(M2,FIND("-",M2)+1,LEN(M2)-FIND("-",M2)-1)

下面两张图讲述了如何将字符串型的数字转化为数值型的。

6、数据排序

将计算出来的平均薪水进行降序排列。

7、异常值处理

要用到数据透视表功能。

选择行标签为职位名称的透视表,按“计数项:职位名称”进行降序排序,发现很多招聘职位并不是数据分析师,所以后面要对职位名称这一列进行异常值处理。

处理步骤如下:

新增一列:是否数据分析师职位,运用函数=IF(COUNT(FIND({"数据运营","数据分析","分析师"},L2)),"是","否"),筛选出是的行。

对每一列用筛选功能看看有无异常值。

四、构建模型与可视化

1、哪个城市招聘的职位最多?

可以看出招聘数据分析师职位数量前五名的城市依次是北京,上海,深圳,广州,杭州。

2、数据分析师的薪水情况

数据分析师薪水大多数在15K这个值附近。

平均薪水最高的城市是深圳,其次是北京。

排名前十的行业平均薪水,社交网络行业最高,达到16.45。

3、工作经验

职业要求最多的是1-3年的工作经验。

4、公司规模分布

2000人以上的公司招聘的最多,说明数据分析师这个行业,大型公司的需求比较强烈。

5、什么行业招聘需求最多?

招聘职位前十名的行业。很显然,移动物联网行业的需求是最大的。

6、经验对薪水的影响?

可以看出随着工作经验的真多,薪水也在不多增多。有十年经验的平均薪水可达到33k。

五、结论和建议

结论:

1、招聘最多的前五名城市依次是北京,上海,深圳,广州,杭州。

2、数据分析师整体的平均薪水在15K左右,平均薪水最高的城市是深圳,最高的行业是移动互联网行业。

3、工作经验的增长对薪水的提升有明显作用。大多数数据分析招聘要求1-3年的经验。

建议:

如果真心想再这行发展的,去北京,深圳,上海,广州这些城市是不错的选择。

搜索