新闻中心

数据分析招聘岗位信息挖掘

2023-03-21
浏览次数:
返回列表

思维导图

项目背景与说明

数据,已经渗透到当今每一个行业和业务的职能领域,成为重要的生产因素。人们对于海量数据的挖掘和应用,也预示着新一波生产力增长的到来。在这一浪潮的推动下,数据分析师应运而生,且在商业迅速发展的今天,这一岗位的人才需求也越来越大。本项目通过某招聘网站数据分析师岗位的招聘信息,探索一下当前这一热门岗位的现状,对于想从事这一行业的人提供一点参考。

项目理解

数据分析岗位目前的薪资水平如何,不同城市、不同行业之间是否存在差异数据分析岗位对于学历和资历的要求如何目前数据分析岗位主要集中在哪些行业,发展前景如何不同规模的公司对于数据分析人员的需求是否有差异

目标设定

数据清洗,去除重复值、缺失值、异常值数据整合,根据相应的分析指标提取相应的数据结合对此项目的理解搭建分析指标对分析结果进行可视化,以BI形式展现出来项目总结,提出合理化建议

此次项目用到的工具主要有Excel 2016和Power BI,其中Excel用于数据清洗、数据筛选和数据可视化,Power BI用于报表制作。

项目内容

1.数据清洗

此次项目的数据源是通过网络爬虫获取到的某招聘网站数据分析师岗位的招聘信息,有岗位名称、公司名称、工作城市、薪资、公司类别、公司规模、行业、岗位职责、发布信息共9个字段71034条记录,存在大量的重复值、异常值与缺失值,通过Excel对数据源进行初步清洗。

数据源信息重复值

对于岗位名称和公司名称都相同的认为是重复值,在Excel中通过删除重复列(对于岗位名称和公司名称两列内容都相同的记录删除),可以看到删除重复列后保留了49171条记录。

缺失值

薪资、公司规模两列存在缺失值,此处使用筛选功能直接将缺失值删除,去除缺失值后数据变为45317条记录。

2.数据拆分

使用Excel对工作城市、薪资、公司类别、公司规模、行业、发布信息等字段的数据进一步清洗,得到便于分析的形式。

工作城市

工作城市一列中的数据有的只有城市名,有的在城市名后还包含地区名,使用数据分列功能只保留城市。

清洗前清洗后薪资

薪资字段有的是以年薪表示,有的以月薪表示,且薪资的单位既有万也有千,此处运用分列和函数将薪资标准化为以“千”为单位的月薪表示。

薪资数据格式不一致

拆分思路:

a.首先使用数据分列功能,以“-”分为两列,后一列再以“/”分为两列,这样分列之后第一列可以用最低薪资表示,第二列用最高薪资表示,第三列表示月薪或年薪。

b.使用函数将薪资最大值分列,将数值部分与单位部分分开

首先用left函数“=LEFT(E2,LEN(E2)-1)”提取E列数据中薪资的数字部分,然后用right函数

“=RIGHT(E2,1)”提取薪资中的单位部分

c.使用if函数嵌套

=IF((F2="万")*(G2="月"),D2*10,IF((F2="千")*(G2="年"),D2/12,IF((F2="万")*(G2="年"),D2*10/12,D2)))

=IF((F2="万")*(G2="月"),E2*10,IF((F2="千")*(G2="年"),E2/12,IF((F2="万")*(G2="年"),E2*10/12,E2)))

分别将薪资的最大最小值标准化为单位为“千”的月薪表示,并求出二者的均值作为该岗位的平均薪资

公司类别、公司规模、行业

这三个字段分别使用替换功能去除脏数据即可,注意的是行业这一列,此处只保留第一个行业类型,因此在替换后需要再以“/”分列取第一个元素。

清洗前清洗后发布信息

发布信息这列中包含工作地点、学历要求、资历要求、招聘人数、发布时间、无效数据等信息,此处只提取学历要求和资历要求数据信息。

拆分思路:

a.首先使用替换去除其中的脏数据。

b.清洗数据后发现每行数据包含多个字符,字符之间用逗号分隔,并且每个单元格内字符的数量是不固定的,而需要的学历和资历信息在每个单元格中的位置也不固定。

c.使用函数“=LEN(F2)-LEN(SUBSTITUTE(F2,",",""))+1”计算单元格内以逗号分隔的字符个数,计算后发现每种字符个数的数量及其所占总数据的比例为

字符个数数量占比327886%4438610%53044467%6579313%719054%

可见大部分数据的字符个数都集中在4、5、6,回到数据按字符个数筛选,字符个数为4时:其中大部分都缺失资历这一信息;字符个数为5时:包含要提取的信息,且资历位于第二个,学历位于第三个;字符个数为6时:同样包含要提取的信息,且资历位于第二个,学历位于第三个

字符个数为4时字符个数为5时字符个数为6时

因此,综上,为了降低提取数据的难度,只提取发布信息一列中字符个数为5和6的单元格中的资历和学历信息

3.结合实际业务进行数据分析

数据分析岗位目前的薪资水平如何,不同城市、不同行业之间是否存在差异。

使用Excel的数据透视表功能,按城市汇总薪资的平均值,并筛选出岗位数量的TOP 15,可以看到数据分析师岗位的平均薪资大致在8-10k,其中北上深等超一线城市薪资在10k以上。

按行业汇总薪资的平均值,并筛选出岗位数量的TOP 15,不难看出数据分析师在各行各业中的平均薪资也是在8-10k,其中计算机、互联网、金融行业更是超过了11k,也从侧面反映出这几个行业近几年的热门程度。

小结:从以上两点可以看出,要想从事数据分析师这一岗位,且追求高薪资的话,最好还是去北上深等超一线城市的计算机、互联网、金融等行业。

数据分析岗位对于学历和资历的要求如何

使用数据透视表筛选学历和资历两个字段并计数,可以看出学历要求主要集中在本科和大专,而资历要求集中在1-4年和应届生。

不同学历、不同资历人才需求对比

将数据透视表的值字段显示方式更改为显示列汇总的百分比,可以发现一个规律:对于本科和大专,工作经验越长,本科的需求逐渐大于大专。

本科与大专在资历上的差异对比

小结:从学历方面而言,数据分析师岗位的要求不是很高,门槛相对较低;从资历方面来说,1-4年工作经验和应届生比较集中,对于想转行的人而言有一定难度。

目前数据分析岗位主要集中在哪些行业,发展前景如何

汇总行业字段并计数,绘制各行业所占数量百分比的饼图

其中互联网和计算机行业两大巨头占比超过了三分之一,反映出这两个行业近年来的火热程度,而随着越来越多的行业开始重视数据,因此数据分析也逐渐渗透到各行各业中,但整体差距不大。未来数据分析还是主要集中在互联网、计算机行业,其他行业虽然也会有这一岗位,但需求量有限。

不同规模的公司对于数据分析人员的需求如何

筛选字段公司规模,汇总数量及其占比,绘制条形折线图

不同规模的公司对于数据分析人才需求是存在差异的,规模越大的公司需求量越少,规模较小的公司需求量反而越大。这可能是因为大公司制度成熟,员工体系、组织架构相对比较完善,因此对于这一岗位的需求不是很大;而小公司可能处于创业初期或发展中期,内部体系相对不完善,人才稀缺,又或者处于转型期,因此需求量较大。

4.报表制作

使用Power BI制作报表,从多维度展示不同城市数据分析师岗位的情况

数据筛选与导入

由于原数据中城市数量太多且部分城市岗位数量太少,从普遍性角度考虑,筛选岗位数量前20的城市进行报表制作。直接在Excel中对原始数据进行筛选,之后导入Power BI。

报表制作

用到的可视化工具主要有:

①切片器:用来选择不同城市,从而对比不同城市各指标的差异

②卡片图:用于展示平均薪资、岗位数量等指标的数值

③仪表盘:用于展示一个城市中数据分析岗位薪资的平均值与薪资的最大、最小值对比

④饼图:用于展示学历、资历占比情况

⑤条形图:展示不同规模公司岗位需求数量差异对比

⑥百分比堆积条形图:不同类别公司对于学历需求占比差异对比

⑦树状图:不同行业岗位数量对比

报表展示

在切片器中选择不同城市即可呈现出该城市数据分析师岗位的平均薪资、岗位数量、学历占比、资历占比、公司规模数量、行业岗位数量等信息,各图表之间实现了动态联动,实时地展示出各项指标信息。

5.总结与建议

综上,从薪资水平、城市差异、学历、资历、公司规模、公司类型等维度对数据分析师这一岗位进行分析,主要有以下结论:

数据分析师的平均薪资在8-10k,除北上深等超一线城市薪资较高,在11k以上之外,其他城市薪资差距不大。数据分析师对于学历的要求不是很高,主要集中在大专和本科;而对于资历主要集中在1-4年工作经验以及应届生。互联网、计算机行业是数据分析师岗位的热门行业,占据了超过三成的比例,而这两个行业的平均薪资也是最高的。大公司与小公司对数据分析师的需求存在明显差异:大公司制度、体系相对完善,对数据分析师的需求量较小;而小公司可能处于转型期或创业期,人才较为缺乏,因此需求量较大。

针对以上结论,对想要从事数据分析师这一工作的人提几点建议,仅供参考:

如果追求高薪资,就去北上深等超一线城市的互联网、计算机等行业;如果考虑到超一线城市生活压力太大的话,那就考虑其他城市,如杭州、苏州等。数据分析师对于学历的门槛较低,但要求有至少一年的工作经验(除非你是应届生),这对于想要转行的小伙伴来说有一定难度。大公司对于数据分析师的需求量较少,对于想要进大厂的小伙伴而言可能难度较大;而小公司数据分析人才需求量大,想要提升自身技能或许去小公司也是不错的选择。

搜索