新闻中心
请分享一下数据分析方面的思路,如何做好数据分析?
小伙伴们是不是遇到过这些问题:拿到业务问题不知道从何下手,面对一堆数据找不到有用的信息,好不容易找到了分析目标却不知道能使用什么分析方法,数据分析之路举步维艰。
这是很多数据分析小白经常会遇到的问题,不过不用太担心,这并不是什么很大的困难。主要原因有三个:第一个,对业务不熟悉;第二个,对分析流程不熟悉;第三个,缺乏数据分析思维。
接下来我会依据这些问题,和小伙伴们讲一讲作为数据分析师的我,之前遇到这些困难时是如何解决的,希望以过来人的身份提供给大家一些帮助。
1、数据分析通用流程
2、具体案例讲解
3、分析思维的提升
一、数据分析通用流程
了解数据分析通用流程,是我们学习数据分析很重要的一步。为什么这样说?大家是不是会遇到以下几个问题:
1、学了一大堆的软件,简单的编程也会了,但是拿到业务的分析需求后,依然不知道应该从哪里下手
2、拿到数据后,分析的方向有很多,每次耗费大量时做了分析却得不到有用的分析结果
3、根据分析结果得到的方案,却无法对解决业务问题做出实质的贡献,但又不知道问题出在哪里
想要解决以上的问题,很关键的一步就是要掌握数据分析流程,在拿到业务后才知道该从哪里下手,明确哪些指标是直接影响或间接影响业务的,而不是拍脑袋做决定,得出有理有据并能解决实际问题的分析方案。这样当某个环节出现了问题,也能顺藤摸瓜,快速找到问题出现的原因。
接下来就和大家分享一个完整的数据分析通用流程是怎样的:
1、确定分析目标——是要增加收入、降低成本、提升效率还是控制风险
2、熟悉业务逻辑——是什么业务事件、负责该业务的主体是谁、该业务的业务目标是什么、涉及的业务环节是什么、有哪些关键的节点
3、熟悉要分析的数据—— 各个数据字段的含义,中英文释义
4、确保数据的准确性、可用性——对重复值、缺失值、异常值和准确性问题的识别、处理
5、描述现状、发现问题——数据呈现的结果、发现的问题
6、诊断问题——判断分析问题出现的原因
7、发现机会、提出解决方案——优化或提升目前问题的方法
二、具体案例讲解
为了帮助大家更清楚如何做好数据分析,理清分析思路,我们用一个具体的案例来讲解,怎么通过数据分析流程来分析业务问题。
案例:你所在的公司经营一家电商网站,近期发现交易额明显下降,作为一名分析人员,你该怎么办?1、确定分析目标
数据分析的起点是问题意识,明确研究问题和目标,是后续拆解研究内容、选择研究方法、结果呈现逻辑的基础。如果一开始就没清晰的目标,最终只能白忙活一场。
通过刚才的描述我们可以得到,我们的分析目标是诊断电商平台销售额下降的原因,寻找提升交易额的方法。
2、熟悉业务逻辑
拿到业务题,有的业务你是不熟悉的,那第二步首先要知道这个业务逻辑是什么?这里你可以咨询业务人员,或者在网上找一下公司的一些公开信息,或者是这个行业的普遍的业务流程。
比如电商网站的业务模式可以分为两类,第一类是像淘宝网站这样的,做平台的电商,用户在上面买东西,有第三方的商户在上面卖东西,把用户和商家匹配起来。
还有一类,像京东、苏宁易购,平台上的东西基本是自营的,把自己的商品卖给用户。
不论是做平台还是自营的电商网站,整个分析逻辑都能按照用户行为方式,获客(拉新)-促活-留存-变现-传播进行分析,这也是我们常说的漏斗分析。
漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。漏斗分析模型已经广泛应用于网站用户行为分析和APP用户行为分析的流量监控、产品目标转化等日常数据运营与数据分析的工作中。比如发现某一次节日促销活动的整体转化率偏低,就可以采用漏斗分析。
漏斗分析的特征:
(1)是分多层、多环节的
(2)各环节是有转化率(或者流失)效应的
(3)环节之间有先后顺序
漏斗分析的计算逻辑:
(1)明确时间范围等筛选条件
(2)确定漏斗的划分阶段及条件
(3)关于漏斗的类型
(4)两个相邻阶段之间的逻辑
(5)漏斗的统计那电商网站的用户行为可以归纳为以下路径
问题经过拆解,就形成了所研究主题的分析思路、分析框架,而经典分析模型则是经过时间检验、实际应用验证的成熟的分析思路。
以下为一些常见的分析模型,小伙伴们也可以在工作中,多多留心收集。
3、熟悉要分析的数据
因为是分析销售额情况,那我们就可以通过分析具体产品的销售数据,下面展示其中一部分数据,一般情况下数据都是成百上千的。
拿到数据后,我们要熟悉每个字段是如何得到的,比如计算公式,每一行记录的事件是什么。
快速熟悉数据的方法:
熟悉数据是为了避免数据理解错误、片面导致的分析结果不准确。
1、数据集描述的事件是什么
数据集记录事件是什么业务场景、主体对象是谁
2、数据集的结构是什么
字段的数量、记录的数量
3、数据集各字段的含义是什
字段描述的内容是什么,指标的取值逻辑是什么,不同取值代表的含义是什么
4、数据集各字段的类型是什么?
定性、定量、定时
4、确保数据的准确性、可用性
确保数据的准确性、可用性,对数据进行质量分析,清洗脏数据,保证我们得到的数据能还原真实的场景。
这里着重讲一下对重复值、缺失值、异常值和准确性问题的识别、处理方法:
定义:
1、重复值:两条记录完全相同或主键相同仅某一个或几个字段数据不同
2、缺失值:数据集中的某个字段或某几个字段缺失—
3、异常值:记泉中的某些值,明显偏离其余的观测值
4、准确性问题:记录数据与真实数据存在差异
重复值的识别方法:
方法一:条件格式显示
选中主键列-条件格式-突出显示单元规则-重复值
方法二: countif函数
=countif (range,criteria)
表示统计range范围内,条件criteria出现的次数
参数range表示条件区域——对单元格进行计数的区域。
参数criteria表示条件——计数的条件,条件的形式可以是数字、表达式或文本。
重复值的处理方法:
第一步:定位重复数据
根据主键的统计结果,在数据集中筛选重复的记录
第二步:确定重复原因
1)数据采集问题导致的重复
2)计算逻辑问题导致的重复
第三步:选择处理方式
1)采集问题导致的重复,确定准确的记录后删除不准确记录
2)计算逻辑问题确定逻辑后重新计算
缺失值的处理方法:
1、出现原因:
1)数据采集时遗漏
2)数据处理时逻辑错误
3)属性不存在
2、识别方式:
按条件筛选维度中的空值:COUNTBLANK(D1:Dn)
3、处理方法:
1)数据采集问题导致的缺失要重新采集
2)计算逻辑问题导致的重新计算
3)无法再次获取的少了确实数据,进行数据填充
4)大量缺失的数据删除该字段
异常值出现原因:
1)正常业务产生的异常值
2)数据采集、计算错误
异常值的识别方法:
1、业务逻辑判断法
根据人们对客观的事实、业务的相关逻辑判断由于外界干扰、录入错误等原因得到不合理的数据,如3米的身高,200岁的年纪,120%的准确率等。
2、统计判别
通过统计事件发生的概率,识别出小概率事件
3、极值法判别
重点关注极值大小
4、箱型图判别
根据数据的分布,计算数据的上下限,通过绘制箱型图识别异常
异常值的处理方法:
1、删除
由于录入错误、采集错误导致的少量异常值可直接删除
2、视为缺失值
将由于录入错误、采集错误导致的少量异常值视为缺失值,进行填充等处理
3、保留异常
对于由于正常业务产生的异常,需要进行保留
准确性问题的识别和处理方法:
1、出现原因
1)对数据的理解有误,字段含义与理解含义不同:
2)指标的统计逻辑差异
3)数据不完整,有缺失或遗漏
2、识别方法
1)分析结果与已知的准确数据进行对比
2)相关人员进行核实
3、解决方案
不断修正逻辑直到获取准确的数据
前面讲过,小伙伴们可能面对一堆数据找不到有用的信息,要想从繁杂的数据中挖出有价值的内容,洞察数据背后隐藏的规律,回答一开始提出的问题,就要懂得使用合适的分析方法对数据进行描述、分析。
根据分析方法的内容,我们可以将常用的数据分析方法分类以下五大类,这里只列举了一部分内容。
我们在实际研究分析中,往往不会单独采用某一种方法,而是会根据研究目的,将不同方法结合使用,以实现对分析问题的深层次理解和解释。
5、描述现状、发现问题
如何描述现状呢?因为现状是记录在数据里面的,我们可以通过数据描述现状,通过指标描述事件发生的结果。我们这个案例的指标就是交易额,通过交易额来看网站交易情况是怎样的。
变化情况如下图所示:
有了指标后,一般都会有一个对指标的评价标准,第一个是跟目标比,这里你可以假设130万是达标,那不达标的月份有1、3、4、7、10月。第二个是按同比和环比比较,会发现10月份销售额相较于9月份有较大的下降。
这样我们就描述出现状,并发现当中出现的问题。
6、诊断问题。
这里我们需要找出问题出现在哪里,根据转化率漏斗,每个节点到下一个节点都会有一个转化率,我们要判断转化率是否异常。
这里就可以通过转化率变化趋势图进行分析。
通过上图可以得出,5-6级转化率出现明显下降,那我们就可以得出出现明显下降的原因是因为,用户在进入付款页面到付款成功两个环节出现了明显下降,那到底是什么原因导致了5-6级转化率的下降呢?
这个时候我们可以得到如下数据,通过分析得出大部分用户在进入付款页到付款成功,流失了很多用户。
发现这个问题后,我们将用户可能影响支付结果的行为特征找了出来,具体分析产生结果的原因。
从而发现付款成功率与网络环境有很强的相关性,网络环境越好,成功率越高。
7、发现机会,提出解决方案。
通过一步步分析,我们可以得出如下结果。
以上就是整个分析流程在解决实际问题当中所体现的作用,最大的作用就是在你分析问题中能够一步一步把你的分析目标定位住以后,无论到达分析目标的路径有多少条,你都能按照目标一步步抽丝剥茧地通过分析框架找到问题所在。
三、分析思维的提升
很多人掌握了大量的数据分析工具和技能,依然做不好数据分析。面对具体的业务问题,我们还是容易两眼一抹黑,单单会工具和技能是不够的,还必须拥有数据分析思维。
数据思维决定了你如何思考问题,如何搭配这些分析方法,如何得出结论,如何确定问题。
下面就带大家一起了解数据分析的四大思维,希望对小伙伴们有所帮助!
1、说事实,而不是观点
数据分析师第一个要训练的思维方式便是:只说事实,不说观点。
事实和观点这两个名词看起来区别很大。但实际上在生活中我们经常会将两者混淆。只有分清楚观点和事实才有继续分析的可能性。因为观点的沟通会出现误差,而事实则不会。
2、用客观标准代替主观判断
单纯只有数据,对业务问题的分析没有什么帮助,毕竟我们得知道这个数据到底带来了哪些业务信息,所以最后事实还是要归纳成“观点”。
想要解读出观点,我们需要先找到一个标准。这样得出的结论全都是客观的。
3、不预设立场
人们总是习惯于通过自己的现存经验和知识去判断未知事物,在数据分析的场景下,我们需要尽可能地找出真实原因。
数据分析部门一般独立于业务部门之外,这样可以确保数据分析师没有业绩压力,分析具有独立性。因为数据分析的独立性,所以最终问题究竟是在产品上、运营上或者市场上,数据分析师不会有明显的偏向,只认客观数据。
好的数据分析师,能够根据客观数据,随时抛弃旧的假设,并建立新的假设。
抛弃固有的思维定式,这是非常反人性的,这也是为什么说数据分析需要专业训练的原因。
4、找出背后的逻辑
数据分析师是需要大量的逻辑思维训练,但我们自己做好还不够,我们的工作必须和业务方沟通,帮助他们解决实际的业务问题。
但是很多业务人员没有考虑清楚就跑来沟通,他们的需求可能充满了逻辑问题,这时我们就需要帮对方理清思路,找出对方表述背后的逻辑。
相信你弄清楚什么是数据分析通用流程,并跟着这个案例一步步拆解下来,对如何做好数据分析已经有初步的认知和了解了。当然,你不可能通过这一篇文章,就完全弄懂数据分析。你需要不断地练习、解决业务问题、锻炼数据分析思维,才能把这些知识变成你的能力。
好啦!本篇重点内容就到此为止啦!如果你觉得这篇回答对你挺有帮助,就点个赞支持一下吧!大家如果还有什么不懂的地方,欢迎在评论区留言,我会根据大家的问题不定时更新文章!关于更多数据分析相关的知识,可以到主页查看,后面也会陆续更新更多实用的干货。