新闻中心

深入浅出数据分析笔记(深入浅出数据分析在线阅读)

2023-04-27
浏览次数:
返回列表
数据分析引言:分解数据实验:检验你的理论最优化:寻找最大值数据图形化:图形让你更精明假设检验:假设并非如此贝叶斯统计:穿越第一关主观概率:信念数字化启发法:凭人类的天性做分析直方图:数字的形状回归:预测误差:合理误差关系数据库:你能关联吗整理数据:井然有序尾声:十大知识点--统计知识大全,Excel技巧,图形原则,数据透视表,R社区,非线性与多元回归,原假设-备择假设检验,随机性,GoogleDocs,你的专业技能

正式开始看之前,先要知道

What should I do and why?认清问题,解决问题数据分析就是为了解决现实工作中的难题。比如小的方面为什么突然客流量少了,为什么很多用户变得不活跃了,到大的方面,企业未来的发展方向,行业的发展方向等企业决策。所以需要分解复杂问题,处理数据让数据说话What tools should I use?如果要实现以上,肯定有一套方法论,这个也就是书中会涉及到的。抽象到整个的流程,具体到如何处理数据,如何分析数据,展现数据,用excel还是python等Further tips and issues前人的经验之谈

1. 分解数据

Thinking:对于每一次分析,需要思考到底要解决什么问题,达到什么目的。

比如销量数据,那肯定是要减少成本,扩大收益

固定的基本流程:

确定问题-》分解问题和数据-》评估分析(对前两步了解到的情况做出结论)-》决策

Step1: 确定问题

大多数情况下,会被提出一些具体的问题进行分析。

极少数情况下问题并不清晰,这时候就需要找一些可能进行评估的点子,即常说的探索性数据分析--找到一些值得进行测试的假设条件。

ex. 销量数据

"那肯定是要减少成本,扩大收益" 仅仅把这个当作确定的问题远远不够。需要更具体,可以通过询问问题提出人,希望销量提高多少,您觉得我们怎样才能办到,销量提高多少是可行的,目标销量是否合理,竞争对手销量如何,广告额网络营销预算是怎么回事等问题来确定

优秀的数据分析师:

帮助客户思考自己的问题,他们不会等着客户告诉他们该做什么能够改善他们的业务

Step2: 分解

将大问题划分为小问题如何提高销量-》哪种促销方式可能产生效果;广告做的效果如何;客户希望我们提供什么将数据分解为更小的组块如果拿到的不是汇总情况,需要进行汇总

通过了解到的情况,分解最重要因子的最好的起步办法是找出高效的比较因子。通过比较可以了解业务是如何开展的。了解后,可按哪些是客户确信无疑的观点,实际数据又是如何来列一张表。

有效的比较是数据分析的核心

Step3. 评估组块

做出自己的明确假设

一定要明确不确定的因素!

Step4. 提出建议

必须将分析形成报表供制定决策

报告中基本包含:背景,数据解说,建议

要让客户详细的浏览你的思考过程,即如何得出这个结论

Q:何时停止搜集数据?

2. 实验:检验你的理论

核心:数据只有通过相互比较才有意义

经验法则:当你开始怀疑因果关系的走向时(性价比感受下降导致销量下降),请进行反向思考(销量下降导致性价比感受下降)

基础的研究法:观察研究法。通过数据间的比较,得出初步结论

downside:混杂因素(研究个体之间的差异)并不是试图比较的因素,但会由于他们的差异导致分析结果的敏感度变差。简单来说就是,general的结论并不适用于每一个人。

-> 1. 当研究分析得到了比较好的结果,也不能说明这个结果就适用于所有人

-> 2. 当研究分析时看不到明显的趋势变化,得不到好的结论时,有可能是混杂因素的存在中和了特性,可以考虑将因素细分

ex. 想研究销量变差的原因,调查问卷的结论是经济环境不好导致的性价比感受下降。但是主要销售群体是富人,调查问卷的群体却是所有人,结论不太能代表一般性。可以考虑店址进行细分,也即是店址是一个混杂因素。

KEY:理清混杂因素。他有可能难以发现,需要发掘隐藏因素

观察研究法并不十分适用于因果关系判定,需要其他工具

Q:比如?

设计实验时,已经要设置control group,控制组或对照组,这样才能进行比较。正如AB test中的control group一样。

3. 最优化:寻找最大值

Thinking:在进行决策分析的时候

-> 1. 哪些是可控的,哪些是不可控的

-> 2. 可控的因素中,有哪些约束条件

恍然大悟:

关于“假说“,之前一直认为假说是我假设这个问题的原因是这样,然后分析数据验证下我的假说是否是正确的。所以我一直很困惑为什么flow是“问题-》假说-》分析-》结论并验证”,没有分析怎么来提出问题的原因假说。实际上我把“假说”理解的片面了。

假说可以分为两种:

1. 需要验证的假说,即经过分析后得出的结论。但这种结论是未经过验证的,所以他只能说是一种假说

2. 在分析之前所假定的一些前提条件。从数据中可以发掘出信息,但是数据并不能提供全部的信息,需要结合数据产生的context来综合分析,其中会有很多的不确定的因素,约束条件等,那么为了产生1中的结论假说,就需要对这些不确定的因素进行合理假设。在这些假说前提下,会产生什么样的结论。

=> 如此一来,得出的结论很有可能不正确,有可能是结论本身出现了问题,也有可能是做的假设不合理这也是为什么会出现迭代!

4. 数据图形化:图形让你更精明

图形化的根本在于正确比较

比较有几种类型:

现实和目标预期之间的比较与 control group 之间的比较其他变量相同的情况下,一个变量的不同level之间的比较scatter plot散点图多用于探求因果关系

Edward Tufte 图形化权威

5. 假设检验:假设并非如此

影响结论的往往有大量的不确定因素,即变量。它们之间又会存在某种相关关系。如正相关,负相关。因此可以通过理清变量之间的相关关系来整理思路,建立模型,一目了然。

在做结果假设的时候,往往有很多种,不容易分辨。因此先用证伪法证伪,划掉不可能的假设来缩小范围。若仍有复数的合理假设存在,用具有诊断性的证据来诊断各个假设,看哪个假设具有最强的证据支持。

证伪法多用于处理异质数据源

目前理解:当支持假设的证据来源广,无法定量用概率来进行分析的时候,才使用证伪。若可以定量的分析给出概率,应该就是用下一章的贝叶斯统计

6. 贝叶斯统计:穿越第一关

Keywords:基础概率,试验结果(证据),条件概率

ex. 两个变量,A:检查结果呈阳性,B:患流感

实际上就会有 A|B(真阳性), A|~B(假阳性), ~A|B(假阴性), ~A|~B(真阴性)四种情况

-> 上面每一种情况都会呈现一个概率,而且都是 A在B的条件下呈现的概率,即条件概率

-> 基础概率(先验概率),顾名思义是已知的概率,比如所有人的患病概率

贝叶斯是干什么的?

其实就是在你想算B|A概率的时候,利用基础概率和条件概率,提炼的一个公式。

那么试验结果又是怎么回事?因为你所做的试验结果不是百分百就说明了A,即测出来结果呈阳性,也有可能没患病,所以要算B|A的概率。

注意,当你在第一次试验并算出B|A的概率后,再进行第二次同样或类似试验时,第一次的概率实际就是第二次的基础概率。所以贝叶斯统计是可以通过试验不断地进行,最后得出一个经过一系列试验后的B|A的概率

7. 主观概率:信念数字化

主观概率:关于一件事,每个人都会进行的主观判断。通过自身收集的事实,会给某一个事件发生与否进行一个预判,比如极可能发生,不太可能发生等,但这些字眼太模糊,如果用80%的概率会发生,10%的概率会发生这种主观概率会变得一目了然。关于一件事发生概率的争议点也会缕清。

8. 启发法:凭人类的天性做分析

人类判断思考事情的时候,大部分依赖于直觉。直觉很大程度依赖于经验。而进行经验判断时,是通过发现的几个变量特征而来。由于一件事情的变量或影响因子实在穷举不完,错综复杂,所以可以依赖重要的几个变量来进行判断。

Thinking:数据分析如此,世间事情也是如此。这估计就是一千个读者一千个哈姆雷特,每个人所拥有的经验变量不同,所以分析出来的结论也是不同。但是要记住,变量是无穷的,所以要不断的启发,完善对问题的观察角度。同时在与人交谈时,也可以分析他对问题得出的结论是依据什么变量,什么经验,更好的了解人和事。

9. 直方图:数字的形状

Q:直方图存在缺口,说明那一段没有数据。除非数据值是重复值,或者数据量小于区间,否则说明此现象不正常,需要好好调查。为何不正常?因为是自然分布?

10. 回归:预测

涉及到两个变量就可以考虑用scatter plot展现

11. 误差:合理误差

外插法:预测数据集范围以外的事件。基本上需要以一种假设为前提再来预测。

Thinking:讨论问题时,关注下他是在以假设为前提得出的结论,还是以事实为前提得出的结论。如果是预测,需要看他的假设前提是否合理。

机会误差(残差):实际结果与预测结果之间的偏差

如何减小误差?

如果数据有阶段性特性,可以考虑将数据分组,每一组使用不同的回归模型,计算出均方根误差。但要小心分组过度会出现过拟合的问题。

12. 关系数据库:你能关联吗

13. 整理数据:井然有序

搜索