新闻中心
《深入浅出数据分析》简单整理(深入浅出数据分析读书笔记)
《深入浅出数据分析》这本书是了解数据分析的基础入门。下面是我对这本书的一个简单整理。可能比较粗糙,可以多多建议哦。
这本书每章都以一个案例来阐述数据分析师如何依靠数据分析能力来解决问题,过程和方法,以不同的思考模式,简洁明了的方式直接戳击问题的本质,一步步带你去思考,去解决问题。
一.数据分析引言——分解数据
1.数据分析就是要仔细的推敲数据,有固定基本流程

2.心智模型:你对外界的假设和你确信的观点就是你的心智模型。
务必尽量明确心智模型,统计模型取决于心智模型。
二、实验——检验你的理论
比较法:是统计与分析最基本的原理之一,指出数据只有通过相互比较才会有意义。比较是破解观察数据的法宝观察分析法:充满混杂因素(混杂因素就是研究对象的个人差异,它们不是你试图进行比较的因素,最终会导致分析结果的敏感度变差。)。为了控制观察研究混杂因素,拆分数据块,管理混杂因素;三、最优化——寻找最大值
(这种方法可用于处理类似在一定条件的限制下,如何得出最值的问题)
决策变量是你能控制的变量,你能控制的变量受到约束条件的限制。如何处理约束条件与决策变量是运用数据分析要考虑的问题。即最优化问题。任何最优化问题都有一些约束条件和一个目标函数。在同一张图形里绘制多种约束条件,合理的选择出现在可行域里,找出最优点。加入假设条件,让模型最优化产生效果。四、数据图形化——图形让你更精明
体现数据,用数据思考数据图形化的根本在于正确比较散点图是探索性数据分析的奇妙工具。用散点图发现因果关系,即一个变量影响着另一个变量的关系。最优秀的图形是多元图形。如果一个图形能对三个以上变量进行比较,这张图形就是多元图形。五、假设检验——假设并非如此
假设检验就是建设集中可能的情况,依靠手中的数据做出预判,选出最合理的选择。建设检验的核心是证伪。即剔除无法证实的假设。别用满意法。剔除一部分假设后,剩下的假设可以借助诊断性进行检测。诊断性就是证据说具有的一种功能,能够帮助你评估所考虑的似然。借助诊断性找出否定性最小的假设。这个办法无法一一剔除所有假设,但可以判断哪个假设最强。六、贝叶斯统计——穿越第一关
贝叶斯规则是一个重要的数据分析工具,它提供了一种把新信息整合到分析中的精确方法。计算某条件下某种情况的概率=某情况的概率/(某情况下某条件发生的概率+情况不成立条件下某情况发生的概率)七、主观概率——信念数字化
主观概率体现的对某种情况的一个数字化估计。描述数据之间差异性的强弱可以采用标准偏差法,标准偏差法量度分析点与平均值的偏差。它的单位取决于测量单位。贝叶斯规则是修正主观概率的好办法。找出在假设成立的条件下,证据出现的概率。八、启发法——凭人类的天性做分析
启发法是从直觉走向最优化的桥梁,大多数思维活动都是启发式的。固定模式都是具有启发性的。它是一种解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。九、直方图——数字的形状
直方图体现每组数据的发生频数。直方图是一种功能强大的图形,无论数据集多庞大,直方图都能显示出数据点在数值范围内的分布情况。十、回归——预测
用散点图比较两种变量回归线就是最准确的贯穿平均值图中各个点的直线。回归线可以用简单的等式来表达,通过该等式可以预测某个范围内的x变量对应的y变量。y=ax+b十一、误差——合理误差
用回归方程预测数据范围以外的数值称为外插法。对于回归方程,要注意使用外插法的警示。机会误差=实际结果与模型预测结果之间的偏差。标准偏差描述的是平均值周围的情况,均方根误差描述的是回归线周围的分布情况。回归线上下的误差区间宽度应该等于同一个均方根误差。对于一个图形中密集成都不一的地方,可以采用多条回归线(即分区模型)减小误差。优秀的回归线分析兼具解释功能和预测功能。十二、关系数据库——你能关联吗
数据库就是一系列相互有特定关系的数据。找到一条贯穿各种关系的路线,以便进行必要的比较。用关系数据库管理关系,是最重要最有效的数据管理方法之一。十三、整理数据——井然有序
清理混乱数据的根本在于准备