新闻中心
《深入浅出数据分析》--数据分析工具(浅析数据分析方法及其优缺点)
这篇主要是总结下《深入浅出统计学》相关数据分析工具。篇幅较大,字数5000上下。
一、
分析工具:试验和检验
案例:星巴仕咖啡提升销量、提升销量后多赚了多少
关键词:比较法、观察研究法、控制组、随机选择相似组
1.
one.调查问卷是试验的一个重要步骤,可以获得客人对产品的关注或建议等等的相关信息。
two.观察研究法是被研究的人自定决定自己属于哪个群体的一个研究方法。它的实施方式就是调查问卷。通过调差问卷搜集观察数据可以获得有用的数据信息。
three.观察研究法带有各种混杂因素,混杂因素就是研究对象个体的差异,但这并不是我们进行比较的因素。数据分析的一个核心就是对比比较,经常会遇到这个词,需要牢记。
four.为了控制观察研究的混杂因素,一般需要把数据拆分为更小的数据,因为小数据块具有同质性,从而不包含影响分析结果的内部偏差。
该案例中,一个关键的混杂因素就是店址,富人区所在店址,销量基本稳定,因为富人区受到经济动荡的影响比较小;而其他地方由于经济膨胀,导致购买力下降,没有物有所值的感觉,导致销量下降。如何提升销量呢?
从分析来看,要么是降价,但这默认了产品没有物有所值,同时富人区其实受到经济影响不大,对富人区店址降价的话可能会有损收益;要么是对产品宣传,说明物有所值。这需要进行一次实验检验。
2.
one.实验中应有控制组和实验组,以此进行对比比较。
two.用随机选择相似组方法选择分组,避免混杂因素。对象随机分配到各组后,可能是混杂因素的那些因素在控制组和实验组中具有同票同权,从而组之间非常相似,具有了可比性。
tnree.随机控制试验最大限度接近了“证明因果关系”这个核心。
有了调查问卷这个前提,就可以有序进行试验,为了避免混杂因素,使用随机选择相似组方法,避免了如店址这样的因素影响分析结果。实验中所有店铺随机分为三组,一种控制组,什么都不变;一组实验组,降低价格,其他不变;另一实验组,进行宣传,其他不变。一段时间后,对比实验数据,即可证明那种方法有效,又计算出了提升多少销量。
二、
分析工具:最优化
案例:浴盆宝公司产品组合提高销量
关键词:决策变量、约束条件、最优化模型
1.
one.将决策变量、约束条件及希望最大化的目标合并成一个目标函数,可以帮助找出最优化结果,来解决最优化问题。
two.c1x1+c2x2=P,每个c表示一个约束条件,每个x表示一个决策变量,P表示期望最大化的对象。
three.由约束线围成的空间即是可行区域,约束条件变化,可行区域就会变化,通过可行局域找出最优点。
2.
one.按照分析目标矫正假设。模型中应加入人的因素,最优化模型才会生效。
two.提防负相关变量,创建模型时务必规定假设中的各种变量的相互关系。
案例中,鸭跟鱼的数量组合找到最大化,可实现利润最高,但事实并非如此。因为根据市场行情,鸭跟鱼的数量都不会超过一定数量,应该把这种人为形成的因素加入模型中,最后的结果可能不是利润最大化,但却是与实际情况不谋而合的最优化。
三、
分析工具:图形(散点图)
案例:在线服装零售商“新军队”优化网页风格以提高销量
关键词:散点图、图形多元化
one.图形应该体现数据,创建数据图形是为了促使客户谨慎思考制定正确决策。
two.数据图形化的根本在于正确比较。实际上数据分析的一个重要核心就是比较。
three.散点图是探索性数据分析的工具,一变量影响着另一个变量,用于发现因果关系。
four.图形多元化,多张相似的散点图相邻排放,易于比较。
案例中,不同的网页风格有不同的点击量和销售量,哪一种是最有利于提高销量呢?通过一张散点图分析最优点,多张散点图分析最优风格。重点在于散点图的灵活应用。
四、
分析工具:检验假设
案例:预测podphone手机厂商是否推新款,便以手机皮肤制造商抢先占市场
关键词:假设检验、证伪、诊断证据
one.实际场景中的各种关系呈现网络关系,而非单纯的线性关系。
two.用手头已得到的资料信息进行多个假设,再对假设进行检验。假设检验的核心是证伪,只需要剔除无法证实的假设。假设检验要使用证伪法,避免满意法。
three.剔除无法证实的假设后,经常情况还会剩下多个假设,此时需对假设进行排列。已得到的信息证据只要能够帮助按照强弱程度对对假设进行排解,那么它就具有了诊断性。评估所考虑的假设的相对强度,排序假设,看看那个假设具有最强的证据支持。
four.重点是识别和找出诊断证据,因为非诊断证据不会带来任何进展。
案例中,假设手机厂商在明天、一个月、半年、一年内推出新机或者不推出新机这五个假设,先剔除无法证实的假设,再根据实际场景提供的证据进行评估排序,得出具有最强证据支持的一个假设,就是该案例的决策。
五、
分析工具:贝叶斯统计
案例:蜥蜴流感诊断的准确性
关键词:条件概率、事前概率、贝叶斯统计
one.被误诊为阳性的情况称为假阳性;患有疾病但检验结果为阴性称为真阴性。条件概率,即以一件事的发生为前提的另一件事的发生概率。真阳性=1-假阴性:P(+|L)=1-P(-|L);假阳性=1-真阴性:P(+|~L)=1-P(-|~L)。
two.事前概率又称基础概率,在根据试验结果单独分析前就已经知道的概率。应重视基础概率,否则会做出错误决策。
three.贝叶斯规则处理基础概率。可用基础概率和条件概率去估计新的条件概率。P(L|+)=[P(L)P(+|L)]/[P(L)P(+|L)+P(-)P(+|~L)]。
four.贝叶斯规则提供了把信息整合到分析中的精确方法,可以反复利用,逐渐增加新信息。
fine.新信息的出现会改变基础概率,因此必须把基础概率整合到实际分析中。
案例中,已知全球统计出患有蜥蜴感染为1%,这就是基础概率。通过简单的检测,得出本人患病概率为9%,这个其实本人的基础概率已经发生了变化,不能再用1%来描述本人。后续进行更精确的检测时,基础概率为9%。从而可以看出基础概率的重要性,不然谬论百出。
六、
分析工具:主观概率(将信念数据化)
案例:背水投资公司问题
关键词:主观概率、标准偏差
one.主观概率表示自身对某事的确认程度,是根据规律进行分析的巧妙方法。
two.标准偏差量度的是典型的分析点与数据集平均值的差距,单位取决于测量单位。
three.贝叶斯规则可用于修正主观概率,根本在于找出在假设成立的条件下,证明出现的概率。
four.P(H|E)=[P(H)P(E|H)]/[P(H)P(E|H)+P(~H)P(E|~H)],H(hypothesis)代表假设(或基本概率),E(evidence)代表新证据。
案例中,主观概率就是分析师们自己的观点,在通过让他们把自己的观点概率化,转化为数据,用标准偏差来分析哪个观点最接近实际。已知的相关信息就是基础概率,决策有误差时,加上新的证据信息,可通过贝叶斯规则修正。
七、
分析工具:启发法
案例:政府根据非盈利团体对环境做的贡献来决定是否资助
关键词:启发法、快省树
one.启发法是解决问题的方法,可能会得出正确答案,但不保证得出最优化答案。选取一些变量,根据这些变量对整个系统作出结论,据此来评价事件的成效。
two.启发法是直觉走向最优化的桥梁。直觉看到的是一个选项,启发法看到的是多个选项,最优化得出的是全部选项。
three.快省树是描述启发法的图形,快是指过程费时不多,省是指无需大量认知资源。
four.固定模式都具有启发性,但很多情况下,固定模式会做出欠缺推理的理论,继而做出不恰当的判断。
案例中,对于垃圾的量度,有多个变量,难以把握,同时很费钱费时。因此选出一两个变量来进行决策。对于不乱扔垃圾现象,第一个变量就可以是公众,如果公众意识提高,说明乱扔垃圾是少了;但是这个是不是非盈利团体作出的贡献呢,继而对环卫工人作出调查,因为环卫工人是处理垃圾的第一人,他们对于垃圾是否有减少有着第一感觉。虽然这两个现象并不能直接说明是团体的成果,但是有理由相信是团体的活动造就这样的结果。
八、
分析工具:直方图
案例:处理以往加薪记录数据表,据此来要求加薪
关键词:直方图、R语言
主要是对数据进行图形化,转化为直方图,直方图体现中间值、均值与标准偏差,可以形成对数据的感觉;通过观察形成的直方图,可以了解到大部分的加薪在哪个区间。
可利用R语言来绘制直方图。
九、
分析工具:回归线分析
案例:分析加薪数据,争取替别人获得对应的加薪
关键词:平均值图、回归线、相关系数
one.平均值图是一种散点图,显示出了X轴上的每个区间相对应的Y轴数值。使用平均值图能预测每个区间内的数值
two.回归线是最准确贯穿平均值图中的各个点的直线,表示回归线的等式可以预测某个范围内X变量对应的Y变量。
three.相关性是两种变量之间的线性关系,相关性可强可弱,用相关系数r量度,0表示无相关性,±1表示两个变量完全相关。
four.计算相关系数:a.标准单位表示每个数值与平均值的标准偏差;将各个数值转变为标准单位。b.各个数对(实际与要求的数值)相乘。c.所有结果求平均值。
案例中,通过回归线可以预测数值范围的要求加薪对应实际加薪。对于散点图和回归线可用R语言来绘制。
十、
分析工具:合理误差
案例:加薪算法误差较大,减少误差
关键词:外插法、残差、均方根误差、分区模型
one.外插法:用回归方程预测数据范围以外的数值;内插法是在范围内进行预测。使用外插法需要指定附加假设条件。
two.机会误差:即残差,指的是实际结果与预测结果之间的偏差。由于机会误差的存在,实际结果可能会不同于预测结果。
three. 均方根误差:定量表示残差分布,又称为 σ或残差标准差;σy*√(1-r^2),σy是y的标准差,r是相关系数。均方根误差描述的是回归线周围的分布情况;标准偏差描述的是平均值周围的分布情况。误差区间沿着回归线分布,回归线上下误差区间宽度应该等于同一个均方根误差。
four.数据分拆为几个组称为分割,分割的根本目的是管理误差。分割为几个区间,分别创建对应的回归线,建立分区模型。
fine.回归分析应该兼具解释功能和预测功能。
回归线进行预测,与要求结果会出现误差,出现这个问题的原因有两个,一个是预测数值在范围之外,无法预测;另一个就是实际结果与预测结果必然存在的残差,但是残差可以定量化,给出一个区间。不同区间的残差可能相差较大,为了更好管理误差,减小对于的误差,将区间分割为几部分,每一部分进行一个回归分析,给出结果区间。

到此统计了是个数据分析工具:试验与检验、最优化、散点图、假设检验、贝叶斯统计、主观概率、启发法、直方图、回归分析与合理误差。后面两章主要是结合R语言来讲述整理数据和相关数据库,这个涉及了SQL知识,后面再学习。实际场景中肯定不止这些方法,而且加上灵活运用结合,方法千方百计,重要的是面对实际业务场景,知道用哪个方法如何去解决,这个无疑是一大难关。太晚了,明天再对十个方法做一个简单的小总结。