新闻中心

学习“深入浅出数据分析”(深入浅出数据分析读书笔记8000)

2023-04-27
浏览次数:
返回列表

深感数据分析在工作生活中的重要性,该书用很多事例通俗易懂介绍了数据分析的方法。

1)找潜在因素

事情的结果是多个因素综合作用导致,要改变结果需要列举所有这些因素,然后看改变那几个因素会带来期望值。

如果系统是线性系统,各个因素独立影响,则比较容易,否则很难

2)实验组和控制组的设计

为了证明某个因素导致某种结果,需要保证只有该因素变化其他保持不变。

对于ate测试来说,我们一般使用同一批samples去验证,避免sample不同带来的影响。在产线上比较不同lots时,最好有process monitor的测试评估lots之间不同

3)两个变量的散点图是发现各个因素之间关系的直观方法

如果有多个变量都可能影响结果,做多个散点图排列一起看规律

4)证伪法和权重法是判断事情可能结果的分析方法

将所有已知证据罗列下来,将可能的结果罗列下来。先使用证伪法根据已知证据排除不可能的结果选项。然后将余下的可能结果按照已知证据打分,证据可以强支持结果就给正分反之负分,最后根据打分结果排列最优解

5)基本统计量介绍

需要理解均值,中位数,四分位数,众数,方差和标准差的概念。

有了均值和标准差以后,可以将两组数据规格化为均值是0,标准差是1,方便比较。

6)抽样的关键是样本可以表征总体,如此才可以根据样本的统计计算反推出总体特征。

在ate测试时,如果要预测production的参数分布,就不能完全根据skew lot。原因是skew lot是极端情况下产品可能的偏差,3 sigma的fast/slow应该只占1%,因此如果根据skew lot的少量samples的测试结果,分布不一定满足正态,也许需要增加por samples的量。当然在悲观情况下预测的分布没有问题,就不用过多工作

7)需要理解均值,众数,中位数,几何平均数等的概念,这些用于分析数据分布很重要

8) 如何比较不同样本组之间数据的相似程度

对于一组数据比较容易计算均值,方差...etc。但是如果需要比较两组样本数据的统计量,就需要使用T-test的概念了

https://en.wikipedia.org/wiki/Student%27s_t-testen.wikipedia.org/wiki/Student%27s_t-test

可以看看到如果两组样本数据完全一样,Prob>|T|的概率是100%,远远大于置信度5%。

如果两组样本数据差异很大,Prob>|T|的概率是1.49%小于置信度5%,就无法支持两组样本的均值相等的假设。因此两组样本差异明显。

如果比较多组样本之间的区别时,JMP在“FIT Y by X”中提供了多种比较方法去测试。

9)方差计算的注意事项

当用全体数据计算方差的时候,除数是N;当用抽样样本数据计算方差的时候,除数是n-1而不是样本数n。

搜索