新闻中心

2020 年算法 / 数据分析面试数学考点梳理(4)(数据分析面试测试题)

2023-05-29
浏览次数:
返回列表

区间估计和假设检验是数据分析工作中常用的统计方法,自然也是各大厂数据分析师岗位笔试面试常考的重点。对于算法工程师来说,了解这些经典的统计学方法在工作中也很可能派上用场。在之前的文章 2020 年算法 / 数据分析面试数学考点梳理(2)

我们已经介绍过这一专题的部分内容,本文将对几道常考的面试题进行剖析,对这部分内容做一些补充。

浅谈区间估计和假设检验的区别

区间估计和假设检验最重要的区别是:区间估计是根据样本估计总体特征而假设检验则利用了小概率事件原理

知识点 1:小概率事件原理

小概率事件在一次试验中基本上不会发生。

知识点 2:假设检验基本思路

假设检验采用了反证法的思想,其思路是先对总体特征做出一个假设(比如总体的均值 = 3.5),再验证该假设是否有足够的证据成立,或者说,我们是否有充足的信心否定该假设。还是以均值为例,我们可以计算出样本的均值(比如样本均值为 10000),再判断在假设总体均值为 3.5 的情况下,一次抽样(样本数量充足)得到样本均值为 10000 的可能性有多大。在这个例子中,这种可能性是非常非常小的,因此我们有足够的信心否定之前做出的总体均值为 3.5 的假设。事实上,总体均值很可能是大于 3.5 的。

当然,上一段只是做一个举例,具体的假设检验步骤还需经过严谨的数学计算。

知识点 3:原假设和备择假设

在假设检验中,除了先做出一个我们认为对的假设(在上例中是假设总体均值 = 3.5)之外,我们往往还需设立一个与之相对立的假设。这个假设可以是总体均值 > 3.5,总体均值 ≠ 3.5 等等。我们管这个假设叫做备择假设(H1),原先认定为真的假设叫做原假设 (H0)。

原假设往往是总体统计量 = 某个数值。备择假设可以是总体统计量 >、< 或者 ≠ 该数值,具体要根据实际问题选取。

知识点 4:参数估计的分类

参数估计是指在总体未知的情况下,使用样本估计总体的方法。参数估计可以分为点估计和区间估计,点估计是估计一个具体的数值(估计量),区间估计则是给出一个估计量可能出现的范围。

点估计的缺点是无法衡量估计的准确性,而区间估计则给定了一个区间范围,我们可以说有多少信心总体数据会出现在该范围内。

简述假设检验的流程

确立原假设和备择假设构造检验统计量(在这一步中,要根据数据特征确立检验方法)计算统计量的具体值确定显著性水平和拒绝域验证统计量的值是否落入拒绝域,若落入拒绝域,则拒绝原假设,否之接受原假设

什么时候用 T 检验,什么时候用 Z 检验

在上一题中的步骤二里,我们需要根据数据特征确立检验方法。在假设检验里,我们通常需要样本数据服从以下假设:

简单随机抽样(确保样本数据的独立性)足够大的采样(根据中心极限定理,确保样本数据服从正态分布)

当然,在极少数情况下,我们可以确信样本服从正态分布,则条件 2 可以适当放宽。

首先,T 检验和 Z 检验在样本数据服从正态分布的前提下才能使用,二者最重要的区别是:如果总体标准差已知就使用 Z 检验,如果总体标准差未知则用 T 检验。

关于这部分内容更详细的解释,你可以参考 2020 年算法 / 数据分析面试数学考点梳理(2)。本文在这一题的标准答案下进行一个补充说明

为什么要使用 T 检验

在进行假设检验的时候,如果总体方差 / 标准差未知,在符合正态总体的前提下,我们可以通过样本的标准差来估计整体的标准差,在这种情况下,使用 T 分布计算统计量是更为精准的。如果从图像的角度观察,T 分布的「尾巴」相较正态分布更长,也就是说,T 分布有更强的容错率。

假设检验的实际应用

我们以一个实际问题来具体说明假设检验的实际用法和计算步骤:在 2017 年,某地区父母为汽车加装婴儿座椅的概率为 0.52,在今年,我们想要验证这一概率是否上涨?

步骤一:确立原假设和备择假设

很显然,在这一问题中我们设立原假设 H0 为概率没有上涨,即 P = 0.52

那么与之相对应的,H1 为概率上涨,即 P > 0.52,这是一个单边假设

步骤二:构造检验统计量

现在我们通过在今年进行简单独立抽样,在各个样本均匀充分的情况下,得到若干家长中安装婴儿座椅的概率为 0.56。

​在这一问题中,我们可以认为:假如进行多次抽样,父母为汽车加装婴儿座椅的统计量是符合正态分布的。假设统计量为 Phat,那么:

其中 P 为我们假设的概率 0.52,方差 = P*(1-P),N为抽样数据量。

以上这部分内容为概率论基础知识,在此不做过多介绍。

通过以上分析可知,在这一问题中,样本统计量服从正态分布,方差已知,则使用 Z 检验。

步骤三:计算统计量

根据公式:

得到统计量为 2.555

这一统计量可以解释为样本估算出的概率值和我们假设成立的概率值之间相隔了 2.555 个标准差

步骤四、五:设立区间并验证

设立置信区间为 95%。

在标准正态分布下,我们可以发现,大于 2.555 个标准差的图像面积,即在原假设为真的情况下,我们观测到的结果或更极端情况发生的可能性约为 0.0053。

其实我们上面描述的即为 P 值的定义,即 P value = 0.0053

显然 P value << 我们设立的置信值 0.05

即在原假设为真的情况下,我们得到的 0.56 发生的概率非常小,于是得到结论:拒绝原假设。

本文补充介绍了假设检验部分的知识,并辅以实际案例。对于数据分析工作的面试,文章中的知识点已经能够涵盖大部分情况了。假设检验用到了许多概率论和数理统计的大学知识,如果要真正深入理解这一内容,还需要拥有良好的基础和对分布图像的直观理解。另外,面试中还可能出现卡法检验和 F-test 的相关问题,这一类题目均是假设检验问题的延展,文章中不再过多介绍,有任何问题都可以在评论区留言。

本文作者:宫业奇

声明:本文归 “力扣” 版权所有,如需转载请联系。文章封面图来源于网络,为非商业用途使用,如有侵权联系删除。

搜索