新闻中心

属性数据分析 | 第二章-列联表-02-优势比(列联表分析的优缺点)

2023-11-22
浏览次数:
返回列表

优势比是 2×22\times2 列联表中对关联性的另一种度量,也是针对属性数据的最重要模型中的参数。这节主要介绍了优势比的定义、性质、推断、与相对风险的关系以及相关的应用。

定义及与相对风险的联系

优势(odds): 对于成功的概率π\pi ,成功的优势定义为 odds=π/(1−π)odds=\pi /(1-\pi)

优势是一个非负的实数,当它大于1的时候,表明成功比失败的该概率大。倘若我们的 π\pi等于0.750.75 ,那么成功的优势为 33 ,这表示成功的可能性是失败的 33 倍。于是我们预期每出现1次失败就会有 33 次成功。如果优势比为 1/31/3 ,那么这代表着失败的可能性是成功的 33 倍,我们预期每出现 33 次失败就会有 11 次成功。当然,成功的概率 π\pi 也可以写成优势的函数,即 π=odds/(1+odds)\pi=odds/(1+odds)

优势比 (odds ratio):在 2×22\times2表中,第11 行成功的优势为 odds1=π1/(1−π1)odds_1=\pi_1/(1-\pi_1) ,第 22 行成功的优势为 odds2=π2/(1−π2)odds_2=\pi_2/(1-\pi_2)。优势比为θ=odds1odds2\theta=\frac{odds_1}{odds_2} 回忆我们的相对风险 relativerelative riskrisk π1π2\frac{\pi_1}{\pi_2},它表示的是两个概率的比值,而优势比表示的是两个优势的比值。而且,优势比还可以写成θ=relative\theta=relative risk1−π21−π1risk\frac{1-\pi_2}{1-\pi_1} 。一般来说,我们得到优势比 θ\theta 后并不能直接说 π1\pi_1π2\pi_2θ\theta 倍,但是,当我们的 π1,π2\pi_1,\pi_2 都接近 00 的时候, 1−π21−π1\frac{1-\pi_2}{1-\pi_1} 这一项接近 11,这时优势比与相对风险取值相近,我们就可以用优势比去估计相对风险了。对于有些数据集,我们不能够直接计算它的相对风险,但是我们可以计算它的优势比并且作为相对风险的近似。

性质

1 优势比是非负的,它可以等于任何非负的实数。当 XXYY 是独立的时候, odds1=odds2odds_1=odds_2 ,从而 θ=1\theta=1 。当 1">θ>1\theta>1 的时候,说明第 11 行中成功的优势比更大,也就是第 11 行的试验比第 22 行更容易成功。当 图源 An Introduction of Categorical Analysis

这个表的第一列是5年前因为急性心肌梗死进入30个冠心病治疗中心的262名青年女性或者中年女性 (MI cases);每一位病人都对照了两位因为其他的疾病(非心肌梗死)而进入同一医院的对照病人 (Controls),记录在第二列。所有的病人都按照其曾经是否吸烟来划分(Ever Smoker)。

这里,我们认为MI为响应变量,吸烟状态为解释变量。但是,由于这里设计了对照实验,给定吸烟状态去计算MI的条件概率就失去了意义。

我们希望比较的,是曾经吸烟者与不吸烟者发生MI的比例的差异,可是由于控制实验我们估计不出来概率,从而也无法比较差异。但是,我们能够计算优势比——基于性质4!

于是,我们采用的方法,是从相反的途径来估计比例——利用每个确定的响应水平(这里为MI状态)构造解释变量(这里为是否吸烟)的条件分布,相当于把表格转置了一下。我们可以计算出当给定心肌梗死状态时,计算吸烟的条件分布:对于发生MI的女性,曾经吸烟者的比例为172/262=0.656172/262=0.656 (相当于 π1\pi_1 ),没有发生MI的女性,比例为 173/519=0.333173/519=0.333 (相当于 π2\pi_2),从而利用这些来计算我们的优势比。于是,样本的优势比很容易得出为3.823.82

对于 3.823.82 的解释,我们可以把它当成是相对风险的一个粗略估计,于是我们可以说,估计吸烟妇女发生MI的可能性约为不吸烟妇女的 44 倍。

总而言之,我们把一个原本按行作为二项样本分析的问题,转化成了按列当做二项样本分析的问题。

搜索