新闻中心

数据分析-描述性统计相关知识

2023-05-11
浏览次数:
返回列表

统计学的乐趣

本质:研究数据背后的真相

通过收集数据,分析数据,使数据可视化,从而探寻数据规律,指导生活与工作。

描述性统计

运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动[1]

描述性数据指标

集中趋势指标

平均数:刻画整体数据居中水平

缺点:随异常值不敏感

例子:你的工资被平均了

当加入马云的10亿的收入时,平均值被提高了,显然并不能代表集中趋势,所以平均值对异常数据不敏感。

中位数:排序,中间位置的数值,n=偶数时,取平均;n=奇数时,取中间值。

特点:可避免极端数据,但未完全利用数据信息。

众数:出现频次最多的数值。

特点:可避免极端值,原始数据反应太少。

注:当是或者近似正态分布时,以上三个指标一样;左偏时,平均数<中位数<众数;右偏时,众数<中位数<平均数。

四分位数:所有数值从小到大排序并分成四等份,处于三个分割点位置的数值。

五个数值及四份位距:上界,上四分位数,中位数,下四分位数,下界,四分位距

四分位距:上四分位数Q3与下四分位数Q1之间的距离,(Q3-Q1)。

下界:Q1-1.5(Q3-Q1),以此为界到下四分位数之间最小数值。

下四分位数Q1:第25%的位置数值,位置求法:(n+1)/4

中位数Q2:第50%的位置数值,位置求法:2(n+1)/4

上四分位数Q3:第75%的位置数值,位置求法:3(n+1)/4

上界:Q3+1.5(Q3-Q1),以此为界到上四分位数之间最大数值。

表示方法:箱线图

应用:

比较不同类别数据集整体情况,例如不同城市薪酬分布;不同经验薪酬分布。识别异常值,例如Turkeytest,最小估计:Q1-k(Q3-Q1),最大估计:Q3+k(Q3-Q1)。k=1.5为轻度异常,k=3为极度异常。

箱体解读:

当存在特别大和特别小的异常值时,这种离群表现导致箱体压扁。箱体代表50%的数据值范围。中位数与哪一端的四分位数距离近,数据就集中在那一端。例如上图中中位数为5,接近下四分位数2,所以数据集中在中位数与下四分位数之间。

2. 变异程度指标

方差:代表所有数据的变异程度

公式:如下图思维导图

标准差:方差的正平方根

公式:如下图的思维导图

缺点:数据差别比较大时,无法比较

例子:球员的稳定性比较

z-分数(标准分):观测值距平均值z个标准差

公式:如下图中思维导图

例子:利用6西格玛进行质量管理

如果管理标准是距离平均值3个标准差的算合格。就是每百万件抽样中,合格产品数量=100万 * 99.7%(在正态分布中,有99.7%的数值在3个标准差范围之内)约等于 99.7万个合格的,不合格的=100万-99.7万合格的=0.3万。

如果管理标准是距离平均值6个标准差的算合格。就是每百万件抽样中,合格产品数量=100万 * 99.99966%(在正态分布中,有99.99966%的数值在6个标准差范围之内)约等于 99.99966万个合格的,不合格的=100万-99.99966万合格的=3.4个。

变异系数=标准差/平均值

应用:不同数据集数据差别大时,比较变异程度。

思维导图如下:

数据集

来源:阿里巴巴天池母婴用品电商(淘宝+天猫)数据,包含两个数据集,表1购买商品,表2婴儿信息

表1购买商品字段含义

user_id: 用户编号

auction_id: 商品编号(item_id)

cat_id: 商品种类编号(商品二级分类)

cat1: 商品种类编号1(商品一级分类)

property: 商品属性(描述商品特征的都可以称为属性值)

buy_mount: 购买数量

day:购买时间

2)表2婴儿信息表字段

user_id:用户编号

birthday:出生日期

gender:性别(0女性;1男性;2未知的性别)

从数据集分析的业务问题

1)首先需要理解每个表中字段的含义。表1为购买商品的信息,分别包含用户编号、商品编号、商品种类、商品属性、购买数量以及购买日期;表2为婴儿信息,分别包含用户编号,出生日期,性别。

2)确定分析目标,例如分析商品销量问题,对商品编号进行分类并对商品数量的进行统计;分析旺季和淡季,对日期进行分类,统计商品销量;再者分析旺季哪一类商品的销量好?那么需要对旺季商品进行分类并汇总分析。表2中通过性别与商品属性和类别的汇总分析,来分析是否有相关性,从而指导业务问题。

本次学习了描述统计中的集中趋势指标(平均数,中位数,众数,四分位数)和变异程度指标(方差,标准差,z-分数,变异系数),并对要分析的数据集字段含义进行了理解,下一课将学习使用Excel进行数据分析。

参考

^[1] https://baike.baidu.com/item/%E6%8F%8F%E8%BF%B0%E6%80%A7%E7%BB%9F%E8%AE%A1/7141092?fr=aladdin

搜索