undefined

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 行业资讯

数据分析-描述性统计相关知识

2023-05-11

浏览次数：次

返回列表

统计学的乐趣

本质：研究数据背后的真相

通过收集数据，分析数据，使数据可视化，从而探寻数据规律，指导生活与工作。

描述性统计

运用制表和分类，图形以及计算概括性数据来描述数据特征的各项活动[1]。

描述性数据指标

集中趋势指标

平均数：刻画整体数据居中水平

缺点：随异常值不敏感

例子：你的工资被平均了

当加入马云的10亿的收入时，平均值被提高了，显然并不能代表集中趋势，所以平均值对异常数据不敏感。

中位数：排序，中间位置的数值，n=偶数时，取平均；n=奇数时，取中间值。

特点：可避免极端数据，但未完全利用数据信息。

众数：出现频次最多的数值。

特点：可避免极端值，原始数据反应太少。

注：当是或者近似正态分布时，以上三个指标一样；左偏时，平均数<中位数<众数；右偏时，众数<中位数<平均数。

四分位数：所有数值从小到大排序并分成四等份，处于三个分割点位置的数值。

五个数值及四份位距：上界，上四分位数，中位数，下四分位数，下界，四分位距

四分位距：上四分位数Q3与下四分位数Q1之间的距离，（Q3-Q1）。

下界：Q1-1.5(Q3-Q1)，以此为界到下四分位数之间最小数值。

下四分位数Q1：第25%的位置数值，位置求法：（n+1）/4

中位数Q2：第50%的位置数值，位置求法：2（n+1）/4

上四分位数Q3：第75%的位置数值，位置求法：3（n+1）/4

上界：Q3+1.5(Q3-Q1)，以此为界到上四分位数之间最大数值。

表示方法：箱线图

应用：

比较不同类别数据集整体情况，例如不同城市薪酬分布；不同经验薪酬分布。识别异常值，例如Turkeytest，最小估计：Q1-k(Q3-Q1)，最大估计：Q3+k(Q3-Q1)。k=1.5为轻度异常，k=3为极度异常。

箱体解读：

当存在特别大和特别小的异常值时，这种离群表现导致箱体压扁。箱体代表50%的数据值范围。中位数与哪一端的四分位数距离近，数据就集中在那一端。例如上图中中位数为5，接近下四分位数2，所以数据集中在中位数与下四分位数之间。

2. 变异程度指标

方差：代表所有数据的变异程度

公式：如下图思维导图

标准差：方差的正平方根

公式：如下图的思维导图

缺点：数据差别比较大时，无法比较

例子：球员的稳定性比较

z-分数（标准分）：观测值距平均值z个标准差

公式：如下图中思维导图

例子：利用6西格玛进行质量管理

如果管理标准是距离平均值3个标准差的算合格。就是每百万件抽样中，合格产品数量=100万 * 99.7%（在正态分布中，有99.7%的数值在3个标准差范围之内）约等于 99.7万个合格的，不合格的=100万-99.7万合格的=0.3万。

如果管理标准是距离平均值6个标准差的算合格。就是每百万件抽样中，合格产品数量=100万 * 99.99966%（在正态分布中，有99.99966%的数值在6个标准差范围之内）约等于 99.99966万个合格的，不合格的=100万-99.99966万合格的=3.4个。

变异系数=标准差/平均值

应用：不同数据集数据差别大时，比较变异程度。

思维导图如下：

数据集

来源：阿里巴巴天池母婴用品电商（淘宝+天猫）数据，包含两个数据集，表1购买商品，表2婴儿信息

表1购买商品字段含义

user_id: 用户编号

auction_id: 商品编号（item_id）

cat_id: 商品种类编号（商品二级分类）

cat1: 商品种类编号1（商品一级分类）

property: 商品属性（描述商品特征的都可以称为属性值）

buy_mount: 购买数量

day:购买时间

2）表2婴儿信息表字段

user_id:用户编号

birthday:出生日期

gender:性别（0女性；1男性；2未知的性别）

从数据集分析的业务问题

1）首先需要理解每个表中字段的含义。表1为购买商品的信息，分别包含用户编号、商品编号、商品种类、商品属性、购买数量以及购买日期；表2为婴儿信息，分别包含用户编号，出生日期，性别。

2)确定分析目标，例如分析商品销量问题，对商品编号进行分类并对商品数量的进行统计；分析旺季和淡季，对日期进行分类，统计商品销量；再者分析旺季哪一类商品的销量好？那么需要对旺季商品进行分类并汇总分析。表2中通过性别与商品属性和类别的汇总分析，来分析是否有相关性，从而指导业务问题。

本次学习了描述统计中的集中趋势指标（平均数，中位数，众数，四分位数）和变异程度指标（方差，标准差，z-分数，变异系数），并对要分析的数据集字段含义进行了理解，下一课将学习使用Excel进行数据分析。

参考

^[1] https://baike.baidu.com/item/%E6%8F%8F%E8%BF%B0%E6%80%A7%E7%BB%9F%E8%AE%A1/7141092?fr=aladdin

上一篇：数据分析常用的10种统计学方法，附上重点应用场景

下一篇：史上最全！统计学常用的数据分析方法大总结

首页

关于我们

新闻中心

产品展示

留言板

咨询研究

联系我们