新闻中心
数据分析-描述性统计相关知识
统计学的乐趣
本质:研究数据背后的真相
通过收集数据,分析数据,使数据可视化,从而探寻数据规律,指导生活与工作。
描述性统计
运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动[1]。
描述性数据指标
集中趋势指标平均数:刻画整体数据居中水平
缺点:随异常值不敏感
例子:你的工资被平均了
当加入马云的10亿的收入时,平均值被提高了,显然并不能代表集中趋势,所以平均值对异常数据不敏感。
中位数:排序,中间位置的数值,n=偶数时,取平均;n=奇数时,取中间值。
特点:可避免极端数据,但未完全利用数据信息。
众数:出现频次最多的数值。
特点:可避免极端值,原始数据反应太少。
注:当是或者近似正态分布时,以上三个指标一样;左偏时,平均数<中位数<众数;右偏时,众数<中位数<平均数。
四分位数:所有数值从小到大排序并分成四等份,处于三个分割点位置的数值。
五个数值及四份位距:上界,上四分位数,中位数,下四分位数,下界,四分位距
四分位距:上四分位数Q3与下四分位数Q1之间的距离,(Q3-Q1)。
下界:Q1-1.5(Q3-Q1),以此为界到下四分位数之间最小数值。
下四分位数Q1:第25%的位置数值,位置求法:(n+1)/4
中位数Q2:第50%的位置数值,位置求法:2(n+1)/4
上四分位数Q3:第75%的位置数值,位置求法:3(n+1)/4
上界:Q3+1.5(Q3-Q1),以此为界到上四分位数之间最大数值。
表示方法:箱线图
应用:
比较不同类别数据集整体情况,例如不同城市薪酬分布;不同经验薪酬分布。识别异常值,例如Turkeytest,最小估计:Q1-k(Q3-Q1),最大估计:Q3+k(Q3-Q1)。k=1.5为轻度异常,k=3为极度异常。箱体解读:
当存在特别大和特别小的异常值时,这种离群表现导致箱体压扁。箱体代表50%的数据值范围。中位数与哪一端的四分位数距离近,数据就集中在那一端。例如上图中中位数为5,接近下四分位数2,所以数据集中在中位数与下四分位数之间。2. 变异程度指标
方差:代表所有数据的变异程度
公式:如下图思维导图
标准差:方差的正平方根
公式:如下图的思维导图
缺点:数据差别比较大时,无法比较
例子:球员的稳定性比较
z-分数(标准分):观测值距平均值z个标准差
公式:如下图中思维导图
例子:利用6西格玛进行质量管理
如果管理标准是距离平均值3个标准差的算合格。就是每百万件抽样中,合格产品数量=100万 * 99.7%(在正态分布中,有99.7%的数值在3个标准差范围之内)约等于 99.7万个合格的,不合格的=100万-99.7万合格的=0.3万。
如果管理标准是距离平均值6个标准差的算合格。就是每百万件抽样中,合格产品数量=100万 * 99.99966%(在正态分布中,有99.99966%的数值在6个标准差范围之内)约等于 99.99966万个合格的,不合格的=100万-99.99966万合格的=3.4个。
变异系数=标准差/平均值
应用:不同数据集数据差别大时,比较变异程度。
思维导图如下:
数据集
来源:阿里巴巴天池母婴用品电商(淘宝+天猫)数据,包含两个数据集,表1购买商品,表2婴儿信息
表1购买商品字段含义
user_id: 用户编号
auction_id: 商品编号(item_id)
cat_id: 商品种类编号(商品二级分类)
cat1: 商品种类编号1(商品一级分类)
property: 商品属性(描述商品特征的都可以称为属性值)
buy_mount: 购买数量
day:购买时间
2)表2婴儿信息表字段
user_id:用户编号
birthday:出生日期
gender:性别(0女性;1男性;2未知的性别)
从数据集分析的业务问题
1)首先需要理解每个表中字段的含义。表1为购买商品的信息,分别包含用户编号、商品编号、商品种类、商品属性、购买数量以及购买日期;表2为婴儿信息,分别包含用户编号,出生日期,性别。
2)确定分析目标,例如分析商品销量问题,对商品编号进行分类并对商品数量的进行统计;分析旺季和淡季,对日期进行分类,统计商品销量;再者分析旺季哪一类商品的销量好?那么需要对旺季商品进行分类并汇总分析。表2中通过性别与商品属性和类别的汇总分析,来分析是否有相关性,从而指导业务问题。