新闻中心

数据分析之描述统计分析

2023-05-11
浏览次数:
返回列表

描述统计学

描述统计学常用的4个指标分别是:平均值、四分位数、标准分、标准差。以下对于这四个指标进行详细解析。

1、平均值

案例:假设共有四个人,他们的收入分别是10万、11万、12万、13万。如何求出他们的平均值?

【平均值公式】

平均收入=总收入(46万)/人数(4人)=11.5万

但平均值有一个缺点,如果突然加入一个特别庞大的数字,那么有可能这个平均值会有相当大的误导性。

案例:假设共有五个人,他们的收入分别是10万、11万、12万、13万、10亿,那么根据计算,他们的平均值就变成2亿9.2万元。

平均收入=总收入/人数(5人)=2亿9.2万

所以以上数值的计算方式虽然没有问题,但却不符合实际的情况,也就是生活中所出现的常常“被平均”。所以为了解决以上问题,就有了下面的指标:四分位数。

2、四分位数[1]

四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。用四分位数可以很直观的看到数据的分布情况。

假设说有一组(18个)数字

第一步:从小到大的顺序进行排列

从小到大排列后的18个数字

第二步:求出它的中间数(Q2)。如果中间数是奇数[2]则直接取数,如果是偶数[3]则取中间两个数字之间的平均值。

那么这一组数字是18个数字,取两数之间的平均值。

以上一共18个数字,即为偶数,偶数取中间数也就是“4”和“6”,那么平均数即为5

第三步:求出它的下四分位数(Q1)与上四分位数(Q3),取值逻辑与中位数逻辑是一致的。

下四分位数(Q1)的数字分别是:1、1、2、2、2、3、3、4,取中间,平均值则为:2

上四分位数(Q3)的数字分别是:7、8、10、11、14、15、20、22,去中间,平均值则为:12.5

下界为:该数据集中最小数

上界为:该数据集中最大数

求出上界、下界、下四分位数、中位数、上四分位数

第四步:以此为例,最终就形成了箱型图。

箱型图可以从整体描述出数据集的分布状态

识别异常值的方法:Tukeys test

这种方式可以筛选出以数据层面为根据的过大或过小的数据。筛选后,由人为来判定这些数据是否为准确的数据。

数据组举例:

通过该数据来界定正常范围值,并找出异常值

【公式】

最小估计值:Q1-k(Q3-Q1)

最大估计值:Q3+k(Q3-Q1)

K=1.5 中度异常

K=3 极度异常

- - - - - - - - - - - - - - -

以K=1.5为例,

70-1.5(72-70)

=70-1.5*2

=70-3

=67

最小值为:67

72+1.5(72-70)

=72+1.5*2

=72+3

=75

最大值为:75

结论:正常的范围值应是67-75之间,超出的即为异常值。

按照正常值为67-75之间,300即为异常值

3、标准差[4]

目的:求出偏离平均值的幅度,也就是波动大小(离散程度、变异性)。标准差越大,代表浮动越大。

【标准差公式】

数据集:x1,x2,x3...

平均值:μ

数据集总数:n

标准差:σ

数据组举例:

计算出相应的标准差

计算结果:

最终得出:甲的标准差最小,波动较小,相对稳定。

4、标准分[5]

又叫z-分数或标准化值,案例:一次考试考了80分,那么成绩算好还是不好?如果考试比较简单,绝大部分人都是80分,那么排名即是靠后。如果考试题目比较难,只有少数80分,那么考试即非常好。

【标准分公式】

数据集:x1,x2,x3...

平均值:μ

标准差:σ

标准分公式每个数值举例平均数的相差数

电商数据集字段的含义

数据集来源:

Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.com/dataset/dataDetail?dataId=45

表1购买商品(sample)sam_tianchi_mum_baby_trade_history.csv)

【购买商品字段】

user_id:用户唯一编码,可理解为其它购物平台所注册的ID。

属于了解用户行为的关键性字段,例如与时间字段搭配即可形成周期内用户的数量。

auction_id:物品编号(item_id)在电商平台,商家每上传一个商品,该商品就会形成一个独立的编号(例如SPU 编码)。

cat1: 商品种类ID商品一级分类,以京东举例:家用电器、手机/运营商/数码、电脑/办公、家居/家具/家装/厨具。

cat_id: 商品种类ID商品二级类目,以手机为例,如果手机为一级类目,那么二级类目就是:手机通讯(指的是手机本身),运营商号卡,手机配件等。

property:商品属性,以手机为例,比如苹果手机分成不同的颜色与容量即可理解为不同的商品属性(Sku)。例如:产品名称:苹果6:商品属性如:32GB/土豪金,16GB/灰色,32GB/黑色等。

buy_mount:购买数量,用户对于单品的购买数量,可以判定哪些商品是一次性购买量比较大,也可以与商品价格字段联系起来进行分析,例如各个价位段商品的购买数量占比。

day:购买时间,判定购买的周期起伏等。可以判定年、月、周、日的不同购买行为。比如:什么时间购买量比较大?什么节日对于什么产品消费行为比较密集等等。

表2婴儿信息((sample)sam_tianchi_mum_baby.csv)

【婴儿信息表字段】

user_id:用户id,用户唯一编码。

birthday:出生日期,可以判定出婴儿的年龄。

gender:性别,可以判定出婴儿的性别。

分析哪些业务问题?

各个周期的用户数量是多少?什么时间用户购买行为比较聚集?用户对什么商品情有独钟?什么时间段这些商品销售量较大?各周期分别销售多少量?购买这款商品的婴儿通常多大?是男婴还是女婴?

【哪些字段有助于解决这些问题?为什么?】

各个周期的用户数量是多少?什么时间用户购买行为比较聚集?各个周期的用户量是多少?涉及字段:user_id、day什么时间用户购买行为比较聚集?涉及字段:user_id、day

2. 用户对什么商品情有独钟?什么时间段这些商品销售量较大?各周期分别销售多少量?

用户对什么商品情有独钟?涉及字段:auction_id、user_id什么时间段这些商品销售量较大?涉及字段:cat1、day各周期分别销售多少量?涉及字段:auction_id、buy_mount、day

3. 购买这款商品的婴儿通常多大?是男婴还是女婴?

买这款商品的婴儿通常多大?是男婴还是女婴?涉及字段:auction_id、birthday、gender

【你想从该数据集中得到哪些描述统计信息?】

1.平均值:某款商品(奶粉)通常购买的婴儿平均年龄。理由:奶粉产品的婴儿平均年龄不会有一个特别悬殊的数字,故此可以用平均值来体现。

2.四分位数:各周期的购买数量。理由:可以按周、按月以箱型图来表示,可以更真实的看出各周期的购买数量。而购买数量往往是不确定的因素,因为有可能会有屯商品的因素,比如某宝妈一下子购买了10盒奶粉,这样可以防止被平均。

3.识别异常值:每周的销售数量,设定出下限及上限的异常值范围,一旦超出异常值就需要进行警醒。比如本周卖出了超出上限范围的数值(超卖),那么就需要复盘,为什么卖出了这么多?是做了活动吗?还是有社会因素的热点?

4.标准差:哪款商品在周期内销售更加稳定?

5.标准分:和其它品牌的竞品相比,我的商品在行业中处于一个什么样的位置?

参考

^四分位数 https://baike.baidu.com/item/%E5%9B%9B%E5%88%86%E4%BD%8D%E6%95%B0/5040599?fr=aladdin^奇数 https://baike.baidu.com/item/%E5%A5%87%E6%95%B0/403373?fr=aladdin^偶数 https://baike.baidu.com/item/%E5%81%B6%E6%95%B0/403454?fr=aladdin^标准差 https://baike.baidu.com/item/%E6%A0%87%E5%87%86%E5%B7%AE/1415772?fr=aladdin^标准分 https://baike.baidu.com/item/%E6%A0%87%E5%87%86%E5%88%86/1542489?fr=aladdin

搜索