新闻中心
数据分析之描述统计分析
描述统计学
描述统计学常用的4个指标分别是:平均值、四分位数、标准分、标准差。以下对于这四个指标进行详细解析。1、平均值
案例:假设共有四个人,他们的收入分别是10万、11万、12万、13万。如何求出他们的平均值?【平均值公式】
平均收入=总收入(46万)/人数(4人)=11.5万
但平均值有一个缺点,如果突然加入一个特别庞大的数字,那么有可能这个平均值会有相当大的误导性。
案例:假设共有五个人,他们的收入分别是10万、11万、12万、13万、10亿,那么根据计算,他们的平均值就变成2亿9.2万元。平均收入=总收入/人数(5人)=2亿9.2万
所以以上数值的计算方式虽然没有问题,但却不符合实际的情况,也就是生活中所出现的常常“被平均”。所以为了解决以上问题,就有了下面的指标:四分位数。
2、四分位数[1]
四分位数(Quartile)也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。用四分位数可以很直观的看到数据的分布情况。假设说有一组(18个)数字
第一步:从小到大的顺序进行排列
从小到大排列后的18个数字第二步:求出它的中间数(Q2)。如果中间数是奇数[2]则直接取数,如果是偶数[3]则取中间两个数字之间的平均值。
那么这一组数字是18个数字,取两数之间的平均值。
以上一共18个数字,即为偶数,偶数取中间数也就是“4”和“6”,那么平均数即为5第三步:求出它的下四分位数(Q1)与上四分位数(Q3),取值逻辑与中位数逻辑是一致的。
下四分位数(Q1)的数字分别是:1、1、2、2、2、3、3、4,取中间,平均值则为:2
上四分位数(Q3)的数字分别是:7、8、10、11、14、15、20、22,去中间,平均值则为:12.5
下界为:该数据集中最小数
上界为:该数据集中最大数
求出上界、下界、下四分位数、中位数、上四分位数第四步:以此为例,最终就形成了箱型图。
箱型图可以从整体描述出数据集的分布状态识别异常值的方法:Tukeys test
这种方式可以筛选出以数据层面为根据的过大或过小的数据。筛选后,由人为来判定这些数据是否为准确的数据。数据组举例:
通过该数据来界定正常范围值,并找出异常值【公式】
最小估计值:Q1-k(Q3-Q1)
最大估计值:Q3+k(Q3-Q1)
K=1.5 中度异常
K=3 极度异常
- - - - - - - - - - - - - - -
以K=1.5为例,
70-1.5(72-70)
=70-1.5*2
=70-3
=67
最小值为:67
72+1.5(72-70)
=72+1.5*2
=72+3
=75
最大值为:75
结论:正常的范围值应是67-75之间,超出的即为异常值。
按照正常值为67-75之间,300即为异常值3、标准差[4]
目的:求出偏离平均值的幅度,也就是波动大小(离散程度、变异性)。标准差越大,代表浮动越大。【标准差公式】
数据集:x1,x2,x3...
平均值:μ
数据集总数:n
标准差:σ
数据组举例:
计算出相应的标准差计算结果:
最终得出:甲的标准差最小,波动较小,相对稳定。
4、标准分[5]
又叫z-分数或标准化值,案例:一次考试考了80分,那么成绩算好还是不好?如果考试比较简单,绝大部分人都是80分,那么排名即是靠后。如果考试题目比较难,只有少数80分,那么考试即非常好。【标准分公式】
数据集:x1,x2,x3...
平均值:μ
标准差:σ
标准分公式每个数值举例平均数的相差数电商数据集字段的含义
数据集来源:
Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.com/dataset/dataDetail?dataId=45表1购买商品(sample)sam_tianchi_mum_baby_trade_history.csv)
【购买商品字段】
user_id:用户唯一编码,可理解为其它购物平台所注册的ID。
属于了解用户行为的关键性字段,例如与时间字段搭配即可形成周期内用户的数量。
auction_id:物品编号(item_id)在电商平台,商家每上传一个商品,该商品就会形成一个独立的编号(例如SPU 编码)。
cat1: 商品种类ID商品一级分类,以京东举例:家用电器、手机/运营商/数码、电脑/办公、家居/家具/家装/厨具。
cat_id: 商品种类ID商品二级类目,以手机为例,如果手机为一级类目,那么二级类目就是:手机通讯(指的是手机本身),运营商号卡,手机配件等。
property:商品属性,以手机为例,比如苹果手机分成不同的颜色与容量即可理解为不同的商品属性(Sku)。例如:产品名称:苹果6:商品属性如:32GB/土豪金,16GB/灰色,32GB/黑色等。
buy_mount:购买数量,用户对于单品的购买数量,可以判定哪些商品是一次性购买量比较大,也可以与商品价格字段联系起来进行分析,例如各个价位段商品的购买数量占比。
day:购买时间,判定购买的周期起伏等。可以判定年、月、周、日的不同购买行为。比如:什么时间购买量比较大?什么节日对于什么产品消费行为比较密集等等。
表2婴儿信息((sample)sam_tianchi_mum_baby.csv)
【婴儿信息表字段】
user_id:用户id,用户唯一编码。
birthday:出生日期,可以判定出婴儿的年龄。
gender:性别,可以判定出婴儿的性别。
分析哪些业务问题?
各个周期的用户数量是多少?什么时间用户购买行为比较聚集?用户对什么商品情有独钟?什么时间段这些商品销售量较大?各周期分别销售多少量?购买这款商品的婴儿通常多大?是男婴还是女婴?【哪些字段有助于解决这些问题?为什么?】
各个周期的用户数量是多少?什么时间用户购买行为比较聚集?各个周期的用户量是多少?涉及字段:user_id、day什么时间用户购买行为比较聚集?涉及字段:user_id、day2. 用户对什么商品情有独钟?什么时间段这些商品销售量较大?各周期分别销售多少量?
用户对什么商品情有独钟?涉及字段:auction_id、user_id什么时间段这些商品销售量较大?涉及字段:cat1、day各周期分别销售多少量?涉及字段:auction_id、buy_mount、day3. 购买这款商品的婴儿通常多大?是男婴还是女婴?
买这款商品的婴儿通常多大?是男婴还是女婴?涉及字段:auction_id、birthday、gender【你想从该数据集中得到哪些描述统计信息?】
1.平均值:某款商品(奶粉)通常购买的婴儿平均年龄。理由:奶粉产品的婴儿平均年龄不会有一个特别悬殊的数字,故此可以用平均值来体现。
2.四分位数:各周期的购买数量。理由:可以按周、按月以箱型图来表示,可以更真实的看出各周期的购买数量。而购买数量往往是不确定的因素,因为有可能会有屯商品的因素,比如某宝妈一下子购买了10盒奶粉,这样可以防止被平均。
3.识别异常值:每周的销售数量,设定出下限及上限的异常值范围,一旦超出异常值就需要进行警醒。比如本周卖出了超出上限范围的数值(超卖),那么就需要复盘,为什么卖出了这么多?是做了活动吗?还是有社会因素的热点?
4.标准差:哪款商品在周期内销售更加稳定?
5.标准分:和其它品牌的竞品相比,我的商品在行业中处于一个什么样的位置?