新闻中心
数据分析---描述统计分析
一、描述统计分析及其常用指标
统计学是衡量我们看法是否准确的标尺,是判断我们观念是否正确的试纸
单纯额获取数据的意义并不大,对数据的分析才是重中之重
描述统计分析,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。
顾名思义,描述统计分析就是用来描述数据,揭示数据所隐藏的信息,进一步的挖掘数据的含义的一种分析方法。
那么常用的描述指标主要包括:平均值、中位数、四分位数,标准差以及标准分。
平均值:以一个数值描述一个整体,平均数尽管有用却不是事物的全部;数据的平均值对异常数据不敏感,当数据中出现极值时,会对平均值产生较大的偏差
中位数:将数据从小到大的排列,最中间的数据就是中位数,当数据个数为奇数时,中位数即最中间的数,如果有N个数,则中间数的位置为(N+1)/2;当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。中位数是不会受到极值的影响,从而出现较大的偏差。
四分位数:中位数是将数据从小到大排序后,取数据最中间的数据。那么四分位数就是对数据进行进一步的划分,下分位数就是取中位数与下界的中间数据,上分位数就是取中位数与上界中间的数据,计算的方法与中位数一致,因此一个数据按照从小到大排列,可以分为下界,下分位数,中位数,上分位数以及中位数。
四分位数可以告诉我们数据的整体分布情况,但是却无法反应数据的波动程度。
箱线图
箱线图就是将四分位数以及上下界,按照从下到上,从小到大的顺序进行排列之后绘制出来的图形。箱线图除了上下四分位数,还有上界(除异常点以外的最大值)、下界(除异常点以外的最小值)。图片来自网络
四分位数的应用
①比较不同类别的数据 ②识别出可能的异常值
异常值:数据集中非常大或者非常小的极端数据。
异常值的识别方法——Tukeys test
最小估计值:Q1-k(Q3-Q1)
最大估计值:Q3+k(Q3-Q1) 注:k=1.5中度异常,k=3极度异常
通过比较数据集中的数据和最小最大估计值进行比较,就可以识别出异常值。
标准差:方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是方差开方。方差与标准差表示数据集波动的大小。
标准差的缺点:如果两个数据差别比较大,那么就无法比较,变异系数可以弥补这个缺点。
变异系数=标准差/平均值
标准分:Z分数,标准化值,表示距离平均值多少个标准差。
标准分有数据集 ,,x1,x2,x3x_{1},x_{2},x_{3} ,其平均值为 μ\mu ,标准差为 σ\sigma
标准分公式:z=x2−μσz=\frac{x_{2-\mu}}{\sigma}
二、结合所选数据集的初步分析
根据所选的电商行业,选择了网盘中“电商行业”作为第一关的数据,这一数据集中包含的字段信息如下:
1.一份包含了一些字段解释说明的word文件
2.Excel文件:表1购买商品(数据来源
阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45)
本数据集所罗列的是某婴儿用品的购买信息
共有29971组数据
包含了7个字段,分别为:
user_id:用户ID
auction_id:物料编码
cat_id:一级品类
cat1:二级品类
property:商品属性
buy_mount:购买数量
day:购买日期
3.Excel文件:表2婴儿信息(数据来源
阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45)
本数据集所罗列的为婴儿的信息
共有953组数据
包含了3个字段,分别为:
user_id:用户ID
birthday:小baby的生日
gender:性别(0为男性,1为女性)
三、根据数据集想要分析哪些问题
结合表1与表2两个数据集中10个字段的信息,对以下业务问题进行分析。
1.分析属于哪一商品类别的销量最好,婴儿的性别对其销量是否有影响?
2.分析不同月度、季度是如何对购买销量产生影响?
3.结合婴儿的性别以及出生日期,分析对于不同商品的需求量具体是如何分布的?