新闻中心

数据分析---描述统计分析

2023-05-11
浏览次数:
返回列表

一、描述统计分析及其常用指标

统计学是衡量我们看法是否准确的标尺,是判断我们观念是否正确的试纸

单纯额获取数据的意义并不大,对数据的分析才是重中之重

描述统计分析,是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。

顾名思义,描述统计分析就是用来描述数据,揭示数据所隐藏的信息,进一步的挖掘数据的含义的一种分析方法。

那么常用的描述指标主要包括:平均值、中位数、四分位数,标准差以及标准分。

平均值:以一个数值描述一个整体,平均数尽管有用却不是事物的全部;数据的平均值对异常数据不敏感,当数据中出现极值时,会对平均值产生较大的偏差

中位数:将数据从小到大的排列,最中间的数据就是中位数,当数据个数为奇数时,中位数即最中间的数,如果有N个数,则中间数的位置为(N+1)/2;当数据个数为偶数时,中位数为中间两个数的平均值,中间位置的算法是(N+1)/2。中位数是不会受到极值的影响,从而出现较大的偏差。

四分位数:中位数是将数据从小到大排序后,取数据最中间的数据。那么四分位数就是对数据进行进一步的划分,下分位数就是取中位数与下界的中间数据,上分位数就是取中位数与上界中间的数据,计算的方法与中位数一致,因此一个数据按照从小到大排列,可以分为下界,下分位数,中位数,上分位数以及中位数。

四分位数可以告诉我们数据的整体分布情况,但是却无法反应数据的波动程度。

箱线图

箱线图就是将四分位数以及上下界,按照从下到上,从小到大的顺序进行排列之后绘制出来的图形。箱线图除了上下四分位数,还有上界(除异常点以外的最大值)、下界(除异常点以外的最小值)。

图片来自网络

四分位数的应用

①比较不同类别的数据 ②识别出可能的异常值

异常值:数据集中非常大或者非常小的极端数据。

异常值的识别方法——Tukeys test

最小估计值:Q1-k(Q3-Q1)

最大估计值:Q3+k(Q3-Q1) 注:k=1.5中度异常,k=3极度异常

通过比较数据集中的数据和最小最大估计值进行比较,就可以识别出异常值。

标准差:方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是方差开方。方差与标准差表示数据集波动的大小。

标准差的缺点:如果两个数据差别比较大,那么就无法比较,变异系数可以弥补这个缺点。

变异系数=标准差/平均值

标准分:Z分数,标准化值,表示距离平均值多少个标准差。

标准分有数据集 ,,x1,x2,x3x_{1},x_{2},x_{3} ,其平均值为 μ\mu ,标准差为 σ\sigma

标准分公式:z=x2−μσz=\frac{x_{2-\mu}}{\sigma}

二、结合所选数据集的初步分析

根据所选的电商行业,选择了网盘中“电商行业”作为第一关的数据,这一数据集中包含的字段信息如下:

1.一份包含了一些字段解释说明的word文件

2.Excel文件:表1购买商品(数据来源

阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

本数据集所罗列的是某婴儿用品的购买信息

共有29971组数据

包含了7个字段,分别为:

user_id:用户ID

auction_id:物料编码

cat_id:一级品类

cat1:二级品类

property:商品属性

buy_mount:购买数量

day:购买日期

3.Excel文件:表2婴儿信息(数据来源

阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45

本数据集所罗列的为婴儿的信息

共有953组数据

包含了3个字段,分别为:

user_id:用户ID

birthday:小baby的生日

gender:性别(0为男性,1为女性)

三、根据数据集想要分析哪些问题

结合表1与表2两个数据集中10个字段的信息,对以下业务问题进行分析。

1.分析属于哪一商品类别的销量最好,婴儿的性别对其销量是否有影响?

2.分析不同月度、季度是如何对购买销量产生影响?

3.结合婴儿的性别以及出生日期,分析对于不同商品的需求量具体是如何分布的?

搜索