undefined

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 行业资讯

数据分析---描述统计分析

2023-05-11

浏览次数：次

返回列表

一、描述统计分析及其常用指标

统计学是衡量我们看法是否准确的标尺，是判断我们观念是否正确的试纸

单纯额获取数据的意义并不大，对数据的分析才是重中之重

描述统计分析，是指运用制表和分类，图形以及计算概括性数据来描述数据特征的各项活动。

顾名思义，描述统计分析就是用来描述数据，揭示数据所隐藏的信息，进一步的挖掘数据的含义的一种分析方法。

那么常用的描述指标主要包括：平均值、中位数、四分位数，标准差以及标准分。

平均值：以一个数值描述一个整体，平均数尽管有用却不是事物的全部；数据的平均值对异常数据不敏感，当数据中出现极值时，会对平均值产生较大的偏差

中位数：将数据从小到大的排列，最中间的数据就是中位数，当数据个数为奇数时，中位数即最中间的数，如果有N个数，则中间数的位置为(N+1)/2；当数据个数为偶数时，中位数为中间两个数的平均值，中间位置的算法是(N+1)/2。中位数是不会受到极值的影响，从而出现较大的偏差。

四分位数：中位数是将数据从小到大排序后，取数据最中间的数据。那么四分位数就是对数据进行进一步的划分，下分位数就是取中位数与下界的中间数据，上分位数就是取中位数与上界中间的数据，计算的方法与中位数一致，因此一个数据按照从小到大排列，可以分为下界，下分位数，中位数，上分位数以及中位数。

四分位数可以告诉我们数据的整体分布情况，但是却无法反应数据的波动程度。

箱线图

箱线图就是将四分位数以及上下界，按照从下到上，从小到大的顺序进行排列之后绘制出来的图形。箱线图除了上下四分位数，还有上界（除异常点以外的最大值）、下界（除异常点以外的最小值）。

图片来自网络

四分位数的应用

①比较不同类别的数据 ②识别出可能的异常值

异常值：数据集中非常大或者非常小的极端数据。

异常值的识别方法——Tukeys test

最小估计值：Q1-k(Q3-Q1)

最大估计值：Q3+k(Q3-Q1) 注：k=1.5中度异常，k=3极度异常

通过比较数据集中的数据和最小最大估计值进行比较，就可以识别出异常值。

标准差：方差是每个数据值与全体数据的平均数差的平方的平均数。标准差是方差开方。方差与标准差表示数据集波动的大小。

标准差的缺点：如果两个数据差别比较大，那么就无法比较，变异系数可以弥补这个缺点。

变异系数=标准差/平均值

标准分：Z分数，标准化值，表示距离平均值多少个标准差。

标准分有数据集 $，， x1，x2，x3$ x_{1}，x_{2}，x_{3} ，其平均值为 $μ$ \mu ，标准差为 $σ$ \sigma

标准分公式： $z=x2-μσ$ z=\frac{x_{2-\mu}}{\sigma}

二、结合所选数据集的初步分析

根据所选的电商行业，选择了网盘中“电商行业”作为第一关的数据，这一数据集中包含的字段信息如下：

1.一份包含了一些字段解释说明的word文件

2.Excel文件：表1购买商品（数据来源

阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45）

本数据集所罗列的是某婴儿用品的购买信息

共有29971组数据

包含了7个字段，分别为：

user_id:用户ID

auction_id:物料编码

cat_id:一级品类

cat1:二级品类

property:商品属性

buy_mount:购买数量

day:购买日期

3.Excel文件：表2婴儿信息（数据来源

阿里巴巴天池 https://tianchi.aliyun.com/dataset/dataDetail?dataId=45）

本数据集所罗列的为婴儿的信息

共有953组数据

包含了3个字段，分别为：

user_id:用户ID

birthday:小baby的生日

gender:性别（0为男性，1为女性）

三、根据数据集想要分析哪些问题

结合表1与表2两个数据集中10个字段的信息，对以下业务问题进行分析。

1.分析属于哪一商品类别的销量最好，婴儿的性别对其销量是否有影响？

2.分析不同月度、季度是如何对购买销量产生影响？

3.结合婴儿的性别以及出生日期，分析对于不同商品的需求量具体是如何分布的？

上一篇：不懂统计和数据分析讲的是什么？看这篇就够了

下一篇：初中数学中考知识点复习统计与概率篇之数据分析

首页

关于我们

新闻中心

产品展示

留言板

咨询研究

联系我们

新闻中心 NEWS CENTER

数据分析---描述统计分析