新闻中心
数据分析和数据可视化笔记(数据分析与可视化课程内容)
数据分析的方法
现状分析
★对比分析法
常用于对纵向的、横向的、最为突出的、计划与实际的等各种相关数据的对比。例如:今年与去年同期工资收入的增长情况、3月CPI环比增长情况等。描述性分析法
常用于对一组数据样本的各种特征进行分析,以便于描述样本的各种及其所代表的总体的特征。
例如:本月日平均用电量、上海市工资收入中位数等。★结构分析法
常用于分析数据总体的内部特征、性质和变化规律等。
例如:各部分用电量占总用电的比重、生活消费支出构成情况等。问题症结
★相关分析法
常用于分析两个或多个变量之间的性质以及相关程度。
例如:气温与用电量的相关性、运动量大小与体重的相关性等。★回归分析法
常用于分析一个或多个自变量的变化对一个特定因变量的影响程度,从而确定其关系。
例如:气温、用电设备、用电时长等因素对用电量数值大小的影响程度、工资收入的高低对生活消费支出大小的影响程度等。杜邦分析法
利用几种主要的财务比率之间的关系来综合地分析企业的财务状况,常用于评价公司盈利能力和股东权益回报水平。
例如:清楚的揭示权益资本报酬率的应吸纳过因素是税后经营利润、销售收入、净利润还是股东权益。其公式为:权益资本报酬率=(税后经营利润\销售收入)×(销售收入\总资产)×(净利润\税后经营利润)×(总资产\股东权益)=经营利润×(1-所得税率)\销售收入×(销售收入\总资产)×经营利润×(1-所得税率)-利息×(1-所得税率)★漏斗分析法
常用于评估一种业务过程,从起点到终点,各个阶段的转化情况。通过可以量化的数据分析,帮助业务找到有问题的业务环节,并进行针对性的优化。
例如:广告页转化率→详情页转化率→···→支付完成转化率。★象限分析法
常规的象限分析法适用于两个因素相互作用的情况。
例如,网站商品的销量情况,与商品的流量和收藏量有关,两者相互影响。趋势预测
趋势分析法
常用于在一段时间周期内,通过分析数据运行的变化趋势(上升或下降),为未来的发展方向提供帮助。
例如:用电量的季节性波动、股市的涨跌趋势等。★回归预测
常用于对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。
例如:疾病预测,天气预测,市场预测,股价预测。时间序列预测
利用获得的数据按时间顺序排成序列,分析其变化方向和程度,从而对未来若干时期可能达到的水平进行推测。
例如:第一年双十一之前的某一段时间,第一年双十一期间销量至第五年双十一之前的某一段时间,第五年双十一期间销量。指数平滑预测
以某种指标的本期实际数和本期预测数为基础,引入一个简化的加权因子,即平滑系数,以求得平均数的一种时间序列预测法。
例如:年度、季度销售数据、金融数据的预测。专家经验预测
由专家们运用自己已有的知识和经验对预测对象的发展趋势及未来作出直觉判断,最后采用统计方法得出预测结果。
例如:德尔菲法、头脑风暴等。数据可视化
分组表
总体仅按一个标志进行分组的表格。可以按品质标志分组,也可以按数量标志分组,能够揭示现象的类型,表明总体的内部结构,分析现象之间的依存关系。

交叉表
交叉表(Cross Tabulations)是一种常用的分类汇总表格。利用交叉表查询数据非常直观明了,被广泛应用。交叉表查询也是数据库的一个特点。
在统计学中,交叉表是矩阵格式的一种表格,显示变量的(多变量)频率分布。交叉表被广泛用于调查研究,商业智能,工程和科学研究。它们提供了两个变量之间的相互关系的基本画面,可以帮助他们发现它们之间的相互作用。
★普通柱形图
柱形图可以展示每项数据在一段时间内的变化及数据间的比较情况。例如,柱图可以比较某个路口不同时间段的车流量、各月的销售额展示、公司不同年份利润展示等。
优点:可清楚的看出数量的多少及比较出数据之间的差别。
缺点:不适用于较大数据集的展现。
★甘特图
甘特图又称为横道图、条状图。其通过条状图来显示项目、进度和其他时间相关的系统进展的内在关系随着时间进展的情况,常用于项目管理。

堆积柱形图
堆积柱形图将每根柱子进行分割,可以显示大类目下的细分类目占比情况。它既可以直观地看出每个指标的值,还能够反映出维度总和。可应用在:
● 展示某互联网产品在一周内由不同渠道获得的流量对比。
● 销售部有 3 个部门:销售部门 A 、销售部门 B 、销售部门 C ,需要统计销售部各个部门的贡献成分及变化。
优点:清晰的看出每个维度下不同指标的大小,也可以比较出不同维度类别的数据量差距。
缺点:只适用于维度不多的数据,不适用于维度太多的场景。
★多系列柱形图
多系列柱形图用于显示不同系列指标间的对比效果。
优点:清晰的看出每个维度下不同指标的大小,通过不同的柱形比较出不同维度类别的数据量差距。
缺点:只适用于维度不多的数据,不适用于维度太多的场景。

瀑布图
瀑布图采用绝对值与相对值结合的方式,来表达数个特定数值之间的数量变化关系。这种效果的图形能够在反映数据多少的同时,直观反映出数据的增减变化过程。
优点:展示两个数据点之间的演变过程,还可以展示数据是如何累计的。
缺点:使用场景有限。
分区柱形图
分区柱形图为并列展示维度下各个分类指标的柱形图。
优点:清晰地比较出多种维度下不同指标的数据量差距。
缺点:维度数据较多时,图表的可读效果较差。
百分比堆积柱形图
柱子的各个层代表的是该类别数据占该分组总体数据的百分比,每个系列按照所占的百分比进行堆积,这样就能直观的看出每个系列所占的比重。比如下图显示了 1986 年至 2016 年期间,民众对体罚儿童的支持态度对比变化情况。
优点:清晰的看出每个维度下不同指标的占比,也可以比较出不同维度类别的数据量差距。
缺点:堆叠太多时会导致数据很难区分对比,同时很难对比不同分类下相同维度的数据。
★条形图
条形图是柱形图的横向展示方式,用若干个细长的横条长度来表达各类数量大小的图形。可显示各个项目之间的比较情况,例如展示某个项目组不同人员的工作进度等。
优点:肉眼就能清楚的看出数量的多少及比较出数据之间的差别。
缺点:不适合表示趋势分析;不适合分组过多、分类过多的场景。
平行条形图
平行条形图,又名分区(分面)条形图,在一个视图中展示多个条形图,每个条形的厚度是统一的,用于进行横向和纵向的对比,可以转化成分区(分面)柱形图。
优点:清晰地比较出同维度下不同指标的数据量差距。
缺点:不适用于较大数据集的展现。
★对比柱形图
对比柱状图是一种以背靠背形式的条形图,主要用于展示同一维度下,两个指标的对比分析,便于更直观地看出对比差距。
优点:清晰地比较出当前维度下不同指标的数据量差距,最常用于(有相反含义)的两个指标做对比。
缺点:只适用于维度不多的数据,不适用于维度太多的场景。
多系列百分比堆积条形图
制造业有不同的产线,产线上有不同的车间,每个车间生产不同质量等级的产品。当需要根据产线、产线下的车间分类,统计不同质量等级的产品,用于判断不同生产线、车间的生产状况时,可以通过多系列百分比堆积柱形图实现。

★饼图
饼图用于分析数据的占比,用户可通过饼图很直观的看到每一个部分在整体中所占的比例。
优点:明确显示数据的比例情况。通常用来描述量、频率或百分比之间的相对关系。
缺点:不适合较大的数据集(分类)展现,当比例接近时,人眼很难准确判别。
★多层饼图
多层饼图又叫旭日图,指的是具有多个层级、且层级之间具有包含关系的饼状图表。多层饼图适合展示具有父子关系的复杂树形结构数据,如地理区域数据、公司上下层级、季度月份时间层级等等。
例如:内圈不同颜色的弧度分别映射每个区域的销售额,外圈浅色切块代表该区域下不同品牌的销售额。
优点:适合快速展示多级数据比例分布。
缺点:不能显示太多项目,由于本身尺寸较大,加上通常需要图例说明,比其他图表占用更多空间。
玫瑰图
玫瑰图通过扇形的面积和半径显示数据的占比情况,可以展示每一数值相对于总数值的大小、数据在某一时间段的变化,也可以用来比较各项数据间的情况等。
优点:适合突出显示不同分类的大小差异。
缺点:将数据量之间的差别夸大显示了,相差 1% 表现在面积上,视觉差别是超过 1% 的,不好用于展示具体的差值数量。
★普通折线图
普通折线图可通过线的升降变化显示连续数据之间的变化趋势。可应用在:
● 展示公司当年销售额的变化情况。
● 城市课堂仪表板中,展示不同时间段学生签到情况。
● 一天之内不同时间段,店铺客流量。
优点:反应事物随类别变化的趋势,可以清晰展现数据的增减趋势、增减的速率、增减的规律、峰值等特征。
缺点:不适合无序的、分类的、离散型的数据。
★分区折线图
分区折线图用于分区域分指标查看数据的变化趋势。如下图显示了两个城市在同一时段风速走势的对比情况。
优点:清晰地展现出当前维度下不同指标的增减趋势、增减的速率、增减的规律、峰值等特征,适合展现较大数据集,不会多条线条叠加在一起。
缺点:不适合展示多类别数据。
★多系列折线图
多系列折线图用于在同一区域查看指标的变化趋势,能直观看出趋势对比。效果如下图所示,该图展现了自 1800 年至 2017 年全世界能源消耗情况,图中不同颜色的折线代表不同的能源类型(固态、液态、燃气等)。
优点:清晰地展现出当前维度下不同指标的增减趋势、增减的速率、增减的规律、峰值等特征,适合展现较大数据集。
缺点:线条数目一般不适合超过 4 条。
★普通面积图
面积图可用来展示持续性数据,可很好地表示趋势、累积、减少以及变化等。例如,展示「合同金额」随日期的变化。

★范围面积图
范围面积图用来展示持续性数据,可很好地表示趋势、累积、减少以及变化。
例如:已知网页的访问次数和跳出次数,两条线勾勒出的范围非跳出次数的变化量趋势,如下图所示。
优点:适合展现同一个分类维度在同一间隔内两个连续变量的变化趋势。
缺点:不适合展现多个分类数据。
★堆积面积图
面积图可以强调数量随时间而变化的程度,而堆积面积图在这基础上还能显示部分与整体的关系,主要用于强调某个类别在该系列轴上的数值变化趋势线。
比如可以用于销售关注几个爆品随时间变化的市场份额占比情况等场景。堆积面积图百分比堆积面积图
在堆积面积图的基础上,计算每个指标占所有指标总和的百分比,即形成了堆积面积图。
优点:可以强调不同类型数量随时间变化的程度,引起人们对总值的重视,也可从图形中了解到部分与整体的关系。
缺点:不利于过多类的展示,画面会比较拥挤,且颜色也不好区分。百分比堆积面积图★组合图
用户希望一个图表组件上,有多种图表类型。
组合图★柱形图-面积图
柱形图-面积图适可以直观地表示数据量的大小并进行比较,可以比较明显地显示出各数据之间的比例差异,也可以显示部分与整体的关系。
优点:简单直观,不仅适合比较各组数据之间的差别,也能很好的展现沿某个维度的变化趋势,比较多组数据在同一个维度上的趋势。
缺点:不适用于较大的数据集。柱形图-面积图★柱形图-折线图
柱形图和折线图是比较常见的组合,图表组合后既可以用柱形图比较数据大小,又可以通过折线图查看数据变化趋势。
优点:可以将两种维度的数据集中展示,给决策者更多的信息洞察,同时节省报表版图空间,能留更多的版图展示其他数据。
缺点:过多维度的数据集中在组合图时,会使图表过于拥挤,同时指标的增多,会干扰决策者无法抓住数据主要传达信息。柱形图-面积图★散点图
散点图(Scatter Chart)是科研绘图中最常见的图形类型之一,通常用于显示和比较数值,使用一系列的散点在直角坐标系中展示变量的数值分布,可以通过观察发现两者的关系与相关性。如下图展示了一组人群身高体重的分布数据,红色代表女性,蓝色代表男性:
优点:可以展示数据的分布和聚合情况,适合展示较大的数据集。
缺点:主要用于观测相关、分布和聚合,其他信息均不能很好展现。散点图多维度散点图
多维度散点图是散点图的一种展示方式,需要观察多个变量间的相关关系时,若逐个绘制它们间的简单散点图会非常繁琐。
此时可利用多维度来同时绘制各自变量间的散点图,这样可以快速发现多个变量间的主要相关性,一定程度上克服了在平面上展示高维数据的困难。
优点:多维数据的两两相关关系,可以用于比较跨类别的聚合数据。
缺点:呈现空间受限,不适合展现展示百分比占比的数据与数据量较少的数据。多维度散点图多指针仪表盘
多指针仪表盘像一个钟表或者可读盘,它有刻度和指针,其中刻度表示度量,指针表示维度,指针角度表示数值,指针指向当前数值。
利用多指针的仪表盘,可以直观地表现出某个指标的进度或实际情况。
优点:直观地表现出指标的进度或实际情况,主要用于进度展现。
缺点:指标不宜过多,展示信息有限。多指针仪表盘百分比仪表盘
百分比仪表盘,有两种样式:百分比圆环仪表盘、百分比刻度槽型仪表盘。
可以直观地表现出某一项数据占总量的占比,可以展示销售完成率、产品合格率等,也可以作为一个进度百分比展示。
优点:直观的表现出某个指标的进度和完成情况,主要用于进度或占比的展现。
缺点:只能展示一个指标数据,展示信息有限。百分比仪表盘试管型仪表盘
试管型仪表盘像一个试管,有刻度和进度线,其中刻度表示度量,进度线表示完成的进度情况。
利用试管型仪表盘,可以直观地表现出某个指标的进度或实际情况。
优点:直观的表现出指标的进度或实际情况,主要用于进度或占比的展现。
缺点:不能根据时间类别分析数据,单个图表无法进行对比分析。试管型仪表盘日历图
日历图(Calendar Heatmap),是指热力图和日历图两者组合的时序图,是一种双变量图,由时间变量和另一种变量组成。日历图可以反映出在一段日期内的数值分布情况,有利于分析人员在时间跨度上对某些数据进行对比分析。
可以应用在:
● 显示本年每天的运动步数,用颜色深浅区分当天步数的多少。
● 展示某城市的空气质量:显示该城市本年每天的 PM2.5 数据。
优点:有效结合了热力图和日历图,清晰呈现了随自然日历变化的指标大小。
缺点:只适合展现一到两个指标的变化。日历图子弹图
子弹图无修饰的线性表达方式使我们能够在狭小的空间中表达丰富的数据信息。可以同一分类下的对比,也可以横向去对比。
例如,我们可以对不同年份的「合同金额」、「回款金额」进行比对,也可以对每年的「合同金额」与「回款金额」比对。子弹图人口金字塔图
人口金字塔可以形象地表示总人口中各年龄人数的多少和相互比例,表明人口年龄构成的类型,反映人口状况。人口金字塔图可反映过去人口的情况,如今人口的结构,以及今后人口可能出现的趋势。
人口金字塔图★雷达图
雷达图(Radar Chart),又可称为戴布拉图、蜘蛛网图(Spider Chart),每个分类都拥有自己的数值坐标轴,这些坐标轴由中心向外辐射, 并用折线将同一系列的值连接。用以显示独立的数据系列之间,以及某个特定的系列与其他系列的整体之间的关系。
例如:可以用雷达图展现两款手机 A、B 之间的性能对照。
优点:适合展现某个数据集的多个关键特征并进行比对,适合比较多条数据在多个维度上的取值。
缺点:不适合展示多类别数据。雷达图★聚合气泡图
聚合气泡图,采用力学图的形式展示气泡,可以用来观察数据的分布,将数据映射到气泡的面积大小上。
聚合气泡图展示效果如下图所示,用户根据下图可以直观观察出「江苏、上海、山西」的录取人数最多。
优点:适用于处理值的分布和数据点的分簇。
缺点:不适合用来查看具体数值,只适合看数据分布。聚合气泡图★漏斗图
漏斗图是一种直观表现业务流程中转化情况的分析工具,它适用于业务流程比较规范、周期长、环节多的流程分析,使用梯形面积表示某个环节业务量与上一个环节之间的差异。漏斗图从上到下,有逻辑上的顺序关系,表现了随着业务流程的推进业务目标完成的情况。
优点:适用于展示随流程变化的分类数据。
缺点:不适合表示无逻辑顺序的分类对比。漏斗图迷你图
迷你图可以直观清晰的展现各分类的对应指标数值大小,比如下图展示的各访问渠道的浏览量大小。
优点:简单易行,用于突出显示变量数据的特征。
缺点:变化较为单一,只适合显示单变量。迷你图★热力区域图
热力区域图以特殊高亮的方式展示坐标范围内各个点的权重情况,通过颜色高亮程度展示指标数据的差异。
可应用在:
● 某地区每月的 24 小时平均气温分布情况。
● 近几年雨水在 12 个月的分布情况。
优点:清晰地呈现数据在两个维度之间的分布、频率或密度情况。
缺点:效果过于柔化,不适合用作数据的精确表达。热力区域图矩形块图
矩形块图以矩形块的形式展示不同数据点的分布情况,矩形块图可以通过颜色或矩形块的大小来展示对应指标值的大小。例如,展示不同访问平台、访问阶段的访问时间分布,访问时间约长,颜色越深。
矩形块图颜色表格
颜色表格用于展示对应不同维度分类的不同文字颜色,如下方的合同类型表,使用不同的颜色展示合同是否已经交货
颜色表格矩形树图
矩形树图是用来描述层次结构数据的占比关系,能够进行逐级钻取显示下层数据情况。
例如展示合同金额的情况:同一种颜色表示一个年份,同一种颜色种的每一个方块代表一类产品。哪一年哪一种产品的合同金额的大小可以通过矩形块的大小直观展示。
优点:展现具有层级关系的数据,能够直观体现同级之间的比较。
缺点:不适合层级关系不明确或分类较多的数据。矩形树图★词云
词云是一种直观展示数据频率的图表类型,可以对出现频率较高的「关键词」予以视觉上的突出,形成「关键词云层」,从而过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略重点。
可应用于制作用户画像,对用户进行聚类,分析话题热度,实现精细化营销等。
优点:适合展现数据量区分度较大的多分类文字数据,直观地表现出现高词频内容。
缺点:不适合展示数据区分度不大的数据。词云区域地图
区域地图是一种使用不同深浅的颜色来展示数据的大小和分布范围的可视化图形。下图是一个展示客户分布的区域地图,颜色越深,客户数越多。
区域地图点地图
点地图用于在地理坐标系范围内,将数据生成为几何图形点,主要用于展示地理区域内的空间分布。
点地图★流向地图
流向地图在地图上显示信息或物体从一个位置到另一个位置的移动及其数量。通常用来显示人物、动物和产品的迁移数据。单一流向线所代表的移动规模或数量由其粗细度表示,有助显示迁移活动的地理分布。
流向地图多应用于区际贸易、交通流向、人口迁移、购物消费行为、通讯信息流动、航空线路等场景,也可应用企业货物运输,供应链管理。流向地图★热力地图
热力地图用于在地理坐标系范围内,将数据转换成颜色色调,并通过颜色变化程度直观反应出热点分布、区域聚集等数据信息。
优点:清晰地呈现数据在地理空间的分布、频率或密度情况。
缺点:效果过于柔化,不适合用作数据的精确表达。热力地图矩形块地图
在需要按照地区分析数据时,可以使用柱形地图进行展示,数值大小映射到柱形图的颜色和大小上。
矩形块地图