新闻中心
大数据的概念及分析
一、数据的定义和类型
1.数据的定义
数据指的是对事件的记录并且可以识别的符号,它不仅指的是我们常识中认为的数字,还可以是有意义的文字、字母、符号的组合,还可以是图像、图形、视频和音频。总的来说,数据是任何信息的表现形式和载体。
2.数据的类型
数据主要分为结构化数据、非结构化数据、半结构化数据和元数据。在对数据进行分析时,我们应当首先思考我们的数据分类标准是什么?数据是来自于哪个领域的数据?我们的目标是什么?比如说我们按照领域分类,数据来自于数据科学领域,而该领域主要针对的是结构化和非结构化数据,而非结构化数据的处理目标是转化为结构化数据以及小数据。如果是对计算机领域来说,那么数据可以分为int(整型),float(浮点型),bool(布尔型)等。
a.结构化数据
结构化数据是具备一定模式或者结构的数据,这些数据在一个记录文件中以固定的格式存在,比如说我们常常遇见的存储在数据库中的表格数据,这些数据有统一的固定格式,可以通过固有的键值对获取到相应信息。结构化数据可以通过关系型数据库来表示和存储,但是我认为首先要依赖一个数据模型,即这个数据模型指的是数据是怎样被存储的。这样存储在数据库中的数据以二维形式表示:数据以行或列为单位,一行或者一列表示一条信息,每一行或每一列数据的属性是相同的。
b.非结构化数据
与结构化数据相反的是非结构化数据,结构化数据具备模式,非结构化数据是指信息没有一个预先定义好的数据模型来表现,所以称为非结构化数据。我们通常遇见的文本型数据,比如这个文本型数据中存储的是本篇文章的内容;比如说文字型数据,但是数据中又有很多像时间、数字的信息;再比如说图像、音频、视频数据。就我知道的图像数据而言,比如说对一个手写数字(0-9)灰色图片来说,如果图片像素是32×3232\times32的,那么这个图片会以二进制数据0/1通过一个32行32列的矩阵存储。
c.半结构化数据
半结构化数据是介于结构化数据(如关系型数据库)和非结构的数据(如声音、图像文件等)之间的数据。它的数据是有结构的,但却不方便模式化。XML和JSON文件是半结构化数据的常见形式。由于这种数据的文本性质及其与某种层次结构的一致性,它比非结构化数据更容易处理:因为没有模式限定,数据可以自由流入、更新,在使用的时候模式起作用,构建数据模式来搜索数据。
d.元数据
元数据是描述数据的数据,主要指的是描述数据属性的信息。这种类型的数据大多是机器生成的,可以附加到数据中。
二、大数据的含义及特征
1.大数据的含义
大数据是一个专门用于分析、处理和存储大量经常来自不同来源的数据集合的领域。当传统的数据分析、处理和存储技术不足时,通常需要大数据解决方案和实践。
2.大数据的特征
大数据的特征由5个V定义:
特征说明Volume(数量)即指的是大量数据,数据量是巨大的并且会不断地增长,随着信息技术的发展,在以往1GB的数据或许能够称作大量数据,现在这或许是PB级别的数据。在很多领域中都会有大数据的这个特征,比如说在销售领域,不断增长的销售数据、交易数据;科研领域,如粒子对撞机产生的大量数据。Variety(多样性)数据多样性是指大数据解决方案需要支持的多种格式和类型的数据。数据有不同的形式,比如我们熟知的图像、文本、视频、音频、复杂的记录等。Velocity(速度)在大数据环境中,数据可以快速到达,巨大的数据集可以在非常短的时间内积累。通过吸收补充数据集合、引入以前归档的数据或遗留集合,以及从多个来源到达的数据,数据的内容不断变化。Veracity(准确性)准确性是指数据的质量的好坏,比如说数据的信息和噪声,噪声是不能转换为信息的数据,因此没有价值,而信号有价值,并且是有意义的信息。信噪比高的数据比信噪比低的数据更准确。通过对数据收集的控制,能够确保数据的准确性,比如说通过用户注册而收集到的信息,要比通过不受控制的来源获得的数据(比说通过知乎上某篇帖子的数据)更准确。Value(价值)数据的价值特性我认为是能够对企业或者事业单位产生有用的信息,价值特征与准确性特征相关联,如果数据质量好,那么它对业务的价值就越大;此外,数据的质量还与时间有关,价值和时间是负相关的。比如说在股票交易的时候,延迟半小时的报股票报价相比前1秒的报价几乎没有价值。三、大数据分析和小数据分析的区别与联系
1.区别
大数据和小数据可以由以下10个方面来区分:
方面小数据大数据Goals(目标)有特定的目标。比如说:二手房价的数据,有特定的目标:分析影响房价的因素。有目标,但是目标是变化的。比如说:销售数据,通过收集到的销售数据,可以分析什么因素会影响用户的数量,也可以分析什么因素影响了这个季度的销售额。Location(位置)在一个文件夹中或一台设备上分布在全球各地的服务器上Data structure and content(数据结构和内容)数据是结构化数据,数据局限于某个领域。各种数据类型,数据不仅仅局限于单个领域。Data preparation(数据准备)使用数据的人出于自己的目的准备数据数据来自许多不同的来源,由许多人准备。同时,使用数据的人一般不是准备数据的人。Longevity(数据周期)数据使用结束后,数据保留一段时间后被丢弃。数据通常是永久存储,存储在大数据资源中的数据将被吸收到其他数据资源中。Measurements(测量方式)使用一组测量标准来表示数据不同类型的数据以不同的格式交付Reproducibility(再现性)整个项目可以重复进行,产生一个新的数据集。大数据项目的复制很少可行Stakes(风险)小数据故障风险小,机构能够从故障中恢复。大数据项目由于成本极其昂贵,失败的大数据工作可能导致破产、机构崩溃等。Introspection(内省)通过标识可以找到并指定其中包含的所有数据大数据资源的内容和组织可能是不可理解的Analysis(分析)可以一起分析或一次性分析所有数据大数据通常以增量步骤进行分析。比如通过一些方法依次对数据进行提取、审查、简化、标准化、转换、可视化、解释和重新分析。2.联系
大数据最常见的目的是产生小数据,大数据很少被全面分析,而是分析小数据。
例如:使用手机上的地图软件搜索附近的餐厅,它会列举出附近某个范围内的餐厅,软件在执行时查询的数据库是大而复杂的,但是产生的数据是小的。
所以在上面例子中,使用的数据来自于大数据集,但是最终的分析仅仅是通过一个小数据集,也就是满足搜索范围的数据,大数据资源的目的是提供小数据集。
四、大数据分析的动机
采用大数据分析能够更好的为企业获取利润,在面向业务的环境中,大数据分析结果可以降低运营成本并促进战略决策。但是大数据不仅仅是为了商业服务的,它也可以为科学事业服务。在科学领域,大数据分析可以帮助确定现象的原因,以提高预测的准确性。大数据也可以为公共事业服务,在公共部门组织等基于服务的环境中,大数据分析可以降低成本,并且提升服务质量和提高效率。 下面是大数据分析在商业领域的五个商业动机:
动机说明市场动态(Marketplace Dynamics)公司需要向外部数据源开放自己,以此来感知市场和他们在市场中的地位。认识到外部数据给内部数据带来了额外的环境,使得公司能够更容易地从事后分析提升到洞察分析价值链。业务架构(Business Architecture)大数据与公司每个组织层(决策层、管理层、运营层)的业务架构都有联系。大数据增强了价值,因为它通过集成外部视角提供了额外的环境,有助于将数据转换为信息,并为从信息中生成知识提供了意义。比如说在运营层面,由数据生成的指标只是报告业务中发生的事情。通过管理层,这些信息可以通过企业绩效的视角来检验,以回答有关企业绩效的问题。进一步,通过这些信息,决策层可以提供进一步的见解,回答需要改变或采用哪种战略来纠正或提高绩效的问题。业务流程管理(Business Process Management)业务流程描述了在一个组织里,工作是如何完成的。业务流程管理采用流程优化技术来提升公司的执行力,作用是帮助企业进行业务流程分析、监督和执行。当大数据分析结果和目标行为结合在一起使用时,流程执行可以变得适应市场和响应环境条件。比如说公司要联系客户,最简单的方式是随机选择打电话、发电子邮件、发消息或者传统的邮件与客户取得联系,如果采用大数据分析,如聚类分析,将客户分配到以打电话、发电子邮件等为聚类维度的组之中,可以更精准联系客户。信息和通信技术(Information and Communications Technology)信息和通信技术(如数据分析和数据科学、数字化、开源技术与商用硬件、社交媒体、超联通社区与设备、云计算)的发展加快企业采用大数据的步伐。万物互联网(Internet of Everything (IoE))万物互联网将人、数据、流程和事物结合在一起,使得网络连接变得更加相关,更具有价值。万物互联将信息转化为行动,给企业,个人和国家创造新的功能。五、大数据分析的目标
大数据分析的最终目标是对数据进行分析,以便及时交付高质量的结果,从而为企业或用户提供最佳的价值。
还是以上面大数据与小数据的联系中提到的例子为例:
通过使用手机上的地图软件搜索附近的餐厅,软件系统会在大而复杂的数据库中进行查询,这个数据库中包含了很多信息,比如说有餐厅的信息,有加油站的信息,有超市的信息等,如果软件给用户反馈的是加油站的信息,那么大数据分析对于用户来说将是毫无价值的,如果软件及时给用户反馈了附近的餐厅信息,那么大数据分析对用户来说是有价值的。
六、数据分析的类型和它们之间的关系
数据分析支持有科学依据的数据驱动决策,因此决策可以基于事实数据,而不仅仅是基于过去的经验或直觉。根据分析产生的结果,数据分析可以分为四大类:
类型说明描述性分析(descriptive analytics)描述了已经发生的事件的一些问题诊断性分析(diagnostic analytics)寻找产生现象的原因和影响因素预测性分析(predictive analytics)根据过去的事件建立模型,用于对未来的预测预案性分析(prescriptive analytics)在对未来的基础上选择应该采取的行动以及为什么采取它这四种分析类型利用不同的技术和分析算法。所以会对不同的数据及处理和存储有不同的要求。
这四种数据分析类型的关系:
1.从描述性分析到预案性分析,前面的是后面的基础,后面对前面进行了一定的深化。
2.从描述性分析到预案性分析,分析结果的价值是越来越高的,但是复杂度也是越来越高的。
3.时间维度上看,描述性、诊断性是立足于过去;预测性、预案性更关注未来
4.在有些算法中,预测性分析可以促进诊断性分析(包裹式),甚至合二为一(嵌入式)
七、四种数据分析类型及其适用范围和常用方法
1.描述性分析及其适用范围和常用方法
描述性分析
描述性分析通过运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。
适用范围
描述性分析主要应用于对已经发生事件的描述,即发生了什么。
常用方法
(1)图表表示
a.条形图,饼图,环形图
b.累积频数分布或频率图
c.直方图,茎叶图,箱线图,线图
d.散点图,气泡图,雷达图(2)概括性度量
a.集中趋势的度量:众数,中位数,平均数/加权平均数/几何平均数,四分位数
b.离散程度的度量:异众比率,四分位间距,极差,平均差,方差/标准差,变异系数
c.偏态与峰态的度量:偏态,峰态2.诊断性分析及其适用范围和常用方法
诊断性分析
诊断性分析是为了获得事情发生的原因,寻找到影响这些事情发生的影响因素。
适用范围
诊断性分析用来寻找产生现象的原因和影响因素,即寻找原因。
常用方法
a.区间估计:可以用来解释数据均值及其95%置信区间的数据的可信度。
b.假设检验:两样本均值检验、方差分析等。
c.图示检验法:得到一组数据后,可以进行假设检验来验证数据服从的分布,比如利用PP图或者QQ图正态性检验。
d.特征选择:一个事件可能有多个影响因素,需要找到可能的影响因素,进行特征选择。特征选择又分为过滤式、包裹式和嵌入式。比如包裹式特征选择中可以采用树模型随机森林对各个可能的影响因素打分,得分高的特征的重要程度高。3.预测性分析及其适用范围和常用方法
预测性分析
预测分析涵盖了各种统计技术,包括数据挖掘,预测建模和机器学习,这些技术可以分析当前和历史事实以对未来或未知事件做出预测。
适用范围
预测性分析用来对未来将要发生的事件的预测,即预测未知事件的走向。
常用方法
a.回归分析:建立数学模型来表示所考虑的不同变量之间的相互作用。方法有:线性回归、逻辑回归等
b.机器学习模型:树回归模型如随机森林、梯度提升决策树,支持向量机等。4.预案性分析及其适用范围和常用方法
预案性分析
预案性分析也称为规范性分析,在基于预测性分析的结果上,规定、规范应该采取的行动规范性分析的重点不仅仅是最好遵循哪个选项,而是为什么选择这个选项。规定性分析提供了可以推理的结果,所以,这种分析可以用来获得优势或降低风险。
适用范围
预案性分析基于预测性分析的结果,规范之后应当采取的行动。
常用方法
通过建立评价指标(比如说模型的准确率)来评价各个备选模型的优劣,从而选出最优模型即最优方案,或者对模型的稳健性进行分析以此来规范应当采取的行动。


2023-05-11
浏览次数:次
返回列表