新闻中心

什么是大数据分析及重要性?(大数据分析重要的五个方面)

2023-11-25
浏览次数:
返回列表

1、大数据分析概述

传统数据分析通过数据抽样,并不断改进抽样方法以提高样本的精确性,从而对整体数据进行推算,并竭力挖掘数据之间的因果关系;而大数据分析的对象是全体数据,不存在因采样的不合理导致预测结果的偏差。

传统数据分析和大数据分析的区别

对比项目传统数据分析大数据分析分析对象部分数据的采样全部数据分析类型结构化数据结构化、半/非结构化数据精确性必须接收精确、规范化的数据可以是非精确、非规范化、不完整的数据分析算法对算法要求高算法简单高效分析结果注重因果关系注重相关性

2、大数据分析基础

大数据分析的基本分类

数据挖掘分析领域常见的四种数据分析方法:描述型分析、诊断型分析、预测型分析、指令型分析。

描述型分析:发生了什么?

诊断型分析:为什么会发生?

预测型分析:可能发生什么?

指令型分析:应该采用什么措施?

(1)描述型分析:最常见,在业务中,该方法想数据分析师提供了重要指标和业务的衡量方法,例如每月的营收和损失账单。数据分析师可以通过账单获取大量用户数据。了解用户地理信息。利用可视化工具增强描述型分析提供的信息。

(2)诊断型分析:描述型数据分析的下一步即诊断型数据分析。

(3)预测型分析:主要用于预测事件未来发生的可能性,预测一个可量化的值或者预估事情发生的时间点。预测模型通常使用各种可变数据实现预测。数据成员的多样化与预测结果密切相关。

(4)指令型分析:预测性型分析的下一步是指令型分析。基于对“发生了什么”“为什么会发生”“可能发生什么”的分析帮助用户决定该采取什么措施。

大数据分析步骤

(1)Analytic Visualizations(可视化分析):数据可视化是数据分析工具的基本要求,可直观的展示数据。

(2)Data Mining Algorithms(数据挖掘算法):集群、分割、孤立点分析等其他算法可以深入数据内部挖掘价值。

(3)Predictive Analytic Capabilities(预测性分析能力):可以让分析员根据可视化分析和数据挖掘的结果做出一些具有预测性的判断。

(4)Semantic Engines(语义引擎):由于非结构化数据的多样性给数据分析带来新挑战,因此需要一些列工具解析、提取、分析数据。语义引擎需要能从文档中智能地提取信息。

(5)Data Quality and Data Management(数据质量和数据管理):数据质量和数据管理是管理方面的最佳实践。通过标准化流程和工具对数据进行处理可以保证得到一个预先定义好的高质量分析结果。

(6)Data Store and Data Warehouse(数据存储和数据仓库):数据仓库是为便于多维分析和多角度展示数据而按特定模式进行存储所建立起来的关系数据库。在商业智能系统设计中,数据仓库的构建是关键,承担了对业务数据进行整合的任务,为商业智能系统提供了数据抽取、转换和加载(ETL)功能,并按主题对数据进行查询和访问,为联机数据分析和数据挖掘提供数据平台。

异步分析

异步分析遵循捕获、存储、分析的流程,在这个过程中,数据由传感器、网页服务器、销售终端、移动设备获取,之后再存储到相应设备上,最后再进行分析。

3、大数据预测分析

预测分析是一种统计或数据挖掘解决方案,它可以在结构化和非结构化数据中使用,以确定未来结果,可用于预测、优化、预报和模拟等用途。

预测分析的作用

(1)决策管理

(2)滚动预测

(3)预测分析与自适应管理

数据具有内在预测性

数据科学家通过预测分析系统不断从数据堆中找到规律。近期性是一个常见变量,表示某人最近一次购物、最近一次犯罪、最近一次i发病等距离现在的时间。频率可以描述某人做出相同行为的次数。购买行为、经济行为、产品使用习惯等这些行为通常是最有价值的,正如萨特所言:“人的自我由其行为决定。”

4、大数据分析应用

大数据分析的主要应用行业

(1)理解客户、满足客户服务需求

(2)业务流程优

(3)大数据正在改善生活

(4)提高医疗和研发技术

(5)提高体育成绩

(6)优化机器和设备性能

(7)改善安全和执法

(8)改善城市

(9)金融交易

大数据分析应用注意问题

(1)加强数据安全管理是数据分析成果应用的前提

(2)树立“以量化分析指标为依据进行决策管理”的意识是数据分析成果应用的基础

(3)市场调研工作是数据分析成果应用的重要组成部分

(4)完善的沟通协调机制是用好数据分析成果的关键

(5)完善的市场营销体系是用好数据分析成果的保障

(6)提升管理人员的数据敏感度及需求挖掘能力是数据分析成果能够发挥长效作用的重要手段。

5、大数据分析平台与工具

大数据分析平台与工具有很多种类,包括基于前端展现的分析工具,如数据仓库和数据集市

HPCC系统

High Performance Computing and Communications(高性能计算与通信)。

Hadoop系统进行文件分割时是基于数据块的,而HPCC系统在进行文件分割时是基于记录的,相比Hadoop系统,HPCC系统为用户更进一步地隐藏了分布式计算的细节,简化了并行程序的编写难度。HPCC系统相比现今的各种大数据解决方案有以下优点:

(1)强大灵活的RCL语言显著提升了程序员编程的效率

(2)Roxie集群提供了高效的在线查询和分析服务

(3)RCL程序首先编译为优化的C++,高速性能得到保证

(4)高效的错误恢复和冗余备份机制

(5)稳定和可靠的系统

(6)在较低的系统消耗上实现了更高的性能

HPCC的系统架构

HPCC系统从物理上可以看作在同一个集群上部署了Thor(数据加工处理平台)和Roxie(数据查询、分析和数据仓库)的集群计算系统,并包含ECL中间件、外部通信层、客户端接口和辅助组件。

Thor集群和Roxie集群是HPCC系统的核心部件,这两个部件可以根据并行处理任务进行独立优化。

Thor集群可以独立执行任务,不需要部署Roxie集群;但想要运行Roxie集群上的任务,必须先部署Thor集群,并为其构建分布式索引文件。

HPCC集群在ECL语言基础上利用Thor集群对大数据进行分析处理,然后利用Roxie集群实现数据的高效发布。

Thor集群

Thor集群是HPCC系统的基础部件,用于对待处理的原始数据进行加工和精炼,例如对原始数据进行数据清洗,进行数据集的ETL操作(提取、转换、加载),为高性能结构化查询和数据仓库应用创建核心数据和索引等。

Thor集群在功能、运行环境、文件系统方面与Hadoop类似。Thor集群可以看作是一种基于记录的Hadoop系统。

Roxie集群

作为数据快速交付引擎的Roxie(Rapid Online XML Inquiry Engine)是一个高性能的结构化查询和分析平台,支持并发数据请,可以快速响应请求。Roxie集群提供了高性能的在线结构化数据查询和分析数据仓库的功能,其作用类似Hadoop中的Hive和Hbase,但Roxie集群的效率更高。

HPCC平台数据检索任务的执行过程

HPCC平台上的数据检索任务在Thor集群和Roxie集群上运行,执行过程包括:

(1)导入原始数据

(2)切分与分发待处理数据

(3)ETL处理:Extract操作包括源数据映射、数据清洗、数据分析统计;Transform操作包括数据记录的合并和拆分、数据集内容的更新、格式的变化;Load操作的主要作用是为数据仓库或一些独立的查询平台建立索引,索引建立后会被加载到Roxie平台以支持在线查询。

(4)Roxie集群发布

Apache Drill

Apache Drill是一个低延迟的分布式海量数据(涵盖结构化、半结构化及嵌套数据)交互式查询引擎,使用ANSI SQL兼容语法,支持本地文件、HDFS、Hive、HBase、MongoDB等后端存储,支持Parquet、JSON、CSV、TSV、PSV等数据格式。

Apache Drill是Google Dremel的开源实现,本质是一个分布式的mpp查询层,支持SQL及一些用于NoSQL和Hadoop数据存储系统的语义,有助于Hadoop用户更快查询海量数据集。Drill支持更广泛的的数据源、数据格式及查询语言,可以通过对PB级数据的快速扫描(大概几秒)完成相关分析,是一个专门用来分析大型数据集的分布式系统

Drill查询架构

Drill查询架构

Drillbit核心模型

Drillbit核心模型

RapidMiner

RapidMiner是世界领先的数据挖掘解决方案,其特点是图像用户界面的互动原型。RapidMiner提供了可视化的数据挖掘技术,可视化建模简化了数据挖掘的工作。RapidMiner具有丰富的数据挖掘分析和算法功能,常用于解决各种商业关键问题,如营销响应率、客户细分、客户忠诚度及终身价值、资产维护、资源规划、预测性维修、质量管理、社交媒体监测和情感分析等典型商业案例。

小结

本文介绍了大数据分析的基本分类、分析步骤以及异步分析的概念,然后讲解了预测分析的作用,介绍了大数据分析技术的主要应用场景,最后重点介绍了几种流行的大数据分析工具。

[M] 《大数据技术基础应用教程》周奇 张纯 主编

搜索