新闻中心

数据中台or not(数据中台包括哪些部分)

2023-05-29
浏览次数:
返回列表

一、数据中台的定义?

数据中台是对既有/新建信息化系统业务与数据的沉淀,是实现数据赋能新业务、新应用的中间、支撑性平台。(百度百科)

个人理解中台是介于前台和后台的中间支撑平台,对各业务与数据进行沉淀,实现数据赋能。

二、为什么建数据中台?

数据中台的产生有其历史必然,一些大的互联网公司,各业务线交叉,数据杂乱无章,无法很好的使用。

但数据中台并不是一下子就出来了,它是有其历史积累的,一般来说是这样:

数据库 ---> 传统数仓 ---> 大数据平台 ----> 大数据中台。

最初业务主要是数据库crud操作,但是随着业务的发展,数据库越积越多,管理层也会有新想法,比如如何对数据分析来更好满足的业务的需要,但是还是使用原来的业务库,可能对线上业务产生影响,此时便产生了数据仓库。

数据仓库的定义:数据仓库之父比尔·恩门(Bill Inmon)在 1991 年首次给出了数据仓库定义,数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的,不可修改的数据集合。

构建数据仓库,首先要把不同业务系统的数据同步到一个统一的数据仓库中,然后按照主题域方式组织数据。主题域是业务过程的一个高层次的抽象,像商品、交易、用户、流量都能作为一个主题域,可以理解为数据仓库的一个目录。数据仓库中的数据一般是按照时间进行分区存放,每个时间分区内的数据都是追加写的方式,对于某条记录是不可更新的。

这里需说明下几个概念:

OLTP(on-line transaction processing): 联机事务处理,传统的数据库应用,比如crud等。

OLAP(On-Line Analytical Processing):联机分析处理,主要面对数据仓库,侧重于数据分析。

BI(Business Intelligence):商业智能,将企业已有的数据转化为知识,帮助企业做出经营分析决策,它促成了数据仓库。

随着业务持续发展,特别是互联网公司的数据越来越多,数据类型也变得异构化,2003年谷歌发表了3篇论文:分布式文件系统 GFS、大数据分布式计算框架 MapReduce 和 NoSQL 数据库系统 BigTable。开创了大数据时代。

大数据平台是面向数据研发场景的数据研发全链路的工作平台。可以实现数据流水线化快速加工。由于基于Hadoop的组件越来越多,版本混乱,于是也产生了商业级的解决方案CDH等。

随着业务的不断发展,不同业务线是割裂的,造成了数据的重复加工,导致研发效率、数据存储和计算资源的浪费,成本变高。阿里马云率队参观了实力强大的游戏公司supercell,它的成功的游戏产品有很多,其独特优势是能够快速推出新产品,而依靠的就是中台系统。马云便提出了“大中台、小前台”战略:沉淀共享服务,打破系统壁垒,业务快速创新。其中“大中台”包含两部分,一个是业务中台,一个是数据中台。

形象地讲,数据中台构建的服务考虑了"可复用性",每项服务都像一个积木,可以随意组合,灵活高效地解决前台的个性化需求。数据中台的核心理念是"数据取之于业务,用之于业务",跟传统数据平台相比,数据中台着眼于业务的积累和沉淀,构建了从数据生产到消费、消费后数据返回到生产的闭环过程。数据中台强调数据标准和口径的统一,以及将数据封装为服务,比如数据基础服务、标签画像服务、算法模型服务等,支撑前台业务更智能化;业务中台强调流程类、服务类服务的高效复用。

三、如何建设数据中台?

数据中台的建设成本极高,所以要根据自身企业的情况来决定,影响要素主要是:数据是否足够多;业务分析是否存在瓶颈。

关于数据中台怎么建,参考线上的案例:

这个图完整地描述了数据中台支撑技术体系。

大数据计算、存储基础设施:数据中台的底层是以Hadoop为代表的大数据计算、存储基础设施,提供了大数据运行所必须的计算、存储资源。

工具产品:在Hadoop之上,浅蓝色的部分是原有大数据平台范畴内的工具产品,覆盖了从数据集成、数据开发、数据测试到任务运维的整套工具链产品。同时还包括基础的监控运维系统、权限访问控制系统和项目用户的管理系统。由于涉及多人协作,所以还有一个流程协作与通知中心。

数据治理模块:灰色的部分,是数据中台的核心组成部分:数据治理模块。它对应的方法论就是One Data体系。以元数据中心为基础,在统一了企业所有数据源的元数据基础上,提供了包括数据地图、数仓设计、数据质量、成本优化以及指标管理在内的5个产品,分别对应的就是数据发现、模型、质量、成本和指标的治理。

数据服务:深绿色的部分是数据服务,它是数据中台的门户,对外提供了统一的数据服务,对应的方法论就是One Service。数据服务向下提供了应用和表的访问关系,使数据血缘可以延申到数据应用,向上支撑了各种数据应用和服务,所有的系统通过统一的API接口获取数据。

数据产品和应用:在数据服务之上,是面向不同场景的数据产品和应用,包括面向非技术人员的自助取数系统;面向数据开发、分析师的自助分析系统;面向敏捷数据分析场景的BI产品;活动直播场景下的大屏系统;以及用户画像相关的标签工厂。

搜索