新闻中心
智能的数据分析 2021-2025(数据智能的四个阶段)
前言:2017年3月,笔者在发布了一篇《智能的数据分析服务》,解读了数据分析软件产品(BI)面向未来的几种智能化场景。时光飞逝,都快五年过去了,我们来做一些回顾以及展开新一轮的预测。
智能BI 1990 - 2010
1989年8月1日,微软公司推出了第一套Office办公套件,包括Excel、PowerPoint和Word。本文把Excel的发布当做数据分析领域的重要事件是因为这个工具的出现,大大普及了结构化的数据思维以及数据处理方法。
这时的智能化体现在数据人能从加减乘除、求和、求平均值、排序等算术类工作中解脱出来。
1996年前后,Gartner 两次定义了商业智能 [1],即商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。基于这样的定义,早期BI另外一个称呼是DSS,Decision Support System(决策支持系统)。当然也有另外一说,核心定义者 Hans Peter Luhn(曾经是IBM研究员)在1958年就用到了这一概念,他将“智能”定义为“对事物相互关系的一种理解能力,并依靠这种能力去指导决策,以达到预期的目标”。[2]
这阶段的智能化体现在以下几个方面:
能自动从数据库中取数,按照设定好的展现形式,比如表格,还是可视化图表进行数据的展示;能自动根据配置的分析维度与指标,过滤条件,生成SQL,下发到数据库或者自己的计算引擎中触发计算并拿回结果;能自动把设置好的报表发送到企业高层等订阅者中;能自动捕捉数据指标中的异常(比如通过同环比或者绝对值的阈值判断),把预警推送到决策者;能对原始数据中异常数据的检测:比如基于阈值,或者正态分布,自动告知异常的数据,在报表环节或者数据处理环节便做出提示。数据挖掘功能也随着信息技术的演进进入商业智能软件,比如通过内嵌诸如R、Python、Java之类的外部算法包,实现基础的数据挖掘算法,做KNN的聚类、预测之类的工作。
智能BI 2011 - 2020
有不少同行把上一个代际称为传统BI时代,把2011开始的代际称为敏捷BI时代,把2019年开始的代际称为智能BI时代[3]。当然这样的代际划分一部分是产品营销的需求,也没有哪个组织或者厂商去垄断代际以及智能的定义,只要自圆其说即可。 所以笔者也就基于这个思路,继续下面的内容了。
2017年,Gartner在当年的《BI四象限》报告中指出到2021年,具有智能数据探索分析功能的新型BI和分析平台的用户数量将是不具有智能数据探索分析功能的产品和平台的两倍,并且将创造两倍的商业价值。[4]
2020年,Gartner将BI定义升级为ABI[5](Analytics and Business Intelligence,分析与商业智能)。
Analytics and business intelligence (ABI) is an umbrella term that includes the applications, infrastructure and tools, and best practices that enable access to and analysis of information to improve and optimize decisions and performance. 分析与商业智能是一个综合性概念,包括应用程序、基础架构、工具以及最佳实践,这些整体能够商业信息的访问与分析,从而改进和优化决策方式和企业业绩。下面简单盘点 2011-2020这10年间,笔者留意到的一些BI产品上的智能化建设。
内容的智能推荐
推荐与搜索是消费互联网里非常成熟的应用场景,有部分BI产品也开始纳入这部分能力,具体的场景包括:
用户进入产品后,可以根据用户相似性推荐他可能感兴趣的内容;比如相同的组员,或者相同层级的高管都有查看同一份报表的需求用户可以根据关键字来找到对应主题的内容用户添加了数据集(数据表)后,自动推荐使用了对应数据集(数据表)的“上层”内容,也就是其他人已经创建的分析报告;在一家大企业里,存在2,3个人要做的分析非常相似的可能性用户在阅读某份报告的时候,向其推荐类似的报告这里被推荐的内容包括数据源、数据集、分析维度(比如部门、品类等)、指标(又称度量,如收入,利润,人数)、简单报表、复杂报表(又称仪表盘)、数据分析报告等。
内容的智能排序
不同的时间点,地理位置,同一个数据消费者需要根据不同的报表来进行决策。
每周一早上例会可能需要一份指定的报告,比如业务的周报;每天下班前可能需要确认一份数据,比如当日实时的经营报告;到门店交流时需要基于访问的地理位置信息,自动展现对应门店的报告。问询式的数据服务
这个阶段,伴随着AI的大发展, NLP(自然语言处理)、NLQ(Query 自然语言查询)、NLG(自然语言生成)等技术的成熟,非常多的BI工具装上了新的智能翅膀。用户通过语音或者文字就可以发起数据的查询。用户无需了解是否已经存在已有的报表或者图表,只需要告知引擎他关心的问题,引擎自动去提取合适的分析维度与指标,选择最合适的展现形式。结果可能是一个数字,或者一个图表。当然各家BI产品的智能化水平高低就体现在,为了实现这样的效果,普通用户要做多少前置的配置工作;要做的配置工作越多,智能的程度也就越低。
举几个例子:
今天的销售额是多少哪个地区的销售额变化最大生鲜品类的本月销售是多少
上图中的例子是Tableau给出的一个例子,模拟用户想知道某个地区附近最贵的房子;微软的Power BI 也已经提供类似功能;国内的Quick BI也提供了智能小Q的功能[6]。

数据的自动可视化呈现与解读
当数据加载完毕,BI的智能引擎是否可以知道用户的下一步意图呢?有样本数据积累的公司,比如Google已经在提供这类能力了(Google也同步收购了BI产品Looker)。在Google 的Spreadsheet上用户点击任意一个Cell(最小数据单元),页面右侧便有候选的可视化呈现与解读,比如直观告知类别A跟类别B的占比已经接近了50%。这里的可视化是一部分,解读更是重要的一部分。

注:可以点击查看大图来阅读Google对于这些数据与图表给出的解读。
同一份数据,聪明的机器可能更知晓最合适的呈现方式,是基本饼图、条形图、折线图,还是热图、树图、数据地图或者散点图。
之所以提到样本数据的积累,是因为很多BI厂商并不可以直接访问客户的数据,因此很难去让机器学习模型输出这样的推荐策略,但是像Google以及国内提供电子表格功能功能的企业(比如腾讯文档、钉钉文档、飞书文档)是有一定优势的。一些低代码搭建工具,比如宜搭,也包含了BI模块,也有一定的数据优势。
自动化解读这部分,可能需要更多技术与数据能力的积累了,比如互联网内容检索上的“经验”。财经新闻,科技报道,咨询报告里包含着对各类数据的解读,机器看的多了,也就能猜测一份数据到底是从哪些角度去解读可能是用户更需要的。综合来看,Google在这方面的积累遥遥领先。Google 是否会在或者以及在其收购的Looker产品上叠加这块能力,还需进一步验证。
异常数据的自动归因
对于数据的消费者,看到一条曲线出现突变,肯定会特别留意并需要找到突变的原因。智能的引擎应当能够监测、标注并给出解释。
基础的,给出波动来源的分析,比如:
A地区的销售额波动对大盘波动影响最大,达到10%品类G1的销售额波动对大盘波动影响最大,达到20%C地区,品类G2的销售额波动对大盘波动影响最大,达到30%国内的QuickBI产品已经能够提供这块的能力。

进一步的,计算引擎能够在最大范围内找到关联因素。比如某产品销量的下降可能跟以下因素直接相关:
单价的变化,引起供需关系的变化恶劣天气 供货商供货不及时(反映在指标上,可能是库存为0的天数很多,或者到货周期很长)有一款新产品上市,造成同类产品受影响(产品之间的互蚀问题的捕捉)另外一款产品进行了促销活动有可能提供通用的挖掘与解读能力是比较难的,但是在细分领域上,比如新老产品之间的互蚀问题,还是有可能提炼出一些单点的智能应用。
场景化的应用模板
一家ToC的创业公司,一家连锁餐饮,一家银行,不同时期需要关注的数据是哪些? 平台化的数据分析服务提供者开始提供场景化的应用模板。严格意义上,这不算智能化的范畴,但是这降低了数据分析的门槛,提升了分析报告产出的效率,暂且将他划入智能化的范畴。
微软的Power BI上提供了一系列的模板帮助消费者快速分析一个场景,比如一个网站的访问情况(基于Google Analytics 埋点采集的数据),一个软件工程的状态(基于Github数据)。能提供这么丰富的场景,一方面是国外的互联网(SaaS)更加互联互通,在此也希望能早日见到国内产业互联网范畴里更多的数据开放与标准化,少一些数据垄断,多一些数据应用的创新与繁荣。

国内的BI厂商也有类似的一些尝试,比如观远数据GuanBI就提供零售行业的常用分析看板[7]。

智能BI 2021 - 2025
新的一个五年已经到来,就尝试简单预测下ABI产品智能化的一些趋势。
预测一:对已有智能能力的持续升级
比如异常数据的自动解读。
预测二:与办公协同软件的集成,点亮创新应用
钉钉、企业微信、飞书之间的客户抢夺战打得风风火火,办公协同软件大爆发时代,BI产品如何与他们共振?除了免密登录、消息推送,BI产品应该有更多与他们整合以及创新的可能。比如,
(1)异常数据自动推送到用户,用户可以快速生成待办任务(ToDo),可以反馈数据变化的原因,关联采取的动作(比如多增加广告的预算)。
当数据越来越丰富的时候,智能的诊断、智能的行动建议也就有了更多可能。
(2)基于用户的临时协作需要,实现智能动作
比如多个人参与了同一个会议日程,在日程里关联分析报告的时候,可以自动快捷赋访问权限或者在用户访问报告时,优先进行展示。
预测三:与其他业务系统的进一步互联互通
业务产品经理与数据产品经理偶尔会打架,关于业务的数据解读,前者总觉得要放在自己产品里实现;后者会说我们数据要放一起。是否有更好的一种解法?
当前的BI系统一般都已经支持了URL传入参数(支持外部系统跳转到BI系统),也支持了BI系统带参数跳转到其他外部系统,但是也存在进一步互联互通的可能性。 比如在BI表格中,配置能发起API请求的按钮,自动把处理动作同步到业务系统。
比如BI产品与圈人投放系统(CDP,Customer Data Platform,客户数据平台)的互联互通:圈出一拨人后,能够快速对这部分用户进行洞察与分析;在BI报表里看到营销的效果,快速圈出一波特定的,需要采取下一步动作的新人群包。
比如在BI系统里定义的过滤条件(一组实体的列表,比如客户列表),能够在其他业务系统,比如ERP、产品研发管理系统(如Rally、Jira等)中快速应用,而不必重新去配置这些复杂的过滤条件。
这些场景的诉求,也对BI本身的开放性与标准接口带来一定的要求。话说一流的公司定义标准,下一个五年是否会冒出来定义标准的BI公司呢?
预测四:分析工具与数据开发工具的整合
传统BI时代,BI产品依赖数据仓库工作;
敏捷BI时代,BI产品不那么依赖数据仓库(因为自带数据搭建工具,或者说计算引擎能力得到了增强);
大数据时代,又强化了数据开发工具的能力,去处理应对复杂的数据开发任务的调度。
我们会发现分析工具与数据开发工具时候在做相同的事情,比如指标名称的定义,口径的定义(指标的注释);同时因为是两个割裂的产品,有多种角色介入,「自从有了分工,就有了拉扯」,即使一个很简单的需求,从提出需求到可用,还是要花不少时间。 我们设想一下下面这个协作流程,如果能够实现,岂不美哉?少点掰扯的时间,多点跟远地而来的朋友吃个晚饭的机会。
BA(商业分析师)能够在BI产品里使用现有指标与维度同时能够通过拖拉拽的方式定义新的一些简单指标(这是不少数据开发工具已经具备的能力),也可以对当日的一些数据标注准确的数据(用于数据准确性的初步校验);然后数据开发人员只是确认这个逻辑,提交到生产环境;第二天,BA就可以看到新加工的指标。
预测五:智能化的配色方案
BI系统经过近30年的发展,基本功能点其实都在桌子上了,只是各个厂商组装这些功能点的逻辑有些许差异。遗留下来的工作便是体验的提升。其中配色方案也算一种。物质需求被满足了,精神需求也有待被满足。 花半天搭好的分析报告页面,可能还需要再花上1,2天去调整配色方案,还得经历反复修改的情况。如果这个时候能够有智能的一些配色方案推荐,那对于人效的提升还是很有作用的。 可以结合下面几个方面:
每家公司或者部门通用的配色方案这个报告主要面向的对象,比如是某个副总裁,系统智能分析这个总裁的配色方案偏好,从而进行推荐当前页面的图表的布局,是一堆的饼图,柱状图还是折线图特定维度值的特定配色,比如一家食品饮料公司,自己家的产品用橙色的柱子,可口可乐用红色的柱子,百事可乐用蓝色的柱子预测六:视觉AI的引入
通过手机扫描二维码或者条形码读取数据传递到BI平台,为零售场景的数据应用提供更多便利。通过一张图片,快速搭建/检索分析报告?当然,所有BI厂商都是商业公司,都得为盈利而活,做智能化的技术投入前,要么目标是赢得曝光,要么还是提升人的工作效率,或者对业务能产生的价值。
以上,仅是笔者的一些观察与理解,难免有差错,欢迎指正以及交流~
题图:Photo by UX IndonesiaonUnsplash