新闻中心
2023 年 5 大数据流趋势(明年数据)
关注留言点赞,带你了解最流行的软件开发知识与最新科技行业趋势。
Apache Kafka 2023 年的主要数据流趋势包括去中心化数据网格、Lakehouse 数据共享、可视化编码和数据治理。数据流是技术中与在云中构建可扩展的实时应用程序和创新业务模型最相关的流行语之一。您是否想知道我预测的2023 年 TOP 5 数据流趋势以启动数据?查看以下演示文稿并了解 Apache Kafka 扮演的角色。了解去中心化数据网格、云原生 Lakehouse、数据共享、改进的用户体验和高级数据治理。
一些关注者可能会注意到,这变成了一个系列,其中包含关于2021 年 5 大数据流趋势和2022 年 5 大数据流趋势的过去帖子。使用 Apache Kafka 进行数据流传输是让数据运转起来的旅程和演变。趋势会随着时间而改变,但作为中央数据中心的可扩展实时基础设施的核心价值依然存在。
Gartner 2023 年顶级战略技术趋势研究和咨询公司 Gartner每年都会定义最重要的战略技术趋势。这一次,趋势更侧重于特定的利基概念。在更高的层面上,这一切都与优化、扩展和开拓有关。以下是 Gartner 对 2023 年的预期:
来源 Gartner
这很有趣(但并不令人惊讶):Gartner 的预测重叠并补充了我关注的数据流与 Apache Kafka 展望 2023 的五个趋势。我探索了数据流如何通过去中心化优化架构、用于弹性扩展的云原生基础设施以及开创性的创新用例来缩短上市时间以构建有价值的数据产品。
因此,在这里您可以了解 2023 年数据流的前 5 大趋势。
2023 年 5 大数据流趋势在与全球客户、潜在客户和更广泛的 Kafka 社区的对话中,我看到以下主题更频繁地出现:
云原生湖屋去中心化数据网格数据实时共享改善开发人员和用户体验先进的数据治理和政策执行以下部分更详细地描述了每个趋势。文章末尾包含完整的幻灯片。这些趋势与各种情况相关。无论您使用开源 Apache Kafka、商业平台,还是像 Confluent Cloud 这样的完全托管的云服务。
Kafka 作为云原生 Lakehouse 的数据结构今天,许多数据平台供应商都在宣传Lakehouse 的愿景。这与Hadoop 时代的数据湖一样,几乎没有新的细微差别。将所有数据放入一个数据存储中以拯救世界并解决每个问题和用例:
在过去的十年中,大多数企业意识到这种策略行不通。数据湖非常适合报告和批量分析,但并不是解决所有问题的正确选择。除了技术挑战,新的挑战也出现了:数据治理、合规性问题、数据隐私等。
为每项工作使用正确的工具,将同类最佳的企业架构应用于实时和批量数据分析是一种更加成功、灵活且面向未来的方法:
Databricks、Snowflake、Elastic、MongoDB、BigQuery 等数据平台各有优缺点。
数据流越来越成为所有不同数据平台和其他利用实时 Kappa 架构而不是更注重批处理的 Lamba 架构的业务应用程序之间的实时数据结构。
具有有价值数据产品的去中心化数据网格通过使用各种技术在独立领域构建数据产品来关注业务价值是在当今需求和挑战不断变化的敏捷世界中取得成功的关键。数据网格应运而生,并作为下一代设计模式出现,继承了面向服务的架构和微服务。
供应商为构建数据网格提出了两个主要建议:数据与数据流的集成使完全去中心化的业务产品成为可能。另一方面,数据虚拟化提供集中查询:
集中式查询很简单,但不提供干净的架构和解耦的域和应用程序。解决项目中的单个问题可能效果很好。但是,我强烈建议使用数据流构建去中心化数据网格来解耦应用程序,尤其是对于战略性企业架构。
组织内部和组织之间的实时协作通过使用开放 API 的数据共享、流数据交换和集群链接在组织内外进行协作,可以实现许多创新的业务模型:
数据流向数据库、数据仓库或数据湖之间的区别至关重要:所有这些平台都支持静态数据共享。数据在组织内或与合作伙伴复制和共享之前存储在磁盘上。这不是实时的。您无法将实时消费者连接到静态数据。
然而,实时数据胜过慢速数据。因此,与 Apache Kafka 或 Confluent Cloud 等数据流平台实时共享数据可以在发生变化时立即提供准确的数据。消费者可以是实时的、近实时的或批处理的。流式数据交换使数据在组织内流动或用于 B2B 数据共享和开放 API 业务模型。
Apache Kafka API 模式的 AsyncAPI 规范AsyncAPI允许开发人员定义 异步 API 的接口。它与协议无关。功能包括:
OpenAPI 合同规范(= 数据流世界中的模式)API文档多种编程语言的代码生成数据治理以及更多...Confluent Cloud 最近添加了一项功能,用于为 Apache Kafka 集群生成 AsyncAPI 规范。
我们还不知道市场将走向何方。AsynchAPI 会成为数据流中 OpenAPI 的标准吗?或许。我看到客户对这个规范的需求越来越大。让我们在几个季度或几年后回顾一下 AsynchAPI 的状态。但它有潜力。
使用 Apache Kafka 的低代码/无代码工具改善开发人员体验许多分析师和供应商推销低代码/无代码工具。视觉编码并不是什么新鲜事。非常复杂、强大且易于使用的解决方案以 IDE 或云应用程序的形式存在。显着的好处是开发应用程序的上市时间和更容易的维护。至少在理论上。
这些工具支持各种角色,如开发人员、公民集成商和数据科学家。至少在理论上。
现实情况是:
代码为王发展就是进化开放平台取胜低代码/无代码非常适合某些场景和角色。但这只是众多选择中的一个。让我们看看构建 Kafka 原生应用程序的一些替代方案:
这些 Kafka 原生技术各有优缺点。例如,Confluent Stream Designer 非常适合在各种数据源和接收器之间构建流式 ETL 管道。只需同时单击管道和转换。然后将数据管道部署到可扩展、可靠且完全托管的流应用程序中。与 Apache Nifi 等分离工具的不同之处在于,生成的代码在同一个流媒体平台上运行,即一个端到端的基础设施。这使得确保 SLA 和延迟要求更易于管理,并且整个数据管道更具成本效益。
但是,工具越简单,灵活性就越差。就这么简单。无论您查看哪个产品或供应商。这不仅适用于 Kafka 原生工具。
您可以根据项目或业务问题灵活选择工具。将您最喜欢的非 Kafka 流处理引擎添加到堆栈中,例如 Apache Flink。或者使用单独的 iPaaS 中间件,如 Dell Boomi 或 SnapLogic。
具有哑管道和智能端点的领域驱动设计数据流的真正好处是可以自由选择您最喜欢的 Kafka 原生技术、开源流处理框架或云原生 iPaaS 中间件。
为您的项目选择合适的库、工具或 SaaS。数据流支持使用哑管道和智能端点的解耦域驱动设计:
使用 Apache Kafka 的数据流非常适合领域驱动设计 (DDD)。相反,经常使用的点对点微服务架构 HTTP/REST Web 服务或基于推送的消息代理(如 RabbitMQ)会在应用程序之间创建更强的依赖关系。
跨数据流管道的数据治理由数据流驱动的企业架构可以轻松实时访问数据。许多企业利用 Apache Kafka 作为所有数据源和接收器之间的中枢神经系统。
能够跨业务领域轻松访问所有数据的结果是组织面临两种相互冲突的压力:解锁数据以实现创新与锁定数据以确保其安全。
通过数据沿袭、事件跟踪、策略实施和时间旅行来分析历史事件,跨端到端数据流实现数据治理对于企业架构中的战略数据流至关重要。端到端的可见性、合规性和安全性需要流媒体平台之上的数据治理:
数据治理的基础是API 契约的管理(在 Apache Kafka 等数据流平台中称为模式)。Confluent 等解决方案沿数据管道强制执行模式,包括数据生产者、服务器和消费者:
其他数据治理工具,如数据沿袭、目录或警察执法,都是在此基础上构建的。对于任何严肃的数据流项目的建议是从一开始就使用模式。第一个管道是不必要的。但以下生产者和消费者需要一个具有强制策略的可信环境,以建立一个具有独立但连接的数据产品的去中心化数据网格架构。
2023 年数据流用例的幻灯片和视频这是我的演示文稿中的幻灯片:
全屏模式
这是免费的点播视频录制。
数据流在 2023 年的成熟度曲线中上升在大多数企业中,数据流仍处于早期阶段。但讨论超出了诸如“何时使用 Kafka?”之类的问题。或“使用哪种云服务?”......在 2023 年,大多数企业将围绕其众多数据流项目寻找更复杂的挑战。
新趋势往往相互关联。数据网格支持构建专注于业务价值的独立数据产品。数据共享是数据网格的基本要求。新角色访问数据流。通常,公民开发人员或数据科学家需要简单的工具来开拓新项目。出于安全性、合规性和隐私原因,企业架构需要并强制执行跨管道的数据治理。
可扩展性和弹性需要开箱即用。完全托管的数据流是在 2023 年开始并在成熟度曲线上从单一项目向上移动到实时数据中枢神经系统的绝好机会。
2023 年数据流和 Apache Kafka 最相关和最令人兴奋的趋势是什么?你的策略和时间表是什么?