扫码阅读
手机扫码阅读

离线数仓和实时数仓的区别

70 2024-10-23

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

查看原文:离线数仓和实时数仓的区别
文章来源:
一个数据人的自留地
扫码关注公众号

数据人学习平台上线

数据人学习平台:www.shujurenclub.com

作者介绍

车云祥,数据产品负责人,专注于数据治理和统一指标体系构建,以及多个关键数据系统的设计与优化。作为“数据人创作者联盟”成员,他致力于将数据与业务紧密结合,推动数据驱动业务增长。

01数仓架构演变

从20世纪70年代MIT研究员提出业务处理系统与分析系统分离的概念,至比尔·恩门在1991年确立数据仓库概念,再到拉尔夫·金博尔提出自下而上建立数据仓库的维度建模方法,数仓架构不断发展。1998年Bill Inmon提出CIF架构,成为现代数据仓库建设的框架指南。

02传统离线大数据架构

21世纪初,随着大数据时代到来,Hadoop生态系统成为数据处理的支柱。但离线大数据架构无法处理实时性业务,流式计算引擎如Storm、Spark Streaming、Flink等应运而生。为满足实时与批处理的需求,Lambda架构被提出,以实现数据的流批一体处理。

03 Kappa架构

为克服Lambda架构中的维护两套程序等问题,LinkedIn的Jay Kreps提出了Kappa架构,主张使用统一的流处理系统处理所有数据,并在必要时对历史数据进行重复计算。

04混合结构

实时数仓建设可结合Lambda架构和Kappa架构的优点,按照业务需求选择架构。混合架构在业界更常见,允许根据不同业务模块需求,选择适宜的数据处理链路。

02离线数仓与实时数仓区别

离线数仓与实时数仓有显著区别,包括建设方法、数据保障等方面。实时数仓需求增多,但在建设时应注意数据分层、选型等因素。

03实时数仓建设思路

建议采用Flink作为计算框架,利用Kafka作为数据来源,选择高效存储方案,并注意实时数仓分层。实时数仓现状中,存在使用混合架构的趋势,以适应不同业务需求。

04实时数仓发展趋势

实时数仓正朝向"批流一体"方向发展,技术如Iceberg可解决存储统一问题。企业应根据具体情况选择合适架构,而数据湖技术的进步将有助于实时数仓的进一步发展。

书籍推荐:《大数据实践之路:数据中台+数据分析+产品应用》。

想要了解更多内容?

查看原文:离线数仓和实时数仓的区别
文章来源:
一个数据人的自留地
扫码关注公众号