离线数仓和实时数仓的区别
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
数据人学习平台上线
数据人学习平台:www.shujurenclub.com
作者介绍
车云祥,数据产品负责人,专注于数据治理和统一指标体系构建,以及多个关键数据系统的设计与优化。作为“数据人创作者联盟”成员,他致力于将数据与业务紧密结合,推动数据驱动业务增长。
01数仓架构演变
从20世纪70年代MIT研究员提出业务处理系统与分析系统分离的概念,至比尔·恩门在1991年确立数据仓库概念,再到拉尔夫·金博尔提出自下而上建立数据仓库的维度建模方法,数仓架构不断发展。1998年Bill Inmon提出CIF架构,成为现代数据仓库建设的框架指南。
02传统离线大数据架构
21世纪初,随着大数据时代到来,Hadoop生态系统成为数据处理的支柱。但离线大数据架构无法处理实时性业务,流式计算引擎如Storm、Spark Streaming、Flink等应运而生。为满足实时与批处理的需求,Lambda架构被提出,以实现数据的流批一体处理。
03 Kappa架构
为克服Lambda架构中的维护两套程序等问题,LinkedIn的Jay Kreps提出了Kappa架构,主张使用统一的流处理系统处理所有数据,并在必要时对历史数据进行重复计算。
04混合结构
实时数仓建设可结合Lambda架构和Kappa架构的优点,按照业务需求选择架构。混合架构在业界更常见,允许根据不同业务模块需求,选择适宜的数据处理链路。
02离线数仓与实时数仓区别
离线数仓与实时数仓有显著区别,包括建设方法、数据保障等方面。实时数仓需求增多,但在建设时应注意数据分层、选型等因素。
03实时数仓建设思路
建议采用Flink作为计算框架,利用Kafka作为数据来源,选择高效存储方案,并注意实时数仓分层。实时数仓现状中,存在使用混合架构的趋势,以适应不同业务需求。
04实时数仓发展趋势
实时数仓正朝向"批流一体"方向发展,技术如Iceberg可解决存储统一问题。企业应根据具体情况选择合适架构,而数据湖技术的进步将有助于实时数仓的进一步发展。
书籍推荐:《大数据实践之路:数据中台+数据分析+产品应用》。
想要了解更多内容?