扫码阅读
手机扫码阅读

晓谈数据工程6-数据架构

23 2024-06-28
数据架构概述

数据架构摘要

一、什么是数据架构

数据架构是指数据系统的设计蓝图,涉及数据的收集、存储、转换、分发等流程。该架构需满足包括减少数据延迟、自动扩展、灵活的数据模型、提高数据质量、减少存储成本、确保安全性和合规性等业务需求,以及支撑业务的技术需求,如数据源选择、数据仓库优化、转换逻辑定义、KPI展示平台设计、分布式计算和安全控制等。

二、Lambda 与 Kappa 架构

Lambda架构结合了实时和批处理功能,由实时层、批处理层和服务层组成,适用于需要处理大量或多样化数据的场景。Kappa架构仅包含一个流层,主要使用Apache Kafka处理所有数据流,使系统简化,用于需要立即响应流数据的情况。Lambda架构维护成本较高,而Kappa架构需要不断调整以保证可靠性和准确性。

三、实际项目:电动汽车基础设施分析

一个实际项目案例是分析电动汽车充电基础设施,使用了Open Charge API数据源,通过Airflow进行数据编排,AWS S3存储数据湖,AWS Glue Crawler和Data Catalog进行数据架构理解,AWS Lambda进行数据清理和预处理,AWS Glue和Athena作为ETL与探索工具,Snowflake作为数据仓库和仪表板,以及IAM确保数据安全。项目通过Airflow从API摄取数据,Lambda响应S3事件进行数据预处理,Snowflake用于加载清理数据并构建仪表板。

仪表板分析示例

  • 统计不同位置可用设备的数量。
  • 分析不同电流类型的功率分布。
  • 确定电动汽车站的地理位置邻近性。
  • 比较不同级别充电能力的功率分布。
  • 根据充电能力等级了解位置分布。
  • 找到功率最高的电动汽车充电位置。
想要了解更多,点击 查看原文