大数据处理的基本思想与架构

xiaofei
大数据处理
2025-03-20 11:12:24
3

本篇文章给大家分享大数据处理的构架是什么，以及大数据处理的基本思想与架构对应的知识点，希望对各位有所帮助。

简述信息一览：

1、大数据架构流程图
2、大数据平台层级结构
3、浅析Lambda架构

大数据架构流程图

1、标准大数据平台架构包括数据仓库、数据集市、大数据平台层级结构、数据挖掘等。数据架构设计（数据架构组）在总体架构中处于基础和核心地位。产品体验结构流程图产品的功能结构图、产品主要流程图、产品的核心流程等都是产品体验的重要组成部分。

2、基于Lambda架构，整套系统通过Kafka对接流计算、Hbase对接批计算实现“实时视图”与“批量视图”。此架构能够高效满足在线与离线计算需求。新大数据架构 Lambda plus 考虑到Lambda与Kappa架构的简化需求，LinkedIn的Jay Kreps提出了Kappa架构。

（图片来源网络，侵删）

3、在数据库查询流程方面，Apache Calcite遵循与传统SQL数据库类似的流程。流程如下图所示：（此处省略流程图）接下来，我们将以通过Calcite实现异构数据源的Join查询为例，探讨异构查询的实现步骤和原理。首先，我们需要准备数据：学生信息和成绩信息，分别存储在MySQL和PostgreSQL中。接着，设计查询语句并执行。

大数据平台层级结构

1、大数据平台架构分为三层：原始数据层、数据仓库、数据应用层。原始数据层，也称ODS层，用于存储基础日志数据、业务线上库和其他来源数据，数据仓库通过ETL处理ODS层数据产出主题表。数据仓库分为基础层、主题层和数据集市，ODS层特性侧重查询与变动性大，数据仓库为企业层级，数据集市则偏向解决特定业务问题。

2、其生态系统从0版的三层架构演变为现在的四层架构：底层——存储层现在互联网数据量达到PB级，传统的存储方式已无法满足高效的IO性能和成本要求，Hadoop的分布式数据存储和管理技术解决了这一难题。

（图片来源网络，侵删）

3、标准大数据平台架构包括数据仓库、数据集市、大数据平台层级结构、数据挖掘等。数据架构设计（数据架构组）在总体架构中处于基础和核心地位。产品体验结构流程图产品的功能结构图、产品主要流程图、产品的核心流程等都是产品体验的重要组成部分。

浅析Lambda架构

在众多架构中，Lambda架构和Kappa架构是两种被广泛应用的模式。Lambda架构最初由Nathan Marz提出，它将数据处理流程分为离线和实时两部分。离线数据处理通常使用如Hive、Impala、Presto、Spark SQL等OLAP框架，而实时数据处理则依赖于流处理技术如Storm、Spark Streaming或Flink。

Lambda架构：侧重于分离实时与批处理。数据摄取层收集原始数据后，分别进行实时处理和批处理，但存在重复代码逻辑与计算资源管理问题。Kappa架构：将批处理与实时处理需求统一为流式处理。它简化为速度层与分布式批处理存储两部分，减少了重复处理与计算资源管理的复杂性。

Lambda架构，由Twitter工程师Nathan Marz提出，是一项专为大数据处理设计的架构，基于他在BackType和Twitter分布式数据处理系统中的实践经验。这一架构的核心在于构建可扩展且灵活的系统，能够处理大规模数据，并具备良好的故障容错性。

基于Lambda架构，整套系统通过Kafka对接流计算、Hbase对接批计算实现“实时视图”与“批量视图”。此架构能够高效满足在线与离线计算需求。新大数据架构 Lambda plus 考虑到Lambda与Kappa架构的简化需求，LinkedIn的Jay Kreps提出了Kappa架构。

Lambda架构：数据处理的革命性设计Lambda架构划分为三个层次：批处理层、加速层和服务层，构建了一种独特且高效的数据处理模型。批处理层，作为数据仓库，存储原始数据并生成批处理视图，适用于离线数据分析。而速度层（Speed Layer）则处理增量数据，实时更新实时视图，与批处理层形成了互补。

关于大数据处理的构架是什么，以及大数据处理的基本思想与架构的相关信息分享结束，感谢你的耐心阅读，希望对你有所帮助。

大数据处理的构架是什么