大数据 | 分类

大数据

2024-08-02

SparkSQL 是 Spark 的一个模块，专为处理结构化数据而设计，提供了对 SQL 查询的支持，使得用户可以通过 SQL 或 DataFrame API 进行高效的数据处理和分析。SparkSQL 允许无缝地在结构化数据（如 JSON、Parquet、Hive 表）和 RDD 之间进行转换，集成了 Catalyst 优化器和 Tungsten 执行引擎，从而实现查询优化和高效执行。此外，SparkSQL 还支持与多种数据源的集成，使其在大数据处理和分析领域具有广泛的应用。

大数据

Spark Core 是 Apache Spark 的核心模块，提供了对分布式内存计算和数据处理的基础支持，基于 RDD（Resilient Distributed Dataset）这一基本数据抽象，实现了高效的并行计算和容错机制。通过 SparkContext 与集群交互，DAG Scheduler 和 Task Scheduler 调度任务执行，Block Manager 管理数据块的存储和传输，用户可以通过丰富的 RDD API 构建和执行复杂的数据处理任务。Spark Core 支持批处理、交互式查询、机器学习和图计算等多种应用场景，是 Spark 生态系统的基础。

Spark 借鉴了 MapReduce 思想发展而来，保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。Spark可以计算：结构化、半结构化、非结构化等各种类型的数据结构，同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用程序计算数据。Spark 集成了多种大数据工具和框架，如 Kafka、Cassandra、HBase、HDFS 等，形成了一个强大的大数据处理生态系统。Spark 的统一编程模型和强大的性能使其成为大数据分析、实时流处理和机器学习等领域的重要工具。

Apache Hive 是一个用于大数据处理的开源数据仓库工具，最初由Facebook开发并于2010年贡献给Apache软件基金会。它设计的主要目的是使数据分析人员能够通过类SQL语言（即HiveQL）在Hadoop分布式文件系统 (HDFS) 上执行大规模数据查询和分析。Hive 是一个构建在 Hadoop 之上的数据仓库，它可以将结构化的数据文件映射成表，并提供类 SQL 查询功能，用于查询的 SQL 语句会被转化为 MapReduce 作业，然后提交到 Hadoop 上运行。

大数据

Hive

Hadoop MapReduce & YARN

2024-07-12

MapReduce是Hadoop中的分布式计算组件，它可以以分散->汇总（聚合）模式执行分布式计算任务MapReduce可供Java、Python等语言开发计算程序。YARN（Yet Another Resource Negotiator）是Hadoop 2.x版本引入的资源管理框架，用于集群资源管理和任务调度。它将MapReduce的资源管理和任务调度功能抽象出来，提供一个通用的资源管理平台，可以支持多种分布式计算框架。

Hadoop HDFS (Hadoop Distributed File System) 是一个分布式文件系统，设计用于在大型数据集上进行高吞吐量的数据存储和访问。它是 Hadoop 生态系统的重要组成部分，支持大规模数据处理和分析。为什么需要分布式存储？数据量太大，单机存储能力有上限，需要靠数量来解决问题数量的提升带来的是网络传输、磁盘读写、CPU、内存等各方面的综合提升。分布式组合在一起可以达到1+1>2的效果

AnJhon

但知行好事，莫要问前程