Spark部署 | 标签

Spark 借鉴了 MapReduce 思想发展而来，保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。Spark可以计算：结构化、半结构化、非结构化等各种类型的数据结构，同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用程序计算数据。Spark 集成了多种大数据工具和框架，如 Kafka、Cassandra、HBase、HDFS 等，形成了一个强大的大数据处理生态系统。Spark 的统一编程模型和强大的性能使其成为大数据分析、实时流处理和机器学习等领域的重要工具。

大数据

Spark

Spark部署

Linux软件安装实践

2024-07-05

Linux 软件安装实践；记录了 zookeeper、Tomcat、Nginx、Hadoop、SQL、Spark、Flink 等软件的安装和遇到的问题，以供学习和参考；均用 Ubuntu 系统安装。

AnJhon

但知行好事，莫要问前程