Spark 开篇

Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提 高了运行速度、并提供丰富的操作数据的API提高了开发速度。Spark可以计算:结构化、半结构化、非结构化等各种类型的数据结构,同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用 程序计算数据。Spark 集成了多种大数据工具和框架,如 Kafka、Cassandra、HBase、HDFS 等,形成了一个强大的大数据处理生态系统。Spark 的统一编程模型和强大的性能使其成为大数据分析、实时流处理和机器学习等领域的重要工具。

Spark 开篇
Linux软件安装实践

Linux 软件安装实践;记录了 zookeeper、Tomcat、Nginx、Hadoop、SQL、Spark、Flink 等软件的安装和遇到的问题,以供学习和参考;均用 Ubuntu 系统安装。

Linux软件安装实践