残月的技术日志

残月的技术日志

最新文章

SparkRDD

RDD RDD(Resilient Distributed Dataset)即弹性分布式数据集,数据集的全部或部分可以存储在集群的多台机子的内存上,当内存不够时,数据也可持久化到硬盘 RDD的主要特征: RDD都是只读的,但可以将RDD转换为新的RDD RDD是可分区的,每个分区对应一个Tesk执行
10
0
2023-06-18

Spark 流计算

什么是SparkStreaming 用于快速上手,有很多细节,后面有时间单独出 Spark Streaming 是Spark提供的一个流计算框架 点击跳转官方文档 与Flink类似,Spark Streaming也可从Kafka。Flume,TCP套接字等众多途径获取数据,也有map(),reduc
7
0
1023-06-23