实战Spark3 实时处理，掌握两套企业级处理方案（完结11章）

woaidaqipaiqiu1122 · · 496 次点击 · · 开始浏览

这是一个创建于的文章，其中的信息可能已经有所发展或是发生改变。

实战Spark3 实时处理，掌握两套企业级处理方案（完结11章） sprark提供实时计算的模块:SparkStreaming、StructuredStreaming Spark Streaming是构建在Spark Core基础之上的流处理框架，是Spark非常重要的组成部分。Spark Streaming于2013年2月在Spark0.7.0版本中引入，发展至今已经成为了在企业中广泛使用的流处理平台。在2016年7月，Spark2.0版本中引入了Structured Streaming，并在Spark2.2版本中达到了生产级别，Structured Streaming是构建在Spark SQL之上的流处理引擎，用户可以使用DataSet/DataFreame API进行流处理，目前Structured Streaming在不同的版本中发展速度很快。 Spark Streaming介绍什么是DStream Spark Streaming是构建在Spark Core的RDD基础之上的，与此同时Spark Streaming引入了一个新的概念：DStream（Discretized Stream，离散化数据流)，表示连续不断的数据流。DStream抽象是Spark Streaming的流处理模型，在内部实现上，Spark Streaming会对输入数据按照时间间隔（如1秒）分段，每一段数据转换为Spark中的RDD，这些分段就是Dstream，并且对DStream的操作都最终转变为对相应的RDD的操作。计算模型在Flink中，批处理是流处理的特例，所以Flink是天然的流处理引擎。而Spark Streaming则不然，Spark Streaming认为流处理是批处理的特例，即Spark Streaming并不是纯实时的流处理引擎，在其内部使用的是microBatch模型，即将流处理看作是在较小时间间隔内(batch interval)的一些列的批处理。关于时间间隔的设定，需要结合具体的业务延迟需求，可以实现秒级或者分钟级的间隔。 Spark Streaming会将每个短时间间隔内接收的数据存储在集群中，然后对其作用一系列的算子操作(map,reduce, groupBy等)。 Spark Streaming会将输入的数据流分割成一个个小的batch，每一个batch都代表着一些列的RDD，然后将这些batch存储在内存中。通过启动Spark作业来处理这些batch数据，从而实现一个流处理应用。 Spark Streaming编程步骤一个Spark Streaming一般包括以下几个步骤： 1.创建StreamingContext 2.创建输入DStream来定义输入源 3.通过对DStream应用转换操作和输出操作来定义处理逻辑 4.用streamingContext.start()来开始接收数据和处理流程 5.streamingContext.awaitTermination()方法来等待处理结束 Spark Streaming使用“微批次”的架构，把流式计算当作一系列连续的小规模批处理来对待。Spark Streaming从各种输入源中读取数据，并把数据分组为小的批次，新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候，一个新的批次就创建出来，在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时，批次停止增长。时间区间的大小是由批次间隔这个参数决定的，批次间隔一般设在500毫秒到几秒之间，由应用开发者配置。每个输入批次都形成一个RDD，以Spark作业的方式处理并生成其他的RDD。处理的结果可以以批处理的方式传给外部系统。 Structured Streaming中的关键思想是将实时数据流当作可以连续追加的表，这样可以将流计算以静态表的方式进行处理。 ![QQ截图20250113150759.png](http://static.itsharecircle.com/250113/a690e4848f3ed42179b17e4ed1392fb1.png)

496 次点击

加入收藏微博

收入我的专栏

上一篇：BAT大牛带你深度剖析Android 十大开源框架

下一篇：Spring Cloud 进阶 Alibaba 微服务体系自媒体实战（完结）

接收数据

批处理

框架

读取数据

0 回复

添加一条新回复（您需要登录后才能回复没有账号？）

请尽量让自己的回复能够对别人有帮助
支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`
支持 @ 本站用户；支持表情（输入 : 提示），见 Emoji cheat sheet
图片支持拖拽、截图粘贴等方式上传

实战Spark3 实时处理，掌握两套企业级处理方案（完结11章）

用户登录

今日阅读排行

一周阅读排行

实战Spark3 实时处理，掌握两套企业级处理方案（完结11章）

用户登录

今日阅读排行

一周阅读排行

给该专栏投稿 写篇新文章

收入到我管理的专栏 新建专栏

给该专栏投稿写篇新文章

收入到我管理的专栏新建专栏