SparkStreaming概述

Tecode 发布于2022-06-28 18:59 / 2098人阅读

摘要：但在企业中存在很多实时性处理的需求，例如双十一的京东阿里，通常会做一个实时的数据大屏，显示实时订单。这种情况下，对数据实时性要求较高，仅仅能够容忍到延迟分钟或几秒钟。

1 Spark Streaming是什么
它是一个可扩展，高吞吐具有容错性的流式计算框架

吞吐量：单位时间内成功传输数据的数量

之前我们接触的spark-core和spark-sql都是处理属于离线批处理任务，数据一般都是在固定位置上，通常我们写好一个脚本，每天定时去处理数据，计算，保存数据结果。这类任务通常是T+1(一天一个任务)，对实时性要求不高。

但在企业中存在很多实时性处理的需求，例如：双十一的京东阿里，通常会做一个实时的数据大屏，显示实时订单。这种情况下，对数据实时性要求较高，仅仅能够容忍到延迟1分钟或几秒钟。

实时计算框架对比

Storm

流式计算框架
以record为单位处理数据
也支持micro-batch方式（Trident）

Spark

批处理计算框架
以RDD为单位处理数据
支持micro-batch流式处理数据（Spark Streaming）

对比：

吞吐量：Spark Streaming优于Storm
延迟：Spark Streaming差于Storm

2 Spark Streaming的组件
Streaming Context

一旦一个Context已经启动(调用了Streaming Context的start())就不能有新的流算子(Dstream)建立或者是添加到context中
一旦一个context已经停止不能重新启动(Streaming Context调用了stop方法之后就不能再次调 start())
在JVM(java虚拟机)中同一时间只能有一个Streaming Context处于活跃状态一个SparkContext创建一个Streaming Context
在Streaming Context上调用Stop方法也会关闭SparkContext对象如果只想仅关闭Streaming Context对象设置stop()的可选参数为false
一个SparkContext对象可以重复利用去创建多个Streaming Context对象(不关闭SparkContext前提下) 但是需要关一个再开下一个

DStream (离散流)

代表一个连续的数据流
在内部 DStream由一系列连续的RDD组成
DStreams中的每个RDD都包含确定时间间隔内的数据
任何对DStreams的操作都转换成了对DStreams隐含的RDD的操作
数据源

GPU云服务器云服务器 sparkstreaming 分词概述概述流程概述

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/126030.html

大数据分析技术与应用

摘要：人工智能四常用大数据分析技术常见的大数据分析技术主要由以下几部分构成分布式的文件系统存储海量的非结构化数据例如等分布式的离线计算系统，对业务数据批量处理。 CDA数据分析研究院原创作品一、大数据概念大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信...

shinezejian 2019-06-26 18:41 评论0 收藏0

发表评论

登陆后可评论

0条评论

Tecode

男|高级讲师

我要关注我要私信

TA的文章

tensorflow指定cpu

阅读 3760·2023-04-25 20:09
香港云服务器这几天网络有没有丢包严重

阅读 3912·2022-06-28 19:00
EPC单机挂载UHOST-RSSD高速磁盘

阅读 3287·2022-06-28 19:00
GPU活动使用TIPS

阅读 3315·2022-06-28 19:00
为科研量身定制，UCloud推出“云极”高性能计算EPC

阅读 3447·2022-06-28 19:00
UCloud 2021年终特惠已开启，快杰O型ARM服务器上海节点重磅上线！

阅读 3085·2022-06-28 19:00
“懂运维、精运营、重服务” UCloud发布混合云多云管理平台UCMP

阅读 3348·2022-06-28 19:00
软件定义存储，UCloudStor存储⼀体机强势登场

阅读 2877·2022-06-28 19:00

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

SparkStreaming概述

相关文章

大数据分析技术与应用

发表评论

0条评论

Tecode

男|高级讲师

TA的文章

tensorflow指定cpu

香港云服务器这几天网络有没有丢包严重

EPC单机挂载UHOST-RSSD高速磁盘

GPU活动使用TIPS

为科研量身定制，UCloud推出“云极”高性能计算EPC

UCloud 2021年终特惠已开启，快杰O型ARM服务器上海节点重磅上线！

“懂运维、精运营、重服务” UCloud发布混合云多云管理平台UCMP

软件定义存储，UCloudStor存储⼀体机强势登场

最新活动