资讯专栏INFORMATION COLUMN

实时计算的技术难点

haobowd / 993人阅读

摘要:实时统计本质上就是,把计算的窗口从一天缩小到分钟级别甚至秒级。所以实时计算的核心是窗口。无论是百度的实时计算平台,还是唯品会,拉卡拉的集群,没有一家是把机制打开了的。很多实时计算平台都限于处理单流数据。

曾经天真的认为只要把 Storm 安装好之后,简单学习一下 Storm 的编程概念就可以把实时统计的工作完成了。毕竟实时统计无非就是加减乘除,并不牵涉到什么高深的机器学习算法。然后在实践中发现 Storm 根本没有提供实时统计所必需的很多基础设施和编程抽象,更不要说进行更复杂的通用实时计算了(比如关联两个事件流进行登陆时长统计之类的)。其实坑非常多:

1、如何实现按窗口统计。实时统计本质上就是micro batch,把 batch 计算的窗口从一天缩小到分钟级别甚至秒级。所以实时计算的核心是窗口。而 Storm 的编程模型里没有窗口,如何在上层实现滚动窗口,滑动窗口,累积窗口,甚至是更复杂的基于业务逻辑的时间窗口模型。如何用远小于数据量(5w/s级别)的内存(700多m)实现实时计算。

2、大数据量的处理,合并多partition的数据为统一的汇总结果。统计不但是时间维度的聚合,还包括空间维度的。不同机器的数据,一级级汇总到最后的一行结果。如何处理单机无法统计的数据量?传统的做法是按业务维度分片,分片聚合。新兴的做法是一些hyperloglog之类的概率统计数据结构来做到无需业务逻辑支撑的数据分片。

3、Storm的性能问题:来自于两个方面。逐条处理的模型导致消息处理的overhead 在总消耗中占比非常高,而且逐条处理非常不便于与外部系统做批量读取和存储。spout/bolt 同是承担物理上的分布模型又是编程的逻辑抽象,由于不了解 spout/bolt 的真实开销开发者很容易引入无谓的cpu消耗和网络消耗。如何在Storm上构建高效率的执行框架同时又保持简单的逐条处理模型?

4、高可用的实时计算:Storm内建的ack机制用在实时统计上就是一个笑话。无论是百度的实时计算平台,还是唯品会,拉卡拉的Storm集群,没有一家是把ack机制打开了的。为什么ack不适用于实时统计?如何基于 kafka low-level api实现基于消息重放的高可用机制?(特别是 Spark 1.3 的高可用设计和这个实现不谋而合)

5、Batch 计算和实时计算共享代码,甚至直接用 Storm 进行数据补录之类的 Batch 计算会引入哪些问题。特别是如何处理多 partition 数据处理同步问题?这个方向有很多公司都在尝试,不过敢直接拿实时计算平台算batch作业的,还真没有听说过。

6、很多实时计算平台都限于处理单流数据。如何在流式计算中实现多个数据流的 join?这种 join 的场景是计费。比如 Google 的广告平台 join 了 impression 流 和 click 流实现了对广告上的计费。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/8138.html

相关文章

  • UPYUN Open Talk :同盾,从零打造千万级实时风控云服务

    摘要:同盾技术总监张新波在第二期移动时代互联网金融的架构趋势中阐述了同盾是如何从零开始打造千万级实时风控云服务,具体介绍了同盾系统平台构建过程中主要需要解决的三大难题,以及解决这些问题的具体时实践过程。 同盾科技,是由阿里、Paypal 反欺诈专家创建的,国内第一家风险控制与反欺诈云服务提供商,其涉及领域包括电商、B2B、互联网金融、游戏等。同盾技术总监张新波在 UPYUN Open ...

    malakashi 评论0 收藏0
  • 倪江利:魅族推荐平台架构演进之路

    摘要:二魅族推荐平台现状第三代架构的核心需求为了解决上述问题,我们对魅族推荐平台架构进行了优化。魅族推荐平台现有架构分为三层运算层离线计算该层主要是离线对海量的数据进行建模加工,生产有价值的数据,如相似库相关库离线推荐结果等。 摘要:魅族拥有超大规模的用户量及海量数据,魅族推荐平台实现了在海量的数据中对算法模型进行在线及离线训练,在高并发的场景下实时进行预测为用户推荐更感兴趣的信息。同时支撑...

    cncoder 评论0 收藏0
  • 倪江利:魅族推荐平台架构演进之路

    摘要:二魅族推荐平台现状第三代架构的核心需求为了解决上述问题,我们对魅族推荐平台架构进行了优化。魅族推荐平台现有架构分为三层运算层离线计算该层主要是离线对海量的数据进行建模加工,生产有价值的数据,如相似库相关库离线推荐结果等。 摘要:魅族拥有超大规模的用户量及海量数据,魅族推荐平台实现了在海量的数据中对算法模型进行在线及离线训练,在高并发的场景下实时进行预测为用户推荐更感兴趣的信息。同时支撑...

    mtunique 评论0 收藏0
  • 计算是物联网基础,物联网可能改变云架构

    摘要:但是物联网的应用范围实际上正变得越来越大。要想充分发挥物联网的全部潜在优势,必须将云计算作为物联网的基础。综上所述,物联网可能会改变云计算的总体架构,但与此同时云计算对于实现这一变化也非常关键。因为物联网才是推动它们发展的唯一动力。随着时间的发展,物联网概念所涉及的东西越来越多。除了内置有内部传感器和处理器外,这些东西还直接与网络相连,在线传输它们的数据。虽然家庭自动化可能是这一概念的主要用...

    韩冰 评论0 收藏0
  • 多人线上K歌房实现难点解析

    摘要:支持人声控制伴奏控制除了通过声网的实时通讯网络实现基础的功能,基于声网的信令系统,一起场景解决方案还可以提供包括音量调节切歌演唱者切换等主播控制功能。 在今年Facebook F8大会上,Facebook宣布了将在Instagram Direct上开放一对一与群组视频聊天功能,这种新功能可以帮助用户使用实时视频聊天来相互连接,即使是他们没能相聚在一起。毫无疑问,社交领域的一线平台开始越...

    2450184176 评论0 收藏0

发表评论

0条评论

haobowd

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<