如何应对云计算系统宕机？

greatwhole 发布于2019-04-25 16:52 / 1802人阅读

摘要：如果我们可以从上个月发生的停用事件中得到一个教训的话，那么我想应该就是云计算故障总是会发生的。宕机事件放大了云计算的重要性在六月发生的两次宕机事件都是由电气故障引起的。

如果我们可以从上个月发生的AWS停用事件中得到一个教训的话，那么我想应该就是“云计算故障总是会发生的”。IT专业人士以及其他的专家均表示，如果你希望在发生故障事件时你可以迅速作出反应，那么你较好事先就做好应对计划。

根据不同应用程序和数据的不同重要等级，那些应对计划包括在客户自己的数据中心中运行冗余服务器，或使用多个云计算供应商来建立网络。

时刻做好发生故障的准备，LiveFamily的创始人和CTO David Blinder说，LiveFamily是一个从事家谱研究的Facebook应用程序，同时也是位于华盛顿州Bellevue Intelius公司的一个部门。

在Amazon网络服务(AWS)基础设施上运行的LiveFamily在六月中受到了两次停用事件的影响，虽然其危害并不是灾难性的。这部分是因为该公司使用了RightScale公司的云计算管理包，如果情况需要而且用户愿意支付费用，该产品可重新分配路由和网络流量至不同的云计算供应商。

但是，提供高层次弹性功能并不是免费。专家提醒说，客户需要自行决定哪些应用程序是真正关键重要的。

IBM公司的业务连续性和弹性服务组向他们的潜在客户进行了一次调查，内容就是在建立托管服务前哪些应用程序是关键，IBM公司的杰出工程师Rich Cocchiara说。

“让我们确定你需要拥有的服务等级，为你提供你所需要服务种类的服务等级对象和协议，”Cocchiara说。“顺便说一句，并不是所有的业务流程和应用程序都是一样的。”

保护系统停用可以非常简单，就如同在客户的数据中心中保持私有云计算设备。或者，它可能需要在不同的AWS可用性区域设立镜像站点;它也可能很复杂，如运行多个云计算平台。

“我们确实曾受到影响，但是我们的缓冲系统通过在发生问题时切换回本地处理与存储基础设施而挽救了我们，”匹兹堡LAN联盟主席Colin Dean说，这是一个举办视频游戏运动赛事的组织。“有某种故障安全的考虑是理想的，即在发生故障时，把你的网站转至备用。”

AWS宕机事件放大了云计算的重要性

AWS在六月发生的两次宕机事件都是由电气故障引起的。第二次停用事件源于东海岸发生的大规模雷电天气所引发电气备用系统发生不可事先预见的故障。停用事件也对公司位于美国东1区的可用区域之一造成了影响，该区域是AWS较大的一个，其中至少有10个数据中心。

在6月29日至6月30日晚上的几个小时中，诸如Pinterest、Netflix以及Instagram等大量的大型网站都不可用。

此外，宕机事件也造成了AWS“控制面板”的崩溃问题——这也使问题进一步恶化。

就公司本身而言，Amazon已表示，公司将重新认证或更换未能正常运行的备用发电设备，同时调整硬件参数，如在切换发动机电源前等待多长时间以便于电源波动稳定下来。

AWS表示，这次发生的宕机事件并未影响“显著”数量的客户，虽然只有一个基于云计算的交友网站表示，受停用事件影响它将更换云计算供应商。

AWS没有透露有多少客户或用户受到了宕机事件的影响。

LiveFamily有幸提前做好了应急预案，并在发生问题时成功地在不同的可用区域中运行AWS实例，虽然问题的发生是情有可原的，但是我们“确实受到了影响”，Blinder说。

　　RightScale云计算管理：Opscode Chef简化恢复任务

除了提供其他的云计算自动化功能，包括RightScale公司的云计算管理以及其他诸如Opscode公司的Chef在内的产品可以有助于简化客户从停用事件恢复的操作任务。

“故障总是会发生的，”位于西雅图Opscode公司的CCO和共同创始人Jesse Robbins说，Opscode公司主要致力于Chef云计算基础设施自动化产品。

与RightScale类似，Chef支持多种云计算平台，其中包括AWS、OpenStack、微软公司的Window Azure，同时该公司刚刚宣布支持Google公司的计算引擎。

“如Chef这样的工具可帮助你在发生故障时自动转换至另一个云计算供应商或为你提供自己的云计算，”Robbins补充道。“如果你的前期准备工作做得充分，那么发生故障仅仅只是一次意外事件，一次紧急事件，而非一场灾难。”

Jeremy Przygode是位于洛杉矶Stratalux公司的共同创始人和CEO，AWS的经销商，Opscode的客户。提供基于云计算技术管理服务的 Stratalux公司也有部分客户受到了六月下旬发生的停用事件的影响，但是公司处理事件显得从容不迫。“问题发生了，”Przygode说。

　　运行多个云计算：复杂却有效

对于那些真正无法承受停机时间的客户来说，诸如RightScale、Opscode以及其他供应商提供的工具可使客户运行多个云计算，但是这种做法是比较复杂的。

“这真的很难做到，”位于康涅狄格州斯坦福德的Gartner研究公司首席分析师Kyle Hilgendorf说，“你必须在另一个供应商那里保留一个确切应用程序栈的镜像副本，然后你必须弄清楚如果其中一个发生故障时你该如何应对故障，切换至正常的云计算供应商。”

事实上，很多专家都认为，在云计算中实施关键任务应用程序实际上可有助于防止停用事件。

“我的专业背景告诉我，云计算是防止这些类型停用事件的工具，即提供某些客户用户之前不曾拥有过的某些功能，”IBM公司的Cocchiara说。

“因此，云计算不仅实现了价格实惠，而且因为它依赖于多个云计算中心，从而赋予用户们决定他们应采取何种风险水平的能力，”Cocchiara补充道。

GPU云服务器云服务器如何应对高并发如何应对人工智能高中生如何应对人工智能高中生应如何应对人工智能

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/3654.html

云计算系统宕机如何才能不再盲目？

摘要：宕机事件放大了云计算的重要性在六月发生的两次宕机事件都是由电气故障引起的。因此，云计算不仅实现了价格实惠，而且因为它依赖于多个云计算中心，从而赋予用户们决定他们应采取何种风险水平的能力，补充道。如果我们可以从上个月发生的AWS停用事件中得到一个教训的话，那么我想应该就是云计算故障总是会发生的。IT专业人士以及其他的专家均表示，如果你希望在发生故障事件时你可以迅速作出反应，那么你较好事先就做...

mrli2016 2019-04-25 17:27 评论0 收藏0
青云QingCloud：告别业务中断，企业如何建设真正的多活系统？

摘要：相比较微博的服务中断，来自金融业的服务中断所造成的影响和损失都要大很多。那么，在新的云计算时代，企业如何以更低的成本更低的门槛建立属于自己的新型多活系统正在成为一个新命题。近期，娱乐圈的百瓜齐放也让微博遭受了前所未有的饱和瓜击，微博的服务没有像之前那样，流量一旦直线上升就会出现宕机问题，的确有了不小的提升。但这并不意味着类似的宕机和服务中断问题就不多。在过去几年间，业界排名靠前的云计算厂商们...

yeooo 2019-04-29 19:32 评论0 收藏0
3分钟带你了解负载均衡服务

摘要：负载均衡服务一般都会有内外网隔离健康检查等功能，从而提高系统的安全性和可用性。很多负载均衡服务还会提供多支持，支持跨的高可用和后端部署。欢迎访问网易云社区，了解更多网易技术产品运营经验。一个互联网产品在搭建服务时可能经常会遇到以下困境：搭建的单节点 web服务性能和可靠性都无法达到要求，节点挂掉=服务异常；直接使用外网提供服务，经常会担心被人攻破，且公司运维团队水平较低，一不小心...

lunaticf 2019-06-28 11:01 评论0 收藏0
重新定义数据库的时刻，阿里云数据库专家带你了解POLARDB

摘要：演讲嘉宾简介蔡松露子嘉，阿里云云数据库总架构师，主要负责阿里云技术以及阿里云数据库整体架构等工作。也就是说以上的四点只是达到了云原生数据库的门槛值，还并不代表是这一个云原生的数据库。摘要：POLARDB是阿里云ApsaraDB数据库团队研发的基于云计算架构的下一代关系型数据库，其最大的特色是计算节点与存储节点分离，借助优秀的RDMA网络以及最新的块存储技术。POLARDB不但满足了公...

smartlion 2019-06-25 18:39 评论0 收藏0