资讯专栏INFORMATION COLUMN

云计算系统宕机 如何才能不再盲目?

mrli2016 / 3022人阅读

摘要:宕机事件放大了云计算的重要性在六月发生的两次宕机事件都是由电气故障引起的。因此,云计算不仅实现了价格实惠,而且因为它依赖于多个云计算中心,从而赋予用户们决定他们应采取何种风险水平的能力,补充道。

如果我们可以从上个月发生的AWS停用事件中得到一个教训的话,那么我想应该就是“云计算故障总是会发生的”。IT专业人士以及其他的专家均表示,如果你希望在发生故障事件时你可以迅速作出反应,那么你较好事先就做好应对计划。

  根据不同应用程序和数据的不同重要等级,那些应对计划包括在客户自己的数据中心中运行冗余服务器,或使用多个云计算供应商来建立网络。

  时刻做好发生故障的准备,LiveFamily的创始人和CTO David Blinder说,LiveFamily是一个从事家谱研究的Facebook应用程序,同时也是位于华盛顿州Bellevue Intelius公司的一个部门。

   在Amazon网络服务(AWS)基础设施上运行的LiveFamily在六月中受到了两次停用事件的影响,虽然其危害并不是灾难性的。这部分是因为该 公司使用了RightScale公司的云计算管理包,如果情况需要而且用户愿意支付费用,该产品可重新分配路由和网络流量至不同的云计算供应商。

  但是,提供高层次弹性功能并不是免费。专家提醒说,客户需要自行决定哪些应用程序是真正关键重要的。

  IBM公司的业务连续性和弹性服务组向他们的潜在客户进行了一次调查,内容就是在建立托管服务前哪些应用程序是关键,IBM公司的杰出工程师Rich Cocchiara说。

  “让我们确定你需要拥有的服务等级,为你提供你所需要服务种类的服务等级对象和协议,”Cocchiara说。“顺便说一句,并不是所有的业务流程和应用程序都是一样的。”

  保护系统停用可以非常简单,就如同在客户的数据中心中保持私有云计算设备。或者,它可能需要在不同的AWS可用性区域设立镜像站点;它也可能很复杂,如运行多个云计算平台。

  “我们确实曾受到影响,但是我们的缓冲系统通过在发生问题时切换回本地处理与存储基础设施而挽救了我们,”匹兹堡LAN联盟主席Colin Dean说,这是一个举办视频游戏运动赛事的组织。“有某种故障安全的考虑是理想的,即在发生故障时,把你的网站转至备用。”

  AWS宕机事件放大了云计算的重要性

  AWS在六月发生的两次宕机事件都是由电气故障引起的。第二次停用事件源于东海岸发生的大规模雷电天气所引发电气备用系统发生不可事先预见的故障。停用事件也对公司位于美国东1区的可用区域之一造成了影响,该区域是AWS较大的一个,其中至少有10个数据中心。

  在6月29日至6月30日晚上的几个小时中,诸如Pinterest、Netflix以及Instagram等大量的大型网站都不可用。

  此外,宕机事件也造成了AWS“控制面板”的崩溃问题——这也使问题进一步恶化。

  就公司本身而言,Amazon已表示,公司将重新认证或更换未能正常运行的备用发电设备,同时调整硬件参数,如在切换发动机电源前等待多长时间以便于电源波动稳定下来。

  AWS表示,这次发生的宕机事件并未影响“显著”数量的客户,虽然只有一个基于云计算的交友网站表示,受停用事件影响它将更换云计算供应商。

  AWS没有透露有多少客户或用户受到了宕机事件的影响。

  LiveFamily有幸提前做好了应急预案,并在发生问题时成功地在不同的可用区域中运行AWS实例,虽然问题的发生是情有可原的,但是我们“确实受到了影响”,Blinder说。

  RightScale云计算管理:Opscode Chef简化恢复任务

  除了提供其他的云计算自动化功能,包括RightScale公司的云计算管理以及其他诸如Opscode公司的Chef在内的产品可以有助于简化客户从停用事件恢复的操作任务。

  “故障总是会发生的,”位于西雅图Opscode公司的CCO和共同创始人Jesse Robbins说,Opscode公司主要致力于Chef云计算基础设施自动化产品。

  与RightScale类似,Chef支持多种云计算平台,其中包括AWS、OpenStack、微软公司的Window Azure,同时该公司刚刚宣布支持Google公司的计算引擎。

  “如Chef这样的工具可帮助你在发生故障时自动转换至另一个云计算供应商或为你提供自己的云计算,”Robbins补充道。“如果你的前期准备工作做得充分,那么发生故障仅仅只是一次意外事件,一次紧急事件,而非一场灾难。”

   Jeremy Przygode是位于洛杉矶Stratalux公司的共同创始人和CEO,AWS的经销商,Opscode的客户。提供基于云计算技术管理服务的 Stratalux公司也有部分客户受到了六月下旬发生的停用事件的影响,但是公司处理事件显得从容不迫。“问题发生了,”Przygode说。

  运行多个云计算:复杂却有效

  对于那些真正无法承受停机时间的客户来说,诸如RightScale、Opscode以及其他供应商提供的工具可使客户运行多个云计算,但是这种做法是比较复杂的。

  “这真的很难做到,”位于康涅狄格州斯坦福德的Gartner研究公司首席分析师Kyle Hilgendorf说,“你必须在另一个供应商那里保留一个确切应用程序栈的镜像副本,然后你必须弄清楚如

  果其中一个发生故障时你该如何应对故障,切换至正常的云计算供应商。”

  事实上,很多专家都认为,在云计算中实施关键任务应用程序实际上可有助于防止停用事件。

  “我的专业背景告诉我,云计算是防止这些类型停用事件的工具,即提供某些客户用户之前不曾拥有过的某些功能,”IBM公司的Cocchiara说。

  “因此,云计算不仅实现了价格实惠,而且因为它依赖于多个云计算中心,从而赋予用户们决定他们应采取何种风险水平的能力,”Cocchiara补充道。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3968.html

相关文章

  • 盲目崇拜计算有风险

    摘要:打好地基三年做架构分析李宁沙爽盲目崇拜云计算有风险李宁沙爽盲目崇拜云计算有风险李宁沙爽年年末,沙爽离开联想集团来到李宁公司就任信息技术总监一职,试用期满后,代替转正报告交上去的是他用三个月时间撰写的页李宁集团未来三年组织业务规划书。 提及家喻户晓的李宁集团,这家几乎已成为国人骄傲的企业目前正在将步伐迈向信息化道路。其中,信息技术系统部门功不可没。李宁公司信息技术系统总监沙爽表示,他的团队致力...

    codecraft 评论0 收藏0
  • 阿里故障受用户质疑,腾讯们的机会来了!

    摘要:事故发生后,阿里云及时做了回应。玺哥认为,正在使用阿里云的许多大企业甚至中小企业,在考虑部署多云战略时,或将腾讯云列入优先考虑名单。3月3日凌晨,阿里云华北地区出现大规模宕机故障,多家互联网公司都遭到了服务突然中断的影响。事故发生后不久,阿里云官方凌晨回应称,华北2地域可用区C部分ECS服务器等实例出现IOHANG,经紧急排查处理后逐步恢复,此外将根据协议尽快赔偿。宕机,云服务商无法避免的事...

    Yangder 评论0 收藏0
  • 美国金融公司因使用服务省了数十亿美元

    摘要:美国金融行业监管局有的重要应用目前正运行于亚马逊云端服务上面,其中包括市场监测应用,每年因此节省万美元的费用。穆林斯负责与金融企业达成新的云服务协议。 配图:安全性不再是云服务客户最担心的事情北京时间3月19日消息,路透社今天撰文指出,对于美国金融公司而言,使用共享云服务的益处是显而易见的。市场研究公司IDC预计,得益于云服务,到2019年全球较大几家银行将节省150亿美元的庞大资金,技术基...

    Winer 评论0 收藏0
  • 如何利用URLOS和存储打造一个不惧怕宕机的网站环境

    摘要:观看视频教程教程将重点介绍如何使用标准版创建集群节点,以及怎样配合云存储服务搭建不惧怕宕机的网站服务。 现今大多数企业都具备开通网络业务的能力,不管是创建企业网站、企业在线服务、或者是交易平台、商城等等,这些技术都已经非常普及,只要投入相应的研发成本即可。所谓开国容易守国难,没有稳定在线能力,往往会让企业在关键时刻掉链子。 让我们来想像一下,例如在线商城正在进行秒杀活动,面对突如其来的...

    mikasa 评论0 收藏0
  • 如何利用URLOS和存储打造一个不惧怕宕机的网站环境

    摘要:观看视频教程教程将重点介绍如何使用标准版创建集群节点,以及怎样配合云存储服务搭建不惧怕宕机的网站服务。 现今大多数企业都具备开通网络业务的能力,不管是创建企业网站、企业在线服务、或者是交易平台、商城等等,这些技术都已经非常普及,只要投入相应的研发成本即可。所谓开国容易守国难,没有稳定在线能力,往往会让企业在关键时刻掉链子。 让我们来想像一下,例如在线商城正在进行秒杀活动,面对突如其来的...

    malakashi 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<