资讯专栏INFORMATION COLUMN

《福布斯》:大数据带来高成本 Hadoop需继续完善

imtianx / 2733人阅读

摘要:在未来的到年,大数据已经成为私人和公共组织的战略关键。在大数据领域,的低成本和高扩展性是其关键因素。大数据带来了巨大的商业利益,但隐形成本和复杂性是现今发展的障碍。虽然大数据带来的好处显而易见,但和现在必须重新审视大数据的成本了。

现今我们已经进入了大数据时代,因为创新的数据管理技术的诞生,使得组织可以对所有的数据类型进行分析。这也使得企业每天都能够发掘出新的商业机会。


随着互联网技术的发展,当今网络中每天都在产生海量的信息,这其中包括半结构化和非结构化的数据。组织可以通过对海量信息的分析了解到他们客户真正需要的以及为什么需要的原因。但新的商业模式的真实成本还尚未被人们充分认识。


数据格式的多样化

从IT角度来看,信息结构类型大致经历了三次浪潮。必须注意这一点,新的浪潮并没取代旧浪潮,它们仍在不断发展,三种数据结构类型一直存在,只是其中一种结构类型往往主导于其他结构:


结构化信息——这种信息可以在关系数据库中找到,多年来一直主导着IT应用。这是关键任务OLTP系统业务所依赖的信息,另外,还可对结构数据库信息进行排序和查询;


半结构化信息——这是IT的第二次浪潮,包括电子邮件,文字处理文件以及大量保存和发布在网络上的信息。半结构化信息是以内容为基础,可以用于搜索,这也是谷歌存在的理由;


非结构化信息——该信息在本质形式上可认为主要是位映射数据。数据必须处于一种可感知的形式中(诸如可在音频、视频和多媒体文件中被听或被看)。许多大数据都是非结构化的,其庞大规模和复杂性需要高级分析工具来创建或利用一种更易于人们感知和交互的结构。


市场的领导者们对存储的多格式数据进行分析不止获得竞争的优势。通过对数据的分析使得他们可以更深入的洞察客户的行为模式,这直接影响到他们的业务。


两个特定的行业——电信和零售已经在数据仓库解决方案投入巨资。随着时间的推移,电信和零售两大行业通过对累积的大量客户事务和互动数据研究以确定关键的性能指标。例如每年的收入、每个客户通过网络获取促销信息所导致花费以及销售的高峰。


然而随着数据的激增,即使是市场的领导者也无法承受,传统的数据仓库已无法存储和管理PB级规模的原始详细数据。企业往往将数据备份到离线的磁带上,但这并不容易访问。业务的挑战无处不在,例如当圣诞节恰逢星期六时,企业就需要对7年前(恰逢圣诞节也是周六)的数据进行分析以便了解特定的模式。将大量的历史数据导入数据仓库不仅极具挑战性,同时成本也是非常昂贵的。


两大创新促进大数据发展

两个关键因素正在企业级规模大数据管理和分析中发挥作用。首先是网络创新,包括Facebook、Google、Yahoo已开发出一种大规模可扩展的存储和计算架构以管理大数据。Hadoop框架以低成本的硬件处理大型数据集,这使得处理PB级规模数据的成本大幅降低。


其次管理大数据的技术需求已经从不同的市场领域发展为日益增加的需求以及跨越多个部门的独特需求。随着越来越多的终端设备连接成千上万的移动应用,管理PB级规模数据的通信运营商预计数据将会有10-100倍的增长,这也迫使用户向4G或LTE网络转移。智能电网也受到大数据的影响,世界各地的城市都在加入新的“数字化电网”。金融服务机构看到交易和期权数据100%的复合增长,这导致金融机构最少将数据存储7年。


在未来的3到5年,大数据已经成为私人和公共组织的战略关键。事实上,在未来5年预计有50%的大数据项目会在Hadoop框架下运行。


目前的状况是传统的数据仓库的扩展性不佳,同时写入数据速度已经无法跟上数据产生的速度。而专门涉及的数据仓库在处理结构化数据时非常有效,但扩展硬件时的成本较高。


在大数据领域,Hadoop的低成本和高扩展性是其关键因素。例如一个处理PB级规模数据的Hadoop集群(125到250节点)的费用大约为100万美元,而每个节点每年的费用为4000美元。这对于企业级数据仓库的花费(1000万-1亿美元)来说只是一小部分。这样看来Hadoop似乎是一个不错的解决方案。问题是企业如何利用Hadoop并将其作为关键业务的核心技术。然后,现有设施与大数据生态系统的整合的整体经营真正成本的关键。


由于大数据的规模,如Yahoo的Hadoop系统共有50000节点和200PB的数据,管理这些数据需要更多的额外的存储能力。许多Web 2.0组织运行Hadoop完全依赖数据冗余。但如果企业是银行或通信行业就必须遵守基于标准的安全性、灾难恢复性和高可用性。Hadoop发展到今天也面临诸多的问题,面对这些挑战,Hadoop必须引入更复杂的数据管理和技术资源。


大数据时代催生数据科学家

在部署Hadoop处理大数据表面的背后,对开源平台的创新也催生了“数据科学家”这一新兴职业。数据科学家本质上更像是统计学家,他们有能力设计和利用MapReduce框架。Google的Hal Varian表示未来10年数据科学家将变成性感的工作,许多人认为我是在开玩笑,回过头来看,在20世纪90年代谁会猜到计算机工程师会成为性感的工作。


前LinkedIn数据科学家DJ Patil表示数据科学家是具备独特技能的。Bitly首席科学家Hilary Mason表达同样的观点,他认为数据科学家是融合数学、算法,并可从大数据中寻求问题答案的人。而现任LinkedIn首席数据科学家Monica Rogati认为数据科学家是黑客和分析师组成的混合体,他们通过数据发现本质。


纽约时报研发实验室的成员Jake Porway表示数据科学家是罕见的全才。数据科学家除了具备编程的能力外还需将各种来源的数据管理并利用统计学挖掘出蕴藏在内部的信息。


Kaggle总裁兼首席科学家Jeremy Howard认为一个伟大的数据科学家应具备创新、坚韧、好奇、深厚技术这四项素质。具备数据收集、数据改写、可视化、机器学习、计算机编程等技术的数据科学家使数据驱动决策并主导产品。他们更喜欢用数据说话。


MapReduce与现有设施的整合

MapReduce是一种处理大型及超大型数据集并生成相关的执行的编程模型。其主要思想是从函数式编程语言里借来的,同时也包含了从矢量编程语言里借来的特性。MapReduce将整个任务分解成成百甚至上千块小任务,然后发送到计算机集群中。


为了整合MapReduce,多数企业需要开发一个基于全新技术的基础架构,而对于技术人员的投资成本将很快超过对基础设施的投资成本。此外,为了充分利用现有的数据仓库和商业智能的基础设施,企业需要将现有的工具和技能与Hadoop加以整合。


大数据带来了巨大的商业利益,但隐形成本和复杂性是现今发展的障碍。Hadoop应进一步朝着提高可靠性和易于使用的方面进行完善。Apache是Hadoop发展的主要贡献者。未来对以下两个方面的的改进将改变易用性和成本。


●在Hadoop框架下充分利用SQL和现有的BI工具。

●压缩数据,这不仅会降低对存储需求,还会降低对节点的数量,并简化基础设施。


如果不改善这两个功能,大数据技能学习将需要更多的时间和成本。虽然大数据带来的好处显而易见,但CIO和CTO现在必须重新审视大数据的成本了。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3741.html

相关文章

  • Hadoop:从初出茅庐的小象变身行业巨人

    摘要:初出茅庐的小象变身行业巨人由于具备低成本和前所未有的高扩展性,已被公认为是新一代的大数据处理平台。如今已从初出茅庐的小象变成了行业的巨人,但仍需继续完善。而的将在在年推出,届时其还会与微软现有的工具联合处理任务。初出茅庐的小象变身行业巨人       由于具备低成本和前所未有的高扩展性,Hadoop已被公认为是新一代的大数据处理平台。就像30年前SQL(Structured Query L...

    wing324 评论0 收藏0
  • 布斯Hadoop——你不得不了解的数据工具

    摘要:框架成为当今大数据处理背后的最具影响力的发动机。机器学习各类组织需求的不同导致相关的数据形形色色,对这些数据的分析也需要多样化的方法。提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。 Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化、非结构化等)的能力。但这与之前有什么不同?现今企业...

    jsyzchen 评论0 收藏0
  • Hadoop掀起数据革命 三巨头齐发力

    摘要:大数据革命正以为中心如火如荼的进行着。这个价格对于关系数据库部署每至美元来说极具竞争优势。三巨头大数据领域齐发力在上月美国拉斯维加斯举行年度大会上院士总架构师宣布将在明年推出内置技术的旗舰级数据库管理系统。 开源的数据处理平台凭借其低成本、高扩展性和灵活性的优势已经赢得了多数网络巨头的认可。现在Hadoop将进入更多企业。IBM将在明年推出内置NoSQL技术的DB2旗舰级数据库管理系统。上个...

    doodlewind 评论0 收藏0
  • 原创翻译 | Hadoop和企业信息管理:利用数据的解决方案

    摘要:年看起来是在开源开发和更多的商业选择方面在企业层面上,由于企业信息管理仍然需要更多改进的大数据解决方案。是支持大数据的技术的极好解决方案,可以为业务用户提供真正的好处。到目前为止,许多想要管理多结构的大数据的组织可能会依赖来交付理想的结果。 过去几年,大数据在全球商业环境中的重要性已得到坚定的确认。2017年看起来是 Apache Hadoopimplementation (在开源...

    YacaToy 评论0 收藏0
  • 阿里巴巴为什么选择Apache Flink?

    摘要:从长远来看,阿里决定用做一个统一的通用的大数据引擎作为未来的选型。在阿里的现状基于在阿里巴巴搭建的平台于年正式上线,并从阿里巴巴的搜索和推荐这两大场景开始实现。目前阿里巴巴所有的业务,包括阿里巴巴所有子公司都采用了基于搭建的实时计算平台。 本文主要整理自阿里巴巴计算平台事业部资深技术专家莫问在云栖大会的演讲。 合抱之木,生于毫末 随着人工智能时代的降临,数据量的爆发,在典型的大数据的业...

    CoderBear 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<