资讯专栏INFORMATION COLUMN

Hadoop新角色:辅助数据仓库

joyvw / 2291人阅读

摘要:第二个是所谓的数据湖被一些厂商称为企业数据中心。实际上,核心数据仓库,辅助数据仓库和数据湖构成数据处理层次,并具有相应层次的成本。因为能够启用数据湖和辅助数据库场景,他们的实现能够使给企业用户明显的投资回报率。

曾经有段时间,大概两年前,SQL-on-Hadoop就要打开Hadoop的数据访问。这是基于以下两个原因:SQL自有的那些特征,消除Hadoop/MapReduce专家对数据访问的排他性。是的,一些架构细节也是重要的,比如SQL引擎是否直接触及Hadoop集群的数据节点。但是,大多数情况下,解决方案被巧妙地概括为:SQL,on Hadoop。

今天,SQL-on-Hadoop解决方案被认为是较好的,不是因为他们SQL引擎自身,而是他们能够使得Hadoop和传统数据仓库协作。Hadoop可以视为篡位者,数据仓库的同等或者外围部分;SQL-on-hadoop引擎,用来决定Hadoop这三个角色哪一个(或者更多)能被实现完成。

Gigaom研究刚刚发布行业路线:Hadoop/数据仓库互操作性。分析师George Gilbert调查了SQL-on-Hadoop市场,评估了六个解决方案。这六个“中断向量”的每一个或者主要趋势将影响市场和明年的玩家:模式灵活性、数据引擎互操作性、定价模式、企业可管理性、负载优化作用和查询引擎的成熟度。

场景

作为根据这些向量评价各种SQL-on-Hadoop产品的背景,Gilbert确定三个关键分析使用场景。第一个是核心数据仓库,许多学院派专家熟悉的概念:一个相当昂贵的基于硬件数据库平台提供高度组织化的数据,它的数据结构被优化为商业认为需要运行的查询类型。

第二个是所谓的“数据湖”(被一些厂商称为“企业数据中心”)。这里,Hadoop充当各种不同数据来源的收集点,包括无结构化,半结构化和结构化数据。Hadoop 2.0的YARN资源管理器促进使用各种分析引擎以特别的方式去探索“湖”的数据,由此数据仓库能够解脱出来,自由为设计和调整的查询服务。

实际上,核心数据仓库,辅助数据仓库和数据湖构成数据处理层次,并具有相应层次的成本。平台的分层选择能够使得较低产值的任务(不过,可以说,更高的商业价值)在较便宜的平台上处理——为企业组织产生更高的效率。

企业投资回报率

便宜了多少呢?Gilbert说,Hadoop成本每TB数据与基于硬件的数据仓库相比,至少少一个数量级。因为Hadoop能够启用数据湖和辅助数据库场景,他们的实现能够使Hadoop给企业用户明显的投资回报率。

一个悬而未决的问题是,是否并且何时Hadoop能够同样地在核心数据仓库中提供服务。如果能这样做,这将有助于数据仓库供应商,Hadoop分销商或者两者兼而有之?确实,这种动态性可能是预测未来分销商兼并由传统玩家主导——或者可能甚至是相反的。

原文链接:Hadoop’s new role: Adjunct data warehouse(译者:史红霞 责编/钱曙光)

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3886.html

相关文章

  • 数据迁移工具辅助向云端迁移

    摘要:如果我们可以克服一些数据迁移的挑战,将一个数据仓库以及其数据分析工具从数据中心中的专用服务器转移到基于云的文件系统和数据库就可以解决这个问题。数据迁移工具辅助向云端迁移从数据库抽取数据很容易,从数据库中有效挖掘大容量数据确是一项挑战。 云计算和数据仓库是合理的一对。云存储可以按需扩展,云可以将大量服务器贡献于某一具体任务。数据仓库通用功能是本地数据分析工具,受到计算和存储资源的限制,同时也受...

    scq000 评论0 收藏0
  • 优步在Hadoop上做增量处理的案例

    摘要:为了履行这一承诺,优步依赖于在每个层面做出数据驱动的决策。完整性和延迟之间的权衡在计算时,随着我们在流式处理增量处理和批处理之间变换,我们面临着相同的根本权衡。 优步的任务是提供对每个人来说,在任何地方都可以获得像自来水一样可靠的出行服务。为了履行这一承诺,优步依赖于在每个层面做出数据驱动的决策。大部分的决策都得益于更快的数据处理。例如,使用数据来理解一个地区以便于增加业务,或城市运营团队对...

    jsdt 评论0 收藏0
  • 数据框架hadoop服务角色介绍

    摘要:大数据框架服务角色介绍翻了一下最近一段时间写的分享,发行版本下载安装运行环境部署等相关内容几乎都已经写了一遍了。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 大数据框架hadoop服务角色介绍翻了一下最近一段时间写的分享,DKHadoop发行版本下载、安装、运行环境部署等相关内容几乎都已经写了一遍了。虽然有的地方可能写的不是很详细,个人理解水平有限还请见谅吧!我记得在...

    atinosun 评论0 收藏0
  • 如何克服云端数据仓库数据迁移问题?

    摘要:如果我们可以克服一些数据迁移的挑战,将一个数据仓库以及其数据分析工具从数据中心中的专用服务器转移到基于云的文件系统和数据库就可以解决这个问题。数据迁移工具辅助向云端迁移从数据库抽取数据很容易,从数据库中有效挖掘大容量数据确是一项挑战。 云计算和数据仓库是合理的一对。云存储可以按需扩展,云可以将大量服务器贡献于某一具体任务。数据仓库通用功能是本地数据分析工具,受到计算和存储 资源的限制,同时也...

    sumory 评论0 收藏0
  • 腾讯大规模Hadoop集群实践

    摘要:,腾讯分布式数据仓库基于开源软件和进行构建,打破了传统数据仓库不能线性扩展可控性差的局限,并且根据腾讯数据量大计算复杂等特定情况进行了大量优化和改造。经过四年多的持续投入和建设,已经成为腾讯较大的离线数据处理平台。 TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控...

    岳光 评论0 收藏0

发表评论

0条评论

joyvw

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<