资讯专栏INFORMATION COLUMN

如何克服云端数据仓库数据迁移问题?

sumory / 2399人阅读

摘要:如果我们可以克服一些数据迁移的挑战,将一个数据仓库以及其数据分析工具从数据中心中的专用服务器转移到基于云的文件系统和数据库就可以解决这个问题。数据迁移工具辅助向云端迁移从数据库抽取数据很容易,从数据库中有效挖掘大容量数据确是一项挑战。

云计算和数据仓库是合理的一对。云存储可以按需扩展,云可以将大量服务器贡献于某一具体任务。数据仓库通用功能是本地数据分析工具,受到计算和存储 资源的限制,同时也受到设计者考虑新数据源集成的能力的限制。如果我们可以克服一些数据迁移的挑战,将一个数据仓库以及其数据分析工具从数据中心中的专用 服务器转移到基于云的文件系统和数据库就可以解决这个问题。


云端数据管理通常牵扯到在分布式文件系统中加载和维护文件,像Hadoop分布式文件系统(HDFS),随后用类似MapReduce这样的工具处理数据。对于数据仓库和其他的分析人物,像Hive这样的数据库工具在分布式文件系统之上提供了类SQL的功能。


尽管传统关系型数据库管理系统和云端非关系型数据库之间可以并行描述,但是在两个片段之间转移数据时,不同的运行方式会导致问题。抽取、转换和加载流程甚至会造成更多挑战。


数据迁移工具辅助向云端迁移

从数据库抽取数据很容易,从数据库中有效挖掘大容量数据确是一项挑战。如果由于数据量的增长,数据仓库面临性能或者存储问题,可能就是时候考虑使用运资源了。下面提供了一些工具来协助从关系型数据库加载数据到云文件系统和数据库。


专业工具,像Sqoop(SQL-to-Hadoop)生成代码从关系型数据库抽取数据,并将其拷贝到HDFS或者Hive。Sqoop使用JDBC驱动,同多种类型的关系型数据库工作,但是通过JDBC推出大量数据导致了性能成本。


为了迁移到云端,从关系型数据库抽取数据时,你可能需要进行数据转换。如果你所工作的所有数据来自于单一数据库,就可以在源数据库中进行转换。如果 从两个分离的系统合并数据,在抽取之后再转移数据源更有效。然而,你应该在加载数据到最终数据存储库之前做这些。Cascading数据处理API可以协 助这项任务的进行。


Cascading提供了运行在Hadoop之上的功能,像工作流处理、计划和调度。就比如说,它同管道过滤器工作;数据应用过滤器通过管道从一个 源流到目的源。其他功能像grouping可以应用于数据流。Cascading用Java实现,在MapReduce工作中调用转换API。


如果你正在同MySQL共事,Sqoop介意使用MySQL转储功能绕离JDBC并更加有效地抽取数据。Sqoop也可以生成Java类,这个类可 以用于操纵加载数据并将其直接导入Hive。HIHO (Hadoop Input and Output)从关系型表抽取数据并提供一些基本的转换服务,像去重以及合并输入流。


当生成文件在将其加载到HDFS文件系统或者Hive数据仓库之前,要求最小化转换,你就能直接加载文件了。在确定目标表和分割规格后,Hive有 一个命令来加载数据。Pig是数据分析程序的一种高水平语言,尤其是和Java中的MapReduce编码对比的时候。它提供了一种基本的统计函数,你可 以在关系型数据库中找到(像min、max、count),在数学和字符串处理功能中也能找到。Pig支持架构化和非结构化文本文件的压缩。


云计算资源补充了数据仓库基础架构。然而,为将数据仓库转移到云端的利益较大化,适当结构化数据并使用正确的数据分析工具很重要。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3563.html

相关文章

  • 数据迁移工具辅助向云端迁移

    摘要:如果我们可以克服一些数据迁移的挑战,将一个数据仓库以及其数据分析工具从数据中心中的专用服务器转移到基于云的文件系统和数据库就可以解决这个问题。数据迁移工具辅助向云端迁移从数据库抽取数据很容易,从数据库中有效挖掘大容量数据确是一项挑战。 云计算和数据仓库是合理的一对。云存储可以按需扩展,云可以将大量服务器贡献于某一具体任务。数据仓库通用功能是本地数据分析工具,受到计算和存储资源的限制,同时也受...

    scq000 评论0 收藏0
  • 克服云备份和恢复的五大挑战

    摘要:但是,虽然解决备份和灾难恢复问题的答案已经改变,但这些关键问题仍然存在,并且在考虑云中的备份和恢复时,企业仍面临着五大挑战。一旦到位,企业将如何管理基于云计算的备份和灾难恢复准备备份和灾难恢复到云端的最后挑战是持续管理。Iland公司自从11年前开始提供服务以来,云计算的灾难恢复和备份服务几乎没有什么改变。如今,业务环境更加复杂,云采用已经成为主流,监管环境与10年前相比已大相径庭。但是,虽...

    robin 评论0 收藏0
  • 未来几年,云计算将如何演变

    摘要:虽然分析机构的看法各不相同,但公司产品副总裁分享了他对未来几年企业如何进入和应用云计算环境的预测。无论如何,企业的业务向云端迁移仍将继续实施,但大多数企业肯定不会在短短六年时间内部署基于云计算的战略。如今,许多企业在云端运营业务,以利用这些环境中提供的可扩展性和灵活性。研究机构Gartner公司预测,随着越来越多的组织将业务迁移到云端,到2025年,80%的企业将不再运行其内部部署数据中心。...

    Joonas 评论0 收藏0
  • 随着云应用的增长,企业如何利用云计算使业务成长?

    摘要:事实上,云计算应用的快速增长正在彻底改变全球市场和基础设施的发展趋势。在调查中,只有的受访者认为自己最终对云计算服务中存储的数据的合规性负责。云计算服务提供商的服务级别协议不包括数据保护。如今,只要人们了解一下云计算市场,可以看到其发展非常健康。事实上,云计算应用的快速增长正在彻底改变全球市场和IT基础设施的发展趋势。云计算正在改变人们在企业所有职能上的工作方式。从公司办公室到工厂车间,从分...

    TalkingData 评论0 收藏0
  • 如何克服公共云存储面临的挑战

    摘要:但公共云可以带来的灵活性意味着业务需求越来越强大,那么企业面临的挑战是什么以及如何克服这些挑战,以便采用公共云存储成为企业的选择面临的挑战重力数据具有批量大小和重量。行业专家最近与一家大型企业的技术团队讨论云计算策略,其中一个主要关注点是使用公共云存储。他们认为公共云存储提供了灵活性、敏捷性,以及分散风险的机会,并且可以摆脱服务提供商的锁定。但很多企业表示正在面临重大挑战,这并不罕见。虽然云...

    lavor 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<