资讯专栏INFORMATION COLUMN

如何保证Hadoop数据湖不变成“数据洪水”

frontoldman / 926人阅读

摘要:但是如何保证数据湖不像南方水灾一样泛滥,依然是一个耐人寻味的话题。而且数据湖具备数据库的大部分特质,可以提供数据查询结构化数据处理报告等业务。如何保证数据湖不变成数据洪水数据洪一触即发但是,问题也就发生在这里。

数据湖的提出距今已经有了几年时间了,特别是在当今时代中,基于Hadoop建立的数据湖在大数据处理中占有的位置越来越重要。但是如何保证数据湖不像南方水灾一样泛滥,依然是一个耐人寻味的话题。

数据湖已满,如何防泛滥

数据湖洪水泛滥

数据湖十分灵活,同时具备可扩展和低成本的特点。其最初建立的目的十分简单,就是将所有形式的数据集中在同一处,这些数据包括了结构化数据、非结构化数据以及半结构化数据。这些数据可以是日志文件、点击流、邮件、图像、音频视频或者文本文件。

数据湖中数据类型繁杂

在这些数据中,非结构化和半结构化数据占据了很大一部分,但是由于我们的处理能力不同,一些数据可能在数据湖中存储了很长时间而不能被处理掉,这样就会一直积攒下来保留的现在。

诚然,数据湖可以帮助处理各种形式的数据,这其中以结构化数据为主。而且数据湖具备数据库的大部分特质,可以提供数据查询、结构化数据处理报告等业务。数据湖的较大价值在于数据利用、探索大数据的价值,预测未来结果并为企业提出相关建议,进而指导企业的进一步决策和行动。

如何保证Hadoop数据湖不变成“数据洪水”

“数据洪”一触即发

但是,问题也就发生在这里。因为基于Hadoop部署的数据湖的能力并不足以应付一切,而用户对数据湖又疏于管理。数据量随时间而增加,数据湖开始泛滥,进而有逐步发展成洪水的趋势。数据不能得到有效的分配,“数据洪”随时可能冲溃堤坝,水漫金山。

抗洪还得靠管理

那么数据湖要如何才能避免成为数据洪的悲剧呢?首先应该从根本上改变传统对数据湖的看法。把数据湖当作一个整体库存来管理是存在问题的,对于管理人员来讲,基于数据类型需要把数据湖分成一个个的区,分别处理管理。

基于Hadoop的数据湖需要分类

基于Hadoop的数据湖的区域划分归类对其而言十分重要。管理者需要对其需要提取的数据进行原始数据的保留,并且对其进行元数据标记,标明数据源、数据类型等。当被提取的数据处理完毕之后要对其统一规划并进行后续处理。

如果用户需要选择一些特定应用程序的数据,那么可以通过收集、转换,将来自不同数据源的数据全部带走并进行处理。最后,在处理工作完成后可以通过数据轨迹、处理日志等工具对处理过程进行审核,保障数据处理的完成度。

数据分类管理

这些问题说起来简单,但是做起来却是一件相当麻烦的事情。这要求企业拥有一套十分成熟的数据提取工具,用于数据转化、分类、标记以及其他任务。

而且不仅仅是企业关注这一问题,在Apache的Hadoop社区也有好多团队在致力于开发此类工具。事实上,此类工具更趋向于数据管理专业,这些对于企业来讲并不熟悉。而好消息是,一些相关的生态链已经在Hadoop领域开始形成,相信解决数据湖管理难题的工具将在不久后出现。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3926.html

相关文章

  • 一篇文看懂Hadoop:风雨十年,未来何去何从

    摘要:机器学习的开源项目除了之前的等,今年发生了很多令人瞩目的大事,迎来了数个明星巨头的重磅加入年月,开源前沿深度学习工具。由一个服务于分布式机器学习的框架和一组分布式机器学习算法组成,可将机器学习算法应用到大数据中。 本文分为技术篇、产业篇、应用篇、展望篇四部分技术篇2006年项目成立的一开始,Hadoop这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头,这个单词代表...

    Hanks10100 评论0 收藏0
  • 讨论:Hadoop社区与中国云计算开源展望

    摘要:如何发展壮大社区日前,由中科院计算所主办的中国云计算大会于月日在京落下帷幕图文专题,共有多名来自企业高校科研院所的技术爱好者参加了此次盛会。如何发展壮大Hadoop社区       日前,由中科院计算所主办的Hadoop 中国2010云计算大会 - Hadoop in China 2010于9月4日在京落下帷幕【图文专题】,共有600多名来自企业、高校、科研院所的Hadoop技术爱好者参加...

    acrazing 评论0 收藏0
  • MapR CEO: Hadoop将增强SQL 而不是取代

    摘要:知名商业供应商的则认为,将增强,而不是取代之。通过与达成战略合作伙伴,已经迅速进入市场中的第一阵营。增强,而不是被取代早期,所谓的运动的成功目标是如何尽快让非结构化数据模型被企业采用。 导读:Hadoop几乎成了非关系型数据模型的代名词,而SQL似乎被渐渐打入冷宫。知名商业Hadoop供应商MapR的CEO John Schroeder则认为,Hadoop将增强SQL,而不是取代之。 上个...

    zhongmeizhi 评论0 收藏0
  • Hadoop并行计算原理与分布式并发编程

    摘要:中的分布式文件系统能够实现数据在计算机集群组成的云上高效的存储和管理,中的并行编程框架能够让用户编写的并行应用程序运行更加简化。下面简单介绍一下基于进行分布式并发编程的相关知识上的并行应用程序开发是基于编程框架的。        我们通常说的分布式系统其实是分布式软件系统,即支持分布式处理的软件系统,它是在通信网络互联的多处理机体系结构上执行任务的,包括分布式操作系统、分布式程序设计语言及其...

    lauren_liuling 评论0 收藏0
  • 未来五年内将重塑大数据技术的五种趋势

    摘要:所谓大数据及其相关技术在经历了高度重视详细甄别以及吐故纳新之后,实际成果很可能与我们的认知存在较大差异。他们将探讨与大数据相关的各类话题,内容涵盖对抗贩卖人口未来发展方向乃至人工智能前沿技术。 请大家不要再纠结于一块磁盘能保存多少数据或者企业到底会不会采用Hadoop。关于大数据的真正问题在于,企业用户将如何使用Hadoop、我们的系统到底能在智能化道路上走多远、我们又该如何保证这一切都处于...

    learn_shifeng 评论0 收藏0

发表评论

0条评论

frontoldman

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<