资讯专栏INFORMATION COLUMN

程学旗:Hadoop平台存在三个方面的挑战

clasnake / 994人阅读

摘要:大规模数据处理的算法挑战程学旗从两个角度探讨了应用,一个是规模增长对规模数据处理算法的挑战。程学旗认为现在还是不够成熟,主要表现在以下三个方面首先在数据存储方面,低成本可扩展的问题。

       由中科院计算所主办“第四届Hadoop in china 2010中国云计算大会”9月4日在京召开。本次大会将有千余名Hadoop云计算技术精英与会交流,十余家知名互联网企业倾情出场,以及多位行业领袖的深度演讲。IT168将为您带来实时的精彩资讯。

图:中科院计算机所专家程学旗

  程学旗今天演讲的主题是大规模数据处理技术与挑战。他认为在大规模数据处理技术,互联网大规模企业是走在科研的前面,因为互联网本身就是裂变式的增长的。现在的网络服务、信息规模都是在裂变式增长,而现在的信息节点规模基本达到了十亿、百亿、万亿为单位的处理。那么Hadoop在这种数据规模下是怎样存储、组织和索引数据的呢?又该怎样去搜索和访问有价值的数据呢?程学旗表示这样大的规模处理也带来了巨大的挑战。

  大规模数据处理的算法挑战

  程学旗从两个角度探讨了Hadoop应用,一个是规模增长对Web规模数据处理算法的挑战。他认为面对这么大的网络和大规模的数据节点,如何找到合适的算法和处理策略是很重要同时也是一个巨大的挑战。理论跟实践的结合也是很重要的,有些算法可能很好,但是在实践中未必会发挥实际作用。程学旗认为现在对数据的分析大概方法就是密度估计、分析、分类、检测等等,他表示数据算法以后也会有很多很多,但是这些算法能否有通用的机制进行性能质的改进,本质上他做一些提升,有没有这样的机制?这是一个非常大的挑战。 程学旗认为算法和数据的一些认识和方法能否产生价值和作用可以从两个方面考虑:第一现在的算法网络化之后我们要重新思考这个算法机制的问题,第二,云计算能不能对这些算法进行有效的支持。

  针对算法问题程学旗也举了两个技术,第一个是推荐技术,比如说一个人从行为的开发性买了啤酒、尿布、牛奶,从网上处理的时候这个规模非常大,但实际上放到我们模型上非常的稀疏。这个时候以计算的视角,大规模的系统空间里面要从不同的视角考虑怎么样去移植云计算,如果说最优化的方法是按方的话,那么在多视角情况下可能要按立方求解。第二个是网络社区,比如说在QQ群里面有不同的社区,有一些社区是显示存在的,有些是隐性的,而且交织在一起的。所以社区现象是网络信息的分布,网络形态的一个基本的现象。这个基本的现象为什么要进行研究?从商业价值来看,对这种产品的推广,提高朋友的推荐,环境的推荐、用户黏性增强都很有价值。但是做一个社区分析如果把它变成一个简单从物理来看是一个很简单的思路,比如说一个网络的点,这些最简单的办法就是用有效的方法去连接稠密给它找出来。当然在互联网里面,在Web情况下,它实际上也是一个大规模稀疏这样一个网络。在稀疏网络里面去发现社区,实际上它是一种指数型的方法。程学旗认为算法自身也面临一些困境,这些都需要大家一起来解决。

  大规模数据处理的维度问题

  程学旗说到的第二个问题就是维度问题。最简单的就是搜索,在搜索中,下一个空间模型,一个文本下一个空间可能是十万以上,高维度就可能带来维数灾难,而随着维数的增加,就会极大地增多问题的处理难度,同时也会大大降低时效性。对于这种高纬度数据,压缩技术也显得很重要,程学旗认为可以参考基于有效的纬度的约减的压缩,该压缩方式本身也可以去噪音。除此之外数据挖掘也是一项重点,挖掘就包括:广告挖掘、文本挖掘、图象检索、入侵检测、电板设计等等。

  Hadoop存在三个方面的挑战。

  程学旗认为Hadoop现在还是不够成熟,主要表现在以下三个方面:首先在数据存储方面,低成本可扩展的问题。程学旗从公开的数据看到就是在Hadoop目前集群中裸数据的容量12P左右,每天的增加的商业数据是20T-30T。这样每天的更新就带来存储管理上的挑战与压力。第二是文件和数据的管理方面,程学旗介绍说我们在Hadoop上看到一些老的数据,比如说Flicr的文件是30亿张图片,Facebook是600亿张图片。怎么样做到这种大规模小文件和大文件的并存的情况下如何做到管理的灵活性、方便性和性能高效,这实际上是目前我们很多商业化云计算平台需要重点要解决一个问题。也就是说如何构建支持高效率存储访问的大规模的小文件管理,以及大文件和小文件如何共同管理,这是目前海量数据存储面临一个问题。最后就是基于MR数据计算的问题。程学旗介绍在大的任务分发的时候,每一个MAP需要传输一个文件过去,每次都需要一个磁盘的I/O和一次网络传输,当多个Reduce同时读取同一个节点上的MAP输出数据时磁盘带宽将形成瓶颈,极大的降低通信性能。所以如何在支持运行时容错的同时进行高效数据传输,分布式数据处理平台如何更好的支持复杂算法?

  程学旗今天的演讲中主要讲了两个圈子里的人:做算法、分析的圈子和做架构、设计的圈子。这两个不同的圈子现在已经开始在思考他们怎么样结合了。当然至少现在还没有很好的突破点,未来的话也许是一个巨大的挑战。最后程学旗表示中科院计算所将大力支持开源。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3695.html

相关文章

  • Hadoop专家分享大数据技术工具与最佳实践

    摘要:月日月日,与大数据技术大会在北京新云南皇冠假日酒店已经成功落下帷幕,但留给整个技术界的深思还有很多。在与大数据技术大会上,将推出了基于发行版的免费版,供开发者和商业用户学习测试。 11月30日-12月1日,Hadoop与大数据技术大会(HBTC 2012)在北京新云南皇冠假日酒店已经成功落下帷幕,但留给整个技术界的深思还有很多。会场上,五十余位讲师干料十足的实践经验掀起了场内场外阵阵讨论的热...

    ssshooter 评论0 收藏0
  • 不看不知道:六个超大规模Hadoop部署案例

    摘要:一个新项目准备把的元数据存储区和合并成一个新系统,名为。此举目的在于,让营销小组能够通过我们开展的各项活动,评估外界对通用电气所持的看法正面看法中立看法或负面看法。的工程师与雅虎的工程小组密切合作,把推向更高的可扩展性和性能。 虽然Hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不 想猜测这个平台未来会如何,...

    hidogs 评论0 收藏0
  • 魅族大数据运维平台实践

    摘要:一大数据平台介绍大数据平台架构演变如图所示魅族大数据平台架构演变历程年底,我们开始实践大数据,并部署了测试集群。因此,大数据运维的目标是以解决运维复杂度的自动化为首要目标。大数据运维存在的问题大数据运维存在的问题包括部署及运维复杂。 一、大数据平台介绍 1.1大数据平台架构演变  showImg(https://segmentfault.com/img/bVWDPj?w=1024&h=...

    shadajin 评论0 收藏0
  • 魅族大数据运维平台实践

    摘要:一大数据平台介绍大数据平台架构演变如图所示魅族大数据平台架构演变历程年底,我们开始实践大数据,并部署了测试集群。因此,大数据运维的目标是以解决运维复杂度的自动化为首要目标。大数据运维存在的问题大数据运维存在的问题包括部署及运维复杂。 一、大数据平台介绍 1.1大数据平台架构演变  showImg(https://segmentfault.com/img/bVWDPj?w=1024&h=...

    appetizerio 评论0 收藏0
  • 魅族大数据运维平台实践

    摘要:一大数据平台介绍大数据平台架构演变如图所示魅族大数据平台架构演变历程年底,我们开始实践大数据,并部署了测试集群。因此,大数据运维的目标是以解决运维复杂度的自动化为首要目标。大数据运维存在的问题大数据运维存在的问题包括部署及运维复杂。 一、大数据平台介绍 1.1大数据平台架构演变 showImg(https://segmentfault.com/img/remote/1460000011...

    fjcgreat 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<