资讯专栏INFORMATION COLUMN

Hadoop——Microsoft大数据战略的核心

赵连江 / 3204人阅读

摘要:如今,已经将作为自身大数据战略的核心。推出了被称之为的流数据解决方案。展望未来,对兼容性的承诺意味着,流数据解决方案以及会作为环境的一部分与分布式作为核心产品推出。总结大数据战略确保平台能够在大数据时代继续发挥自身的作用。

众所周知,大数据浪潮正在渐渐的席卷全球的各个角落。而Hadoop正是这股风暴的动力之源。Microsoft更是史无前例的与Apache Hadoop社区合作。Microsoft此举就是希望利用自己在软件领域的优势构建一个打上Microsoft烙印的Hadoop生态圈。

 

如今,Microsoft已经将Hadoop作为自身大数据战略的核心。Microsoft此举的理由就是看中了Hadoop的潜力,在大数据领域Hadoop已经成为分布式数据处理的标准。通过集成Hadoop技术,Microsoft允许客户访问快速增长的Hadoop生态系统。同时随着越来越多善于在Hadoop平台进行开发的人才涌出,这对Hadoop发展极其有利。

 

Microsoft的目标不仅仅是将Hadoop集成到Windows系统之中,Microsoft有意向Apache Hadoop社区贡献代码,并希望得到社区的采纳。最终使任何人都可以在Windows上运行纯粹开源的Hadoop。

 

打上Microsoft烙印的Hadoop

Microsoft的Hadoop版本目前发展到“客户技术预览版”的阶段。这意味着Microsoft在接受客户群体的评价,预计正式版会在2012年中期推出。Microsoft的Hadoop基于Windows Server平台或Microsoft云平台Azure之上。在将要推出的1.0版本之中,产品核心包括MapReduce、HDFS、以及Hadoop组件Pig和Hive。

 

Microsoft的目标是兼容所有的Hadoop组件。Hadoop生态系统中的Zookeeper、HBase、HCatalog和Mahout等组件也会被附加到Microsoft的Hadoop版本之中。

 

同时Microsoft推出的Hadoop还会与自身之前的商业智能分析产品做整合。

●Hadoop连接器将使Hadoop与SQL Server和SQL Server并行数据仓库之间的通信变得简单。

●Hive的ODBC驱动,允许任何Windows应用程序访问并对Hive数据仓库进行查询。

●Excel对Hive的访问,使数据直接从Hive移动到Excel和PowerPivot。

在后端,Microsoft对Hadoop进行了其他的改善,Microsoft将整合Active Directory方便访问控制。同时集成System Center用于管理人员管理。

 

Microsoft官方计划在即将于6月举行的TechED大会上公布有关WAAD(Windows Azure Active Directory)的更多细节。这与Microsoft在Windows Server系统上的Active Directory的概念如出一辙。未来使用ACS(Access Control Service)与现有的Active Directory部署时可保证良好的互操作性。

 

利用JavaScript API与C#进行Hadoop开发

 

对于Microsoft推出的Hadoop版本最具特色的特点之一是附加JavaScript API。Hadoop上的编程工作是乏味的,这就是为什么别的高级语言会出现(如Pig)。

 

Microsoft选择在Hadoop环境中添加JavaScript层,开发人员可以使用它创建MapRedcue的工作,甚至在浏览器模式下与Pig和Hive进行数据交互。JavaScript层所带来的真正优势是将自身集成到Hadoop商业环境中,这使得开发人员能够轻松创建内网分析环境以便于商业用户访问。

 

Microsoft通过Node.js将JavaScript引入服务器端的Windows Server以及Windows Azure平台之上。同时Microsoft计划将自身的JavaScript API贡献给Apache Hadoop开源社区。这对于Hadoop社区也是一个利好的消息。

 

更重要的是Microsoft使得使用.NET平台开发Hadoop应用成为可能。Microsoft计划直接利用现有Hadoop API使用.NET平台创建MapReduce任务。更高级别的接口或许将出现在未来的版本中。随着时间的推移,未来在Visual Studio中对Hadoop项目开发的支持将不断提高。同时未来运行在Azure之上的Hadoop项目将允许使用.Net Framework框架之上基于Common Language Runtime (CLR)语言(如C#语言)进行编程。

 

流数据处理系统与NoSQL

 

对于大数据人谈论最多的无疑是Hadoop,但流数据处理以及NoSQL对于大数据同样重要。对于Microsoft,他们自然会有所准备。Microsoft推出了被称之为StreamInsight的流数据解决方案。NoSQL方面,Microsoft也具备了Windows Azure平台上被称之为Azure Tables的NoSQL数据库。

 

展望未来,Microsoft对Hadoop兼容性的承诺意味着,流数据解决方案StreamInsight以及Azure Tables会作为Hadoop环境的一部分与Microsoft分布式HBase作为核心产品推出。同时现今的流数据解决方案(如Yahoo S4)将会与Microsoft相兼容。

 

与现有工具集成

Microsoft正倾向与向大数据工具集成现有的主要组件,这是否意味着Microsoft打算为企业提供一个综合数据科学平台?Microsoft大数据资深产品规划负责人Madhu Reddy给出了肯定的答案。Microsoft Hadoop开发工作的主要宗旨就是让人们使用熟悉的工具,Microsoft专注于与现有工具的互操作性。Microsoft此举涉及各个层面的使用人员,包括开发者、分析师、企业用户等。Excel是一个无处不在的软件,Excel与Hive的互联就是一个很好的例子。不过其他的工具也同样重要,如MATLAB、SAS或R。

 

总结

Microsoft大数据战略确保Windows平台能够在大数据时代继续发挥自身的作用。并使得在数据中心业务中使自身的云服务具备更强的竞争力。Microsoft的另一个做法是将大数据与自身庞大和多样化软件无缝集成。可以看出Microsoft的重点是进行大力整合。Microsoft与Apache Hadoop社区的合作确保了新的工具和天才的开发人员向这个平台迁移。(

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3729.html

相关文章

  • Hadoop——Microsoft数据战略核心

    摘要:如今,已经将作为自身大数据战略的核心。推出了被称之为的流数据解决方案。展望未来,对兼容性的承诺意味着,流数据解决方案以及会作为环境的一部分与分布式作为核心产品推出。总结大数据战略确保平台能够在大数据时代继续发挥自身的作用。 众所周知,大数据浪潮正在渐渐的席卷全球的各个角落。而Hadoop正是这股风暴的动力之源。Microsoft更是史无前例的与Apache Hadoop社区合作。Micros...

    caohaoyu 评论0 收藏0
  • 数据Hadoop解决方案形势

    摘要:新晋厂商的解决方案也有不俗的表现。在此次大数据解决方案评测中,表现强劲的厂商有和。根据该报告,虽然此次对大数据解决方案市场的评测只是一个开始,但是对于那些努力摆脱复杂的厂商局面的公司而言,该报告提供了很好的参考信息。   根据的Forrest报告,有很多公司都在努力挖掘他们拥有的大量数据,包括结构化、非结构化、半结构化以及二进制数据等,探索对数据的深入利用。下面是报告结论的其中一点:   大...

    Cheng_Gang 评论0 收藏0
  • Teradata与Hortonworks在Hadoop领域达成战略合作

    摘要:随着企业大数据分析业务的增长,同时也驱动了传统关系数据库管理技术厂商与开源供应商寻求合作的趋势。与的合作旨在帮助企业建立基于的大数据分析环境。是雅虎与硅谷风投公司在去年合资组建的公司。         随着企业大数据分析业务的增长,同时也驱动了传统关系数据库管理技术厂商与开源Apache Hadoop供应商寻求合作的趋势。         最近TeraData就在周二宣布将与Hortonw...

    tommego 评论0 收藏0
  • 不以“小”论英雄,对比IBM、AWS,谁才是HadoopMVP?

    摘要:正在逐渐成为现代数据体系结构的基石,而且我们仍会努力做出贡献回报社区,确保作为下一代数据平台的新内核能够将潜力全部发挥出来。 初创公司满怀热情地投身开源事业,积极地为开源社区贡献力量,推动Hadoop技术的更新和发展,而Amazon、IBM这样的大企业依靠Hadoop技 术不断丰富自己的产品,却很少为Hadoop社区做出贡献,这种搭顺风车的策略从短期来看似乎是成功的,它们通过投入最小的成本获...

    jemygraw 评论0 收藏0
  • 解读一个新IBM平台战略:云、数据分析与人工智能

    摘要:可以说,云大数据分析和人工智能正在成为的新灵魂。而在年创纪录产生的多项专利中,的专利是云大数据分析及认知计算相关。 IBM董事长及CEO Ginni Rometty现在,一个新IBM正在浮出水面。在IBM的2015年财报上写道:今天的IBM已经不仅是一家‘硬件、软件与服务’公司,而转型成为一家认知解决方案与云平台公司。在公司100多年的历史上,IBM第一次称自己是一家平台公司。IBM首席财务...

    Clect 评论0 收藏0

发表评论

0条评论

赵连江

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<