资讯专栏INFORMATION COLUMN

针对Hadoop MapReduce的数据处理API

Taonce / 1050人阅读

摘要:是一个新式的针对的数据处理,它使用富于表现力的来构建复杂的处理工作流,而不是直接实现的算法。同时还可以基于流程之间的依赖及其它元数据信息来有效地进行调度。事件通知流的各种步骤可以通过回调进行通知,以此告诉主机应用去报告和响应数据处理的过程。

Cascading是一个新式的针对Hadoop clusters的数据处理API,它使用富于表现力的API来构建复杂的处理工作流,而不是直接实现Hadoop MapReduce的算法。

  该处理API使开发者可以快速装配复杂的分布式流程,而无需“考虑”MapReduce。同时还可以基于流程之间的依赖及其它元数据信息来有效地进行调度。

  Cascading API的核心概念是管道和流。所谓管道,就是一系列处理步骤(解析、循环、过滤等等),这些步骤定义了将要进行的数据处理,而流就是带有数据源与数据接收器(data-sink)的管道的联合。换句话说,流就是有数据通过的管道。再进一步,  cascade就是多个流的链接、分支和分组。

  该API提供了很多关键特性:

  基于依赖的“拓扑调度(Toplogical Scheduler)”及MapReduce规划——这是cascading API的两个关键组件,它们可以基于依赖对流的调用进行调度;因为其执行顺序独立于构造顺序,这样就可以对部分流和cascades进行并发调用。此外,各种流的步骤被智能地转换成对应于hadoop cluster的map-reduce调用。

  事件通知——流的各种步骤可以通过回调进行通知,以此告诉主机应用去报告和响应数据处理的过程。

  脚本化——Cascading API有针对Jython、Groovy和JRuby的脚本化接口——这使其适合于常见的动态JVM语言

  有很多文档可用来学习cascading API的概念和实现。这儿有一篇PDF格式的介绍性概览,从高层展示了cascading API的核心概念。还有一个“介绍性示例”展示了如何创建一个简单的Apache日志解析器。最后,这儿还有一个完整的Cascading API的Javadoc文档。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3676.html

相关文章

  • Spark VS Hadoop:两大大数据分析系统深度解读

    摘要:实际上,就是大数据分析领域的重量级大数据平台。许多使用大数据集和分析工具的公司使用。它已成为大数据应用系统中事实上的标准。 大数据,无论是从产业上,还是从技术上来看,都是目前的发展热点。在中国,政府控制着80%的数据,剩下的多由BAT这样的大公司拥有,中小企业如何构建自己的大数据系统?其他企业如何建设自己的大数据系统? 推荐两大应用最广泛、国人认知最多的Apache开源大数据框架系统:...

    anRui 评论0 收藏0
  • Spark VS Hadoop:两大大数据分析系统深度解读

    摘要:实际上,就是大数据分析领域的重量级大数据平台。许多使用大数据集和分析工具的公司使用。它已成为大数据应用系统中事实上的标准。 大数据,无论是从产业上,还是从技术上来看,都是目前的发展热点。在中国,政府控制着80%的数据,剩下的多由BAT这样的大公司拥有,中小企业如何构建自己的大数据系统?其他企业如何建设自己的大数据系统? 推荐两大应用最广泛、国人认知最多的Apache开源大数据框架系统:...

    Loong_T 评论0 收藏0
  • Spark VS Hadoop:两大大数据分析系统深度解读

    摘要:实际上,就是大数据分析领域的重量级大数据平台。许多使用大数据集和分析工具的公司使用。它已成为大数据应用系统中事实上的标准。 大数据,无论是从产业上,还是从技术上来看,都是目前的发展热点。在中国,政府控制着80%的数据,剩下的多由BAT这样的大公司拥有,中小企业如何构建自己的大数据系统?其他企业如何建设自己的大数据系统? 推荐两大应用最广泛、国人认知最多的Apache开源大数据框架系统:...

    leoperfect 评论0 收藏0
  • Spark VS Hadoop:两大大数据分析系统深度解读

    摘要:实际上,就是大数据分析领域的重量级大数据平台。许多使用大数据集和分析工具的公司使用。它已成为大数据应用系统中事实上的标准。 大数据,无论是从产业上,还是从技术上来看,都是目前的发展热点。在中国,政府控制着80%的数据,剩下的多由BAT这样的大公司拥有,中小企业如何构建自己的大数据系统?其他企业如何建设自己的大数据系统? 推荐两大应用最广泛、国人认知最多的Apache开源大数据框架系统:...

    stormzhang 评论0 收藏0
  • Spark VS Hadoop:两大大数据分析系统深度解读

    摘要:实际上,就是大数据分析领域的重量级大数据平台。许多使用大数据集和分析工具的公司使用。它已成为大数据应用系统中事实上的标准。 大数据,无论是从产业上,还是从技术上来看,都是目前的发展热点。在中国,政府控制着80%的数据,剩下的多由BAT这样的大公司拥有,中小企业如何构建自己的大数据系统?其他企业如何建设自己的大数据系统? 推荐两大应用最广泛、国人认知最多的Apache开源大数据框架系统:...

    liangdas 评论0 收藏0

发表评论

0条评论

Taonce

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<