资讯专栏INFORMATION COLUMN

Spark和Mesos的诞生之地,又在研究什么新技术?

高胜山 / 1303人阅读

摘要:大家对加州大学伯克利分校的可能不太熟悉,但是它的项目我们都有所耳闻没错,它就是和的诞生之地。专注于后者,是一个多用途低延迟的预测服务系统,根据机器学习以最低的延迟进行预测。在机器学习方面主要有三个目的其一,加速从被训模型中获取预测的速度。

大家对加州大学伯克利分校的AMPLab可能不太熟悉,但是它的项目我们都有所耳闻——没错,它就是Spark和Mesos的诞生之地。小数又那里听说了新的工具,一起来围观最前沿的技术吧!

加州大学伯克利分校电子工程和计算机学院的助理教授Joseph E. Gonzalez向我们介绍了该校实验室研究的最新情况。

AMPLab是加州大学伯克利分校一个为期五年的计算机研究计划,其初衷是为了理解机器和人如何合作处理和解决数据中的问题——使用数据去训练更加丰富的模型,有效的数据清理,以及进行可衡量的数据扩展。

AMPLab于去年11月份结束关闭。新的实验室就此开启——RISELab,另一个该校五年期项目,有着强力的财政支持,将聚焦于提供安全执行的实时人工智能系统。

RISELab的团队任务是前瞻性地推动大数据分析到一个更加深入的世界,在那个世界,AI是真实的,世界是可编程的。举个例子:围绕着“小型自主飞行器”管理数据设备,无论是无人机还是气垫汽车,都是数据在被高速且安全地处理着。

其他的挑战还包括安全领域,但不是传统意义上的访问控制。当然也包括类似 "homomorphic" encryption的概念,加密数据可以直接被使用不需要解码。“如果没有对云的理解,我们如何预测云上的数据?” Gonzalez如是说。

尽管实验室还处于初期阶段,一些项目已经浮现在人们面前:

Clipper

机器学习包括两项基本的工作:根据预测建立模型以及从模型提供预测。Clipper专注于后者,是一个多用途、低延迟的预测服务系统,根据机器学习framework以最低的延迟进行预测。

Clipper在机器学习方面主要有三个目的:其一,加速从被训模型中获取预测的速度。其二,在多个机器学习framework上提供一个抽象层,开发者只需要编程一个API即可。其三,Clipper的设计让它可以动态地响应,如单个模型响应请求。举例来说,允许一个给定模型对特定类型的问题进行优先级的回复。目前还没有明确的机制,但已是未来的趋势。

Opaque

目前看来RISELab的项目会补足AMPLab余下的工作。Opaque就是其中之一:Opaque和Apache Spark SQL一起为DataFrame提供强力的安全保障。它使用Intel SGX处理器的扩展部分,把DataFrame标记为加密,所有的操作都在"SGX enclave"下执行,数据就地使用AES算法加密,只有通过硬件层保护的应用使用它时才可见。

没有性能损耗的情况下,它提供了同态加密(homomorphic encryption)的优势。使用SGX的性能损耗大概在50%,但是当前最快的同态算法实现起来也要比它慢2000倍。另一方面,SGX的处理器在云上还未提供,尽管Gonzalez表示近期将会实现。最大的障碍在于,为了让它能够工作,“你必须相信Intel”。

Ground

Ground是一个数据湖(data lake)context管理系统。它提供了在Java中实现一个RESTful服务的机制,让用户去推论他们拥有什么数据,数据从哪里来向哪里去,谁在使用数据,数据何时变化,为什么会有这种变化等。

数据聚合(data aggregation)已经从严格的数据仓库型管理中移除,向开放且灵活的数据湖接近,但是也让追踪数据形成变得很难。在某些方面,弄清楚谁改变了给定数据集以及如何改变,比了解数据本身更重要。Ground提供了一个通用API和追踪信息的元模型,可以和很多数据储存库一起工作。

Gonzalez承认定义RISELab的目标并不容易,但是他表示,“它的核心在于从如何建立高级分析模型、如何分析数据到如何利用洞察来做出决定的转型过渡——将Spark和大规模分析的产品与世界连接”。

作者:Serdar Yegulalp

文章来源:http://www.infoworld.com/arti...

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/8256.html

相关文章

  • SparkMesos诞生之地又在研究什么技术

    摘要:大家对加州大学伯克利分校的可能不太熟悉,但是它的项目我们都有所耳闻没错,它就是和的诞生之地。专注于后者,是一个多用途低延迟的预测服务系统,根据机器学习以最低的延迟进行预测。在机器学习方面主要有三个目的其一,加速从被训模型中获取预测的速度。 大家对加州大学伯克利分校的AMPLab可能不太熟悉,但是它的项目我们都有所耳闻——没错,它就是Spark和Mesos的诞生之地。小数又那里听说了新的...

    frolc 评论0 收藏0
  • 盘点Hadoop生态圈:13个让大象飞起来开源工具

    摘要:与相同的元数据语法驱动程序和用户接口,可以直接在或上提供快速交互式查询。目前支持的组件包括及。 Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构,最早版本是2003年原Yahoo! Doug Cutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用 程序。低成本、高可靠、高扩展、高有...

    syoya 评论0 收藏0
  • 数据处理平台架构中SMACK组合:SparkMesos、Akka、Cassandra以及Kafk

    摘要:在今天的文章中,我们将着重探讨如何利用即以及堆栈构建可扩展数据处理平台。因此我们必须以分布式方式对此类数据加以处理,而在这类用例中将发挥重要作用。之上执行的各应用程序被称为框架,并利用处理资源供应及将任务提交至。 在今天的文章中,我们将着重探讨如何利用SMACK(即Spark、Mesos、Akka、Cassandra以及Kafka)堆栈构建可扩展数据处理平台。虽然这套堆栈仅由数个简单...

    CloudwiseAPM 评论0 收藏0
  • 关于 Mesos,你知道多少?

    摘要:是一个集群管理器,提供了有效的跨分布式应用或框架的资源隔离和共享,可以运行。更贴近于层,而在之上。所以有人称其为,或者分布式操作系统。你在这里可以看到使用的列表和有什么关联吗是一个为分布式应用提供一致性服务的软件,而是一个分布式应用。 showImg(https://segmentfault.com/img/bVrBZJ); 听过不少人在讨论 Mesos,然而并不是很明白 Mesos ...

    cartoon 评论0 收藏0
  • 关于 Mesos,你知道多少?

    摘要:是一个集群管理器,提供了有效的跨分布式应用或框架的资源隔离和共享,可以运行。更贴近于层,而在之上。所以有人称其为,或者分布式操作系统。你在这里可以看到使用的列表和有什么关联吗是一个为分布式应用提供一致性服务的软件,而是一个分布式应用。 showImg(https://segmentfault.com/img/bVrBZJ); 听过不少人在讨论 Mesos,然而并不是很明白 Mesos ...

    xietao3 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<