资讯专栏INFORMATION COLUMN

spark能用于生物计算吗?

3119555200 / 50人阅读

a

spark是一个用来实现快速,通用的集群计算平台,spark是可以用于生物计算的。Spark计算框架在处理数据时,所有的中间数据都保存在内存中。正是由于Spark充分利用内存对数据进行计算,从而减少磁盘读写操作,增大了框架计算效率,它们可以在同一个应用程序中无缝的结合使用,大大减少大数据开发和维护的人力成本和部署平台的物力成本。。

spark用于生物计算与Hadoop相比,Spark基于内存的运算效率要快100倍以上,基于硬盘的运算效率也要快10倍以上。Spark实现了高效的DAG执行引擎,能够通过内存计算高效地处理数据流。Spark编程支持Java、Python、Scala或R语言,并且还拥有超过80种的高级算法,除此之前,Spark还支持交互式的Shell操作,开发人员可以方便的在Shell客户端中使用Spark集群解决问题。

spark的兼容性比较强,Spark可以运行在Hadoop模式、Mesos模式、Standalone独立模式或Cloud中,并且还可以访问各种数据源,包括本地文件系统、HDFS、Cassandra、HBase和Hive等。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/127389.html

相关文章

  • Docker 与 Mesos 的前生今世 | 数人云CTO肖德时@KVM分享实录

    ...的Slave守护进程。集群由物理服务器或虚拟服务器组成,用于运行应用程序的任务,比如Java、Mysql Cluster、Hadoop 等。第二级调度由被称作Framework的“组件”组成。Framework包括调度器(Scheduler)和执行器(Executor)进程,其中每个...

    0x584a 评论0 收藏0
  • 入行数据科学一定要有研究生学历

    ...你考虑攻读与数据科学无关领域的博士学位(例如物理,生物学,化学),并且目标是找数据科学方面的工作,那么这条建议可有些刺耳:如果你离毕业还有18个月或更长时间,而且你确定自己想成为一名数据科学家,那么可...

    DrizzleX 评论0 收藏0
  • 三种技术的融合

    ...分析数据库的方向靠拢。 Parquet Parquet是一种列式文件,用于加速hive/impala这样的分布式计算引擎的查询速度。使用 parquet 加上了索引的 hive/impala/spark 这些已经很难说与 OLAP 数据库的差别是什么了。 Kylin/Presto 这些Hive的衍生物...

    沈俭 评论0 收藏0
  • 三种技术的融合

    ...分析数据库的方向靠拢。 Parquet Parquet是一种列式文件,用于加速hive/impala这样的分布式计算引擎的查询速度。使用 parquet 加上了索引的 hive/impala/spark 这些已经很难说与 OLAP 数据库的差别是什么了。 Kylin/Presto 这些Hive的衍生物...

    ShevaKuilin 评论0 收藏0
  • 三种技术的融合

    ...分析数据库的方向靠拢。 Parquet Parquet是一种列式文件,用于加速hive/impala这样的分布式计算引擎的查询速度。使用 parquet 加上了索引的 hive/impala/spark 这些已经很难说与 OLAP 数据库的差别是什么了。 Kylin/Presto 这些Hive的衍生物...

    zhongmeizhi 评论0 收藏0

发表评论

0条评论

3119555200

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<