资讯专栏INFORMATION COLUMN

Kaggle & UCloud,一起寻找宇宙中的超新星

tyheist / 1615人阅读

摘要:宋体宋体本次活动主题为我们的征途是浩瀚星海超新星识别,正是源于公众超新星搜寻项目。宋体针对这一问题,训练平台定制开发了基于切分物理机资源的功能,这也是本次参赛选手所应用的功能。

“星星发亮是为了让每一个人有一天都能找到属于自己的星星。” 这是《小王子》里的一句话。无论何时,只要我们将目光投向宇宙,无数温柔的星光总会穿越亿万年的时空,给我们力量。在茫茫星海中,你如何能发现一颗刚刚爆发的超新星呢?

有这样一个名为 “公众超新星搜寻” 的项目。该项目是星明天文台(Xingming Observatory)和中国虚拟天文台(China-VO)合作开展的面向普通大众的宇宙新天体搜寻项目之一,目前已累计发现超新星及河外新星候选体 26 颗,其中 15 颗超新星及 4 颗河外新星获得光谱认证。

如果在超新星搜寻中运用各种新技术,又会有怎样的结果呢?在 10 月 20 日的 Kaggle Days 活动中,UCloud、Kaggle 和诸多技术爱好者一起,用 AI 探寻超新星的奥秘。

本次 Kaggle 活动主题为 “我们的征途是浩瀚星海:超新星识别”,正是源于 “公众超新星搜寻” 项目。参与者需根据天文照片来判断该图片是否包含恒星,具体是根据旧照片和新照片的差异来进行判断,所有的天文图片素材均由中科院国家天文台和国家天文科学数据中心提供。

图:Kaggle Days 赛题

从海量的天文照片中识别超新星,不可或缺的便是图片的 AI 训练:通过算法模型对数据进行抽丝剥茧的查验、训练,以期达到最终的拟合效果模型。在此基础上,AI 的开发训练、测试验证以及线上部署,都是要建立在大吞吐量、高并发、高延展性的算力之上的。

因此,Kaggle 采用了 UCloud 提供的 AI PaaS 服务模式 ——UAI 交互式训练平台,为参赛团队提供了开箱即用的高算力 AI 训练平台支持,同时 UAI 通过一系列定制化开发的技术手段,相比此前的 AI 大赛,进一步降低了 GPU 资源的使用成本,和 Kaggle 共同帮助技术爱好者们圆梦 AI 探索宇宙。

技术 “低门槛”:开箱即用的高算力 AI 训练平台

在 Kaggle 线下竞赛中,参赛团队需要快速精准地完成数据的 AI 训练和算法模型的输出,这便对 AI 训练平台提出了如下要求:1、高效可靠的算力支持;2、具备良好的技术使用普适性。

图:Kaggle 根据选手研究速度和内容进行综合排名

UAI 交互式训练平台恰恰满足了 Kaggle 的需求。

1、UAI 平台依托 UCloud 强大算力支撑,提供 GPU 资源为主的高性能计算节点供使用者完成算法模型搭建。

2、UAI 基于 Jupyter 的交互式编程界面,简化了培训和部署模型,使用者无需关注底层技术架构便可实现开箱即用,使得参赛选手可以专注于使用 AI 解决最具挑战性的问题。除此之外,开箱即用的训练环境保证了每一位参赛选手在初始训练时都是基于同样的起点,保证了赛制公平公开的性质。

图:Jupyter Notebook 交互式训练环境

价格 “平民化”:让每一个人都能用上 AI

在这次 Kaggle Days 的赛场,我们看到了诸多来自各行各业的 AI 开发爱好者们。随着人工智能的普及,除了企业级的研究人员,也有越来越多的 “个人玩家” 加入了这个行列。在 AI 研究的道路上,AI 训练是必经之路,要想实现海量的数据分析,就必须用到高算力的 GPU 平台,而 GPU 的另一特点则是 “烧钱”。

此前 UAI 使用 GPU 资源的单价约为 5.1 元 / 小时,一个月便需要 3672 元,对开发者来讲是一笔不小的开销。在创新工场 DeeCamp 夏令营与 UAI 训练平台合作之后,我们看到了诸多在校学子对 AI 的热情与技术投入,UAI 团队也在继续思考:能否将 GPU 的价格做到更进一步的 “平民化”,让每一个人都能够用上 AI。

针对这一问题,UAI 训练平台定制开发了基于切分物理机 GPU 资源的功能,这也是本次 Kaggle 参赛选手所应用的功能。该功能通过硬件环境隔离和软件环境隔离的技术来实现:

1、硬件环境隔离:每台物理机上具备 8 块 GPU 显卡资源,在正常情况下只能整机同时租用。为了提高物理机上的 GPU 资源利用率,UCloud AI 开发团队使用 Docker 技术对物理机上的 GPU 显卡实现环境隔离,将 8 块显卡分配给 8 支参赛团队同时使用,每支团队仅能使用自己的显卡且相互之间互不干扰。

图:对物理机进行 GPU 资源软硬件环境隔离

2、 软件环境隔离:同时,Docker 技术还能保证每个参赛团队使用的软件开发环境是相对独立的,可以自由的安装科学计算软件包以及编写代码、运行调试等。

该功能下的 GPU 资源单价降至 3 元 / 小时,对比此前,每个月的花销减少了 1512 元,即单 GPU 节点下可为使用者节省 41% 的开销!

结语

除了 Kaggle Days,UAI 训练平台还为创新工场 DeeCamp 夏令营、全球 AI 挑战赛等各大 AI 培训 / 赛事提供了 AI 训练的 GPU 高算力资源与技术支持,越来越多的技术爱好者们接入了 UAI 训练平台。人工智能的浪潮已经席卷而来,UAI 的目标就是降低 AI 的门槛,让每一个开发爱好者都能够用上 AI。

关于 UAI,如果你想了解更多,敬请关注 “UCloud 技术” 公众号,后台回复 “AI” 即可获取 AI 技术干货福利包:UAI 技术讲义、实操演示视频、实践案例分享…… 更多干货等待热爱 AI 的你来解锁!

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/117600.html

相关文章

  • 一起再看执行上下文/作用域链/原型链

    摘要:试想一下现在写了一个函数,并没有调用这个函数,那么现在有执行上下文吗现在有作用域吗现在有作用域链吗现在有原型链吗执行上下文没有,执行上下文是调用时产生的。 作为小白入坑的这段时间,这三个概念很早便深入我心,但是却总感觉模模糊糊不知道该怎么讲清楚其中的关系,甚至有时候还会混淆,正好今天拿出来复盘一下。 举三个栗子 执行上下文 简单直白的讲执行上下文就是一种环境。 类比一个卖猪肉的宇宙人小...

    ninefive 评论0 收藏0
  • Kaggle冠军经验分享丨如何用15个月冲到排行榜的首位

    摘要:你是如何开始参加比赛的正如之前所说的,我一直在阅读大量机器学习和深度学习方面的书籍和论文,但发现很难将我学到的算法应用于小型数据集。机器学习中,你对哪个子领域最感兴趣我对深度学习的各种进步都很感兴趣。 showImg(https://segmentfault.com/img/bVboxKz?w=800&h=600); 作者 Kaggle Team中文翻译 MikaCDA 数据分析师...

    AnthonyHan 评论0 收藏0
  • 【最全资料汇总】如何12个月内成为数据科学家?

    摘要:是业务分析,大数据,数据挖掘,数据科学和机器学习的领先站点。播客在每一集中,主持人通过有趣的应用程序探索机器学习和数据科学。大家要关注的数据科学家和流行的网站和播客的创建者。 RoyalMail数据科学家Freddie Odukomaiya曾经用12个月的时间让自己成功的成为数据科学家,以下是他的经验分享和他所使用的学习资源。 以下内容译自https://blog.usejournal...

    sushi 评论0 收藏0
  • Kaggle入门级竞赛top5%排名经验分享】— 建模篇

    摘要:提取出中的信息特征缺失值同样,观察的缺失值情况缺失值处理发现两位都是女性。特征缺失值特征有的缺失值,较为严重,如果进行大量的填补会引入更多噪声。因为缺失值也是一种值,这里将缺失值视为一种特殊的值来处理,并根据首个字符衍生一个新的特征。 作者:xiaoyu 微信公众号:Python数据科学 知乎:python数据分析师 showImg(https://segmentfault.com/...

    iOS122 评论0 收藏0
  • Kaggle入门级竞赛top5%排名经验分享】— 建模篇

    摘要:提取出中的信息特征缺失值同样,观察的缺失值情况缺失值处理发现两位都是女性。特征缺失值特征有的缺失值,较为严重,如果进行大量的填补会引入更多噪声。因为缺失值也是一种值,这里将缺失值视为一种特殊的值来处理,并根据首个字符衍生一个新的特征。 作者:xiaoyu 微信公众号:Python数据科学 知乎:python数据分析师 showImg(https://segmentfault.com/...

    godlong_X 评论0 收藏0

发表评论

0条评论

tyheist

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<