Poseidon：高效的分布式深度学习通信架构

caspar 发布于2019-04-25 18:14 / 4145人阅读

摘要：我们提出了，它是一个分布式在上可实现高效通信的架构。利用深度程序中的层级模型结构而叠加通信与计算，这样以减少突发性网络通信。此外，使用混合的通信方案，并根据层级属性和机器数量优化每一层同步所要求的字节数。表神经网络的评估。

论文：Poseidon: An Efficient Communication Architecture for Distributed Deep Learning on GPU Clusters

论文链接：https://arxiv.org/abs/1706.03292

深度学习模型在单 GPU 机器上可能需要花费数周的时间进行训练，因此将深度学习分布到 GPU 集群进行训练就显得十分重要了。然而相对于 CPU，拥有更大的吞吐量的 GPU 允许单位时间内处理更多的数据批量（batches），因此目前的分布式 DL 因为大量参数频繁地在网络中进行同步而表现不佳。

我们提出了 Poseidon，它是一个分布式 DL 在 GPU 上可实现高效通信的架构。Poseidon 利用深度程序中的层级模型结构而叠加通信与计算，这样以减少突发性网络通信。此外，Poseidon 使用混合的通信方案，并根据层级属性和机器数量优化每一层同步所要求的字节数。我们表明 Poseidon 能使 Caffe 和 TensorFlow 在 16 个单 GPU 机器上实现 15.5 倍的加速，而且该实验还是在有带宽限制（10GbE）并挑战 VGG19-22K 图像分类网络下完成的。此外，Poseidon 能使 TensorFlow 在 32 个单 GPU 机器上运行 Inception-V3 达到 31.5 倍的加速，相比于开源的 TensorFlow 实现 50% 的性能提升（20 倍加速）。

图1. 六层卷积神经网络

图 2：（a）参数服务器和（b）分布式 ML 的充分因子 broadcasting。

图 3：分布式环境中的（a）传统反向传播和（b）无等待（wait-free）反向传播。

表 2：用于参数同步的 Poseidon API。

图 4：Poseidon 架构的概览。

表 3：神经网络的评估。其中展示了单结点批量大小，这些批量大小是基于文献中的标准报告而选择的（通常较大的批量大小正好是 GPU 的内存大小）。

图 5：使用 Poseidon 平行化的 Caffe 和 40GbE 带宽训练的 GoogLeNet、VGG19 和 VGG19-22K，及它们训练时的吞吐量变化。单节点 Caffe 设置为基线（即加速=1）。

图 6：使用 Poseidon 平行化的 Caffe 和 40GbE 带宽训练的 Inception-V3、VGG19 和 VGG19-22K，及它们训练时的吞吐量变化。单节点 TensorFlow 设置为基线（即加速=1）。

图 7：在 8 个节点上使用不同系统训练三种网络的 GPU 计算分解和延迟时间。

图 8：使用 Poseidon 平行化的 Caffe 和不同网络带宽训练的 GoogLeNet、VGG19 和 VGG19-22K，及它们训练时的吞吐量变化。单节点 Caffe 设置为基线（即加速=1）。

图 9：（a）加速 vs. 节点数量和（b）使用 Poseidon TensorFlow 与原始 TensorFlow 训练 ResNet-152 的较佳测试误差 vs. epochs。

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

QQ群：81035754

GPU云服务器云服务器高效云架构深度学习的深度深度学习的学习学习深度学习的

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/4566.html

实现 TensorFlow 多机并行线性加速

摘要：在一个数据分析任务和任务混合的环境中，大数据分析任务也会消耗很多网络带宽如操作，网络延迟会更加严重。本地更新更新更新目前，我们已经复现中的实验结果，实现了多机并行的线性加速。王佐，天数润科深度学习平台负责人，曾担任 Intel亚太研发中心Team Leader，万达人工智能研究院资深研究员，长期从事分布式计算系统研究，在大规模分布式机器学习系统架构、机器学习算法设计和应用方面有深厚积累。在...

时飞 2019-04-25 18:17 评论0 收藏0

发表评论

登陆后可评论

0条评论

caspar

男|高级讲师

我要关注我要私信

TA的文章

第五章-Java修饰符#yyds干货盘点#

阅读 3889·2021-11-23 09:51
RAKsmart(RAK Cloud)：首购云服务器低至3折，云服务器产品全场8折优惠，香港云$9.

阅读 1936·2021-10-22 09:53
cubecloud，国庆限时促销，全场VPS 88，可选中国香港CN2 GIA/美国CN2 GIA/

阅读 1600·2021-10-09 09:56
深入css之去除inline-block元素之间的多余间隙

阅读 1096·2019-08-30 13:47
APICloud Github 5大开源项目集合展示

阅读 2400·2019-08-30 12:55
CSS技巧记录

阅读 1820·2019-08-30 12:46
display: flex;’布局下使用‘white-space: nowrap;’导致的问题

阅读 1309·2019-08-30 10:51
初探响应式布局 - 以小项目为例

阅读 2655·2019-08-29 12:43

资讯专栏INFORMATION COLUMN

上云采购季！| 2核2G4M爆款云服务器低至59元/年，更有多台、长期优惠，快来选购！

Poseidon：高效的分布式深度学习通信架构

相关文章

实现 TensorFlow 多机并行线性加速

发表评论

0条评论

caspar

男|高级讲师

TA的文章

第五章-Java修饰符#yyds干货盘点#

RAKsmart(RAK Cloud)：首购云服务器低至3折，云服务器产品全场8折优惠，香港云$9.

cubecloud，国庆限时促销，全场VPS 88，可选中国香港CN2 GIA/美国CN2 GIA/

深入css之去除inline-block元素之间的多余间隙

APICloud Github 5大开源项目集合展示

CSS技巧记录

display: flex;’布局下使用‘white-space: nowrap;’导致的问题

初探响应式布局 - 以小项目为例

最新活动