【TensorFlow开源2年官方回顾】下一个重要方向是分布式模型服务

morgan 发布于2019-04-25 18:20 / 1715人阅读

摘要：自从年月开源以来，我们做了一些重大改进。现在，让我们再回到这个项目开始的地方，回顾我们的进展过程，并分享我们下一步的方向。

自从2016年2月 TensorFlow Serving 开源以来，我们做了一些重大改进。现在，让我们再回到这个项目开始的地方，回顾我们的进展过程，并分享我们下一步的方向。

在 TensorFlow Serving 启动之前，谷歌公司内的 TensorFlow 用户也必须从头开始创建自己的服务系统。虽然一开始服务看起来很容易，但一次性服务解决方案很快就会变得更复杂。机器学习（ML）服务系统需要支持模型版本控制（对于具有回滚选项的模型更新）和多个模型（通过A/B测试进行试验），同时确保并发模型在硬件加速器（GPU和TPU）上实现高吞吐量和低延迟。因此，我们开始创建一个独立、通用的 TensorFlow Serving 软件栈。

我们从一开始据决定将其开源，开发工作是从2015年9月开始。几个月后，我们创建了最初的端到端工作系统，并在2016年2月释出第一个开源版本。

在过去一年半的时间里，在我们的用户和公司内外的合作伙伴的帮助下，TensorFlow Serving 得以提供先进的性能、较佳的实践和标准:

开箱即用的优化服务和可定制性：我们现在提供一个预构建的规范服务二进制文件，针对带 AVX 的现代CPU进行了优化，因此开发人员不需要从我们的库中自己组装二进制文件，除非他们有特殊需求。同时，我们添加了一个基于注册表的框架，允许我们的库被用于定制（甚至是非TensorFlow）的服务场景。

多模型服务：从一个模型扩展到多个并行服务的模型，会出现一些性能上的阻碍。我们通过（1）在隔离的线程池中加载多个模型，以避免在其他模型中出现延迟峰值；（2）在服务器启动时，并行加速所有模型的初始加载；（3）多模型批交错以复用硬件加速器（GPU/TPU）。

标准化模型格式：我们将 SavedModel 添加到 TensorFlow 1.0，为社区提供了一种单一标准的模型格式，可以跨训练和服务工作。

易于使用的推理API：我们为常见的推理任务（分类、回归）发布了易于使用的API，这些API适用于广泛的应用程序。为了支持更高级的用例，我们支持一个较低级的基于 tensor 的API（预测）和一个允许多任务建模的新的多重推理API。

我们的所有工作都通过与以下各方的密切合作实现的：（a）谷歌的 ML SRE 团队确保了我们团队的强壮并满足内部SLA; （b）谷歌其他机器学习基础架构团队，包括广告服务和TFX; （c）Google Play等应用程序的团队；（d）我们在加州大学伯克利分校RISE实验室的合作伙伴，他们研究与Clipper服务系统互补的问题; （e）我们的开源用户群和贡献者。

TensorFlow Serving 目前正在为1100多个我们自己的项目，包括谷歌云的ML预测，每秒处理数千万次的推理任务。核心服务代码可以通过开源版本获得：https://github.com/tensorflow/serving/releases

展望未来，我们的工作还远未完成，我们正在探索一些创新的途径。今天，我们很高兴在两个实验领域分享早期进展：

Granular batching：我们在专用硬件（GPU和TPU）上实现高吞吐量的关键技术是“批处理”（batching）：联合处理多个样本以实现高效。我们正在开发技术和较佳实践来改进批处理：（a）使批处理能够仅针对计算的GPU / TPU部分，以获得较高效率; （b）允许在递归神经网络进行batching，用于处理序列数据，例如文本和事件序列。我们正在尝试使用Batch/Unbatch对任意子图进行batching。

分布式模型服务：我们将模型分片（model sharding）技术作为处理模型的一种方法，这些模型由于太大而无法适应一个服务器节点，或者不能以节省内存的方式共享子模型。我们最近在生产中推出了一个1TB+的模型，并取得了良好的效果，希望很快开源。

再次感谢我们所有的用户和合作伙伴，他们提供了反馈、代码和想法。参加项目：github.com/tensorflow/serving

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

QQ群：81035754

GPU云服务器云服务器阿里云服务器免费2年腾讯云服务器多少钱一个年租用一个服务器一年大概多少钱 tensorflow是什么

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/4657.html

道器相融，由Angel论一个优秀机器学习平台的自我修养

摘要：而道器相融，在我看来，那炼丹就需要一个好的丹炉了，也就是一个优秀的机器学习平台。因此，一个机器学习平台要取得成功，最好具备如下五个特点精辟的核心抽象一个机器学习平台，必须有其灵魂，也就是它的核心抽象。 *本文首发于 AI前线，欢迎转载，并请注明出处。摘要 2017年6月，腾讯正式开源面向机器学习的第三代高性能计算平台 Angel，在GitHub上备受关注；2017年10月19日，腾...

leo108 2019-06-26 18:16 评论0 收藏0
让AI简单且强大：深度学习引擎OneFlow技术实践

摘要：本文内容节选自由主办的第七届，北京一流科技有限公司首席科学家袁进辉老师木分享的让简单且强大深度学习引擎背后的技术实践实录。年创立北京一流科技有限公司，致力于打造分布式深度学习平台的事实工业标准。本文内容节选自由msup主办的第七届TOP100summit，北京一流科技有限公司首席科学家袁进辉（老师木）分享的《让AI简单且强大：深度学习引擎OneFlow背后的技术实践》实录。北京一流...

chenjiang3 2019-06-26 18:55 评论0 收藏0