资讯专栏INFORMATION COLUMN

Twitter 开源增强学习框架Torch-twrl ,可与OpenAI 无缝对接

lijy91 / 3596人阅读

摘要:棋类游戏和电子游戏通常都会有定义明确的回馈函数,这使得用增强学习算法来直接进行优化成为可能。增强学习算法或智能体的目标是通过与任务或者环境进行互动,学会执行复杂的新颖的任务。使得增强学习算法和环境的开放与测试变得更加简便了。

机器学习的进步由多个领域的创新和创意驱动。从人类学习事物的方式获得启发,增强学习(RL)指的是系列算法,能够通过试错的回馈来进行提升,可以进一步优化未来的表现。

 

棋类游戏和电子游戏通常都会有定义明确的回馈函数,这使得用增强学习算法来直接进行优化成为可能。然而,随着算法的不断进步,RL 在解决现实问题上也可以得到应用,比如,高自由度的机器人控制以及大规模的推荐任务,这些任务往往附带着复杂的目标。

 

Twitter Cortex 采用较先进的机器学习方法来提升Twitter的产品质量。Twitter正在把增强学习当成一种学习范式来进行探索,为了达到这一目的,Twitter Cortex 开发了一个用于发展增强学习的框架。今天,Twitter 正式向全世界开源这一框架——torch-twrl 。

 

增强学习算法(或智能体)的目标是通过与任务(或者环境)进行互动,学会执行复杂的、新颖的任务。为了开发有效的算法,快速地迭代和测试是至关重要的,torch-twrl 的目标就是让落实和创新变得迅速和容易。

 

借鉴其他的增强学习框架,torch-twrl  希望提供:

一个在Lua/Torch 中的、拥有最小函数依赖的增强学习框架;

定义清晰的、模块化的代码带来的快速开发;

与Open AI 的增强学习基准框架Gym 的无缝对接。

Gym 提供了对增强学习环境的深度汇总。torch-twrl  通过HTTP API 与这些环境进行互动。torch-twrl  提供了一个简答且模块化的方法,让开发者可以使用自己已经拥有的Torch/Lua 代码来开始使用增强学习进行开发。

如果你想要开始试用 torch-twrl ,你可以在Github 上找到主要的文件包:https://github.com/twitter/torch-twrl。根据安装指导,你可以随时解决 RL 问题。

 torch-twrl 使得增强学习算法和环境的开放与测试变得更加简便了。以下是如何解决一个经典的增强学习控制难题的案例。为了让你更好地体会到这有多么简单,我们采纳了一个简便的脚本,来运行一个基本的策略梯度智能体,用于解决经典的增强学习车摆难题。

 

实验开始前,首先需要设置你的环境和智能体实验参数。智能体要求有一个策略、一个模型和一个使用相关参数的学习更新。

以上的实验结果来自OpenAI Gym 的排行榜(Leaderboard)。当你使用 torch-twrl 运行一个算法,可以选择自动地把结果上传到排行榜上,它能自动创造一个好的结果图,生成一个关于结果的简短GIF 图。

在把你的结果与其他的方法进行对比时,排行榜也很有价值。

基本的RL框架中,会有一个智能体与环境进行交互,智能体的构成是:

模型:智能体模型描绘出行动的状态

策略:如何选择活动

学习更新:模型如何用收到的反馈进行更新

Note:许多别的参数也可以进行设置,具体的参数包括:策略、学习更新、模型、监控等,完整的描述参见我们提供的文档。(https://github.com/twitter/torch-twrl)

我们希望torch-twrl 作为一个RL 框架可以不断发展,与 RLLab 一样,让 Torch 和 Lua 上的开发者进行使用。增强学习的研究是一个非常活跃的领域,其中包括了各种各样的环境以及对较先进算法的采用。我们正计划扩大关于新的 RL 算法的资料库。

虽然目前基于Torch,已经有一些很好的增强学习框架,我们想要的是一个从零开始搭建的框架,可以将外部依赖降到最小,这样就能更好地解决Twitter的内部问题。

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4397.html

相关文章

  • 15个Python库,让你学习数据科学更轻松

    摘要:在本节中,我们将看到一些最流行和最常用的库,用于机器学习和深度学习是用于数据挖掘,分析和机器学习的最流行的库。愿码提示网址是一个基于的框架,用于使用多个或进行有效的机器学习和深度学习。 showImg(https://segmentfault.com/img/remote/1460000018961827?w=999&h=562); 来源 | 愿码(ChainDesk.CN)内容编辑...

    W4n9Hu1 评论0 收藏0
  • 国外程序员整理的Java资源大全

    摘要:日期和时间处理日期和时间的函数库。使用中可观察序列,创建异步基于事件应用程序的函数库。为分布式系统提供延迟和容错处理。发布使用本机格式分发应用程序的工具。将程序资源和打包成和的本机文件。图像处理用来帮助创建评估或操作图形的函数库。 好资源要分享原文 译者 唐尤华 翻译自 github akullpp 构建 这里搜集了用来构建应用程序的工具。 Apache Maven:Mave...

    chengtao1633 评论0 收藏0
  • 百度云计算推出天工智能物联网平台

    摘要:月日,在风云际会百度云计算战略发布会上,百度云计算事业部总经理刘炀正式发布智能物联网平台天工。为解决上述问题,百度云计算推出了天工智能物联网平台,助力行业跨越鸿沟,实现产业升级。   《天工开物》是世界上第一部关于农业和手工业生产的综合性著作,强调人类与自然的协调。7月13日,在2016风云际会百度云计算战略发布会上,百度云计算事业部总经理刘炀正式发布智能物联网平台——天工。秉承天工之理念,...

    smartlion 评论0 收藏0
  • 阿里云正式推出消息队列Kafka:全面融合开源生态

    摘要:在全面兼容Apache Kafka生态的基础上,消息队列Kafka彻底解决ApacheKafka稳定性不足的长期痛点,并且支持消息无缝迁移到云上。 近日,阿里云宣布正式推出消息队列Kafka,全面融合开源生态。在全面兼容Apache Kafka生态的基础上,消息队列Kafka还具备了超易用,超高可用可靠性,扩缩容不操心,全方位安全诊断,数据安全有保障的特点。可用行达99.9%,数据可靠行99...

    aisuhua 评论0 收藏0
  • OpenAI开源TF梯度替换插件,十倍模型计算时间仅增加20%

    摘要:训练深度神经网络需要大量的内存,用户使用这个工具包,可以在计算时间成本仅增加的基础上,在上运行规模大倍的前馈模型。使用导入此功能,与使用方法相同,使用梯度函数来计算参数的损失梯度。随后,在反向传播中重新计算检查点之间的节点。 OpenAI是电动汽车制造商特斯拉创始人 Elon Musk和著名的科技孵化器公司 Y Combinator总裁 Sam Altman于 2016年联合创立的 AI公司...

    GraphQuery 评论0 收藏0

发表评论

0条评论

lijy91

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<