首页 > 科技 >

Meta推出MoDem世界模型：解决了视觉强化学习领域的三个挑战

2023-01-02 21:07

来源：腾讯网作者：贝贝

新智元报道

　　编辑：Joey

　　【新智元导读】MetaAI这次发布的MoDem解决了视觉强化学习领域的三个挑战，无需解码器，效率最高提升250%，一起看看它有多牛。

　　12月27日，MetaAI 负责视觉和强化学习领域的A

　　截止27日晚间，这篇推文的阅读量已经达到73.9k。

　　他表示，仅给出5个演示，MoDem就能在100K交互步骤中解决具有稀疏奖励和高维动作空间的具有挑战性的视觉运动控制任务，大大优于现有的最先进方法。

　　有多优秀呢？

　　他们发现MoDem在完成稀疏奖励任务方面的成功率比低数据机制中的先前方法高出150%-250%。

　　Lecun也转发了这一研究，表示MoDem的模型架构类似于JEPA，可在表征空间做出预测且无需解码器。

　　论文链接：https://arxiv.org/abs/2212.05698

　　Github链接：https://github.com/facebookresearch/modem

　　研究创新和模型架构

　　样本效率低下是实际应用部署深度强化学习 (RL) 算法的主要挑战，尤其是视觉运动控制。

　　基于模型的RL有可能通过同时学习世界模型并使用合成部署来进行规划和政策改进，从而实现高样本效率。

　　然而在实践中，基于模型的RL的样本高效学习受到探索挑战的瓶颈，这次研究恰恰解决了这些主要挑战。

　　首先，MoDem分别通过使用世界模型、模仿+RL和自监督视觉预训练，解决了视觉强化学习/控制领域的三个主要挑战：

　　大样本复杂性（Large sample complexity）

　　高维状态和动作空间探索（Exploration in high-dimensional state and action space）

　　同步视觉表征和行为学习（Simultaneous learning of visual representations and behaviors）

　　这次的模型架构类似于Yann LeCun的JEPA，并且无需解码器。

　　作者Aravind Rajeswaran表示，相比Dreamer需要像素级预测的解码器，架构繁重，无解码器架构可支持直接插入使用SSL预训练的视觉表示。

此外基于IL+RL，他们提出了一个三阶段算法：

　　BC预训练策略

　　使用包含演示和探索的种子数据集预训练世界模型，此阶段对于整体稳定性和效率很重要

　　通过在线互动微调世界模型

　　结果显示，生成的算法在21个硬视觉运动控制任务中取得了SOTA结果（State-Of-The-Art result），包括Adroit灵巧操作、MetaWorld和DeepMind控制套件。

　　从数据上来看，MoDem在各项任务中的表现远远优于其他模型，结果比之前的SOTA方法提升了150%到250%。

红色线条为MoDem在各项任务中的表现

　　在此过程中，他们还阐明了MoDem中不同阶段的重要性、数据增强对视觉MBRL的重要性以及预训练视觉表示的实用性。

　　最后，使用冻结的 R3M 功能远远优于直接的 E2E 方法。这很令人兴奋，表明视频中的视觉预训练可以支持世界模型。

　　但8月数据强劲的E2E与冻结的R3M竞争，我们可以通过预训练做得更好。

参考资料：

　　https://nicklashansen.github.io/modemrl/

　　https://twitter.com/aravindr93/status/1607483342580244480

我来说两句 0条评论 0人参与,

三星预计其 2023 年半导体销售的年度营业

发布于 2023-01-02 21:15:54

Meta推出MoDem世界模型：解决了视觉强化学

发布于 2023-01-02 21:07:02

特斯拉Q4仍有望实现创纪录交付量

发布于 2023-01-02 21:03:51

百度Apollo计划2023年增加投放200台全无人驾

发布于 2022-12-26 18:07:38

知网回应“因涉嫌垄断被罚”，公布15项

发布于 2022-12-26 17:56:07

iPhone 14P开机后屏幕有“横线”

发布于 2022-12-23 15:14:44

2022计算机科学年终盘点

发布于 2022-12-22 15:16:46

苹果可能将取消或延后iPhone SE 4计划

发布于 2022-12-21 16:24:40

罗森博特完成超亿元B轮融资专注智能手

发布于 2022-12-20 15:45:53

网约车平台单量均持续下滑

发布于 2022-12-20 15:03:58

小米快递提示由于业务变动即将关闭服务

发布于 2022-12-20 15:03:10

柏林超级工厂Model Y周产量突破3000辆

发布于 2022-12-19 21:53:51

三星手机出现了电池鼓包现象

发布于 2022-12-19 21:48:17

iPhone 能用上第三方应用商店了？

发布于 2022-12-18 20:03:30

折叠机平均起售价低于九千元

发布于 2022-12-16 13:02:57

最轻旗舰折叠手机登场 “芯云一体，多

发布于 2022-12-16 12:11:35

预计2023年3月开始生产FF91，4月开始向用户

发布于 2022-12-16 12:07:46

折叠机平均起售价低于九千元

发布于 2022-12-15 19:54:50

华虹半导体逆势涨6％港股走弱恒生科技

发布于 2022-12-15 13:39:06

进一步规范移动智能终端应用软件预置行

发布于 2022-12-14 21:10:43

生产企业应确保移动智能终端预置应用软

发布于 2022-12-14 19:37:07

M1/M2 Mac突现Wi-Fi连接问题

发布于 2022-12-13 20:52:41

索尼强烈反对动视暴雪被收购

发布于 2022-12-13 20:51:31

矿卡时代落幕清库存进入尾声

发布于 2022-12-13 20:50:13

OPPO Find N2 Flip 折叠旗舰外观设计曝光

发布于 2022-12-12 15:17:19

华为终端商用构建智慧办公新形态

发布于 2022-12-12 15:14:03

实控人李占江被免职董事会遭冲击，员工

发布于 2022-12-12 15:12:02

“通信行程卡”将于13日起下线

发布于 2022-12-12 15:11:23

最晚2030年代末送人去火星，SpaceX计划明年

发布于 2022-12-12 14:51:16

咖啡中的一种成分能使半导体运行得更快

发布于 2022-12-11 15:00:10

: Meta推出MoDem世界模型：解决了视觉强化学

: 特斯拉Q4仍有望实现创纪录交付量

海口

财经

科技

美食

娱乐

Copyright © 1996-2022 www.newshainan.com. All Rights Reserved

经营许可证编号：粤ICP备13067700号

本网站所刊载信息，不代表海南网观点。刊用本网稿件，务经书面授权。

网站不良信息举报邮箱：jubao@newshainan.com 举报电话：138-13800038

违法和不良信息举报受理和处置管理办法

互联网新闻信息服务许可证编号：41120170001

联系我们
电话：13813800138

版权保护投诉指引