Motubrain：面向具身智能的世界动作模型

一个独立的中英文资料页，用来解释生数科技 Motubrain 的发布背景、基准成绩、架构思路和当前访问状态。

查看核心事实打开官方来源

独立资料页。Motubrain.org 与生数科技没有官方隶属关系。

基准成绩速览

截至 2026 年 4 月 29 日，官方或基准来源中出现的关键信息。

63.77

生数科技为 Motubrain 报告的 WorldArena EWM Score

95.8 / 96.1

官方页面报告的 RoboTwin 2.0 clean 与 randomized 成绩

2026-04-29

生数科技 PRNewswire 新闻稿中的公开发布日期

Motubrain 在两个基准榜单中都位列第一

以下截图便于直接查看 RoboTwin 2.0 和 WorldArena 榜单中的排名位置。

RoboTwin 2.0 榜单截图

官方截图显示 Motubrain 在 Clean 设置下为 95.8，在 Randomized 设置下为 96.1。

WorldArena 榜单截图

官方截图显示 Motubrain 以 63.77 EWMScore 位列第一。

Motubrain 是什么？

Motubrain 被生数科技定义为 World Action Model（世界动作模型）：一种把机器人“看到的世界”和“要采取的动作”放进统一框架的具身智能模型。

世界动作模型

官方叙述强调它不只是生成或预测视频，而是把感知、预测和机器人动作结合到同一个系统中。

面向具身智能

发布信息描述的是机器人在家庭、工业和商业空间中执行任务，不是普通聊天机器人或 AI 记忆工具。

以来源为准

截至 2026 年 4 月 29 日，官方材料说明了模型和基准成绩，但没有展示公开自助 API、下载或演示入口。

名称写法

搜索中会出现 Motubrain 和 MotuBrain 两种写法。除非来源另有说明，本站将二者视为同一世界动作模型。

世界动作模型如何工作

核心思路是让视频、语言和动作一起学习，使机器人既能判断接下来会发生什么，也能生成下一步该做什么。

生数科技称 Motubrain 将视频和动作作为连续模态共同学习，因此世界预测和动作生成不是后期拼接的两个模块。

从视频世界到机器人动作

Motubrain 位于生数科技一条清晰的研究路径上：视频具身先验、统一潜在动作，再到面向物理执行的 World Action Model。

1

Vidar 把视频先验连接到机器人操作

Vidar 将视频扩散模型作为机器人操作的可扩展先验，通过多视角轨迹和少量演示适配新的机器人本体。

2

Motus 统一五种建模模式

Motus 引入潜在动作世界模型，在 VLA 控制、世界建模、逆动力学、视频生成和视频-动作联合预测之间切换。

3

Motubrain 把预测推进到行动

Motubrain 将这条路线延伸为世界动作模型，用同一架构理解场景、预判变化，并生成机器人动作。

如何阅读这些发布信息

在把任何模型成绩视为定论前，先看清来源和评测语境。

1

先看官方页面

生数科技 Motubrain 页面给出了能力、合作伙伴和基准成绩的官方表述。

2

再看基准机制

WorldArena 解释 EWM Score，RoboTwin 2.0 文档说明双臂机器人操作基准的评测背景。

3

区分了解与使用

当前公开资料可以帮助了解 Motubrain，但本站没有发现官方自助 API、可下载模型或公开演示入口。

去哪里核实 Motubrain 信息

这些主要来源和技术资料可以帮助你区分官方声明、基准语境、相关研究和当前访问状态。

Motubrain 官方页面

生数科技产品页是核对模型定位、核心能力、合作伙伴和排行榜声明的第一入口。

发布新闻稿

PRNewswire 新闻稿补充了公开发布日期、架构叙述、基准摘要、部署声明、合作伙伴和 Vidu 关系。

WorldArena 基准

WorldArena 解释 EWMScore，以及具身世界模型如何在视频质量、功能效用和动作规划角色中被评估。

RoboTwin 2.0 基准

RoboTwin 2.0 说明双臂机器人操作场景、50 个任务、五种机器人本体和域随机化评测背景。

Motus 研究脉络

Motus 有助于理解潜在动作、Mixture-of-Transformers，以及五种建模模式统一到一套框架中的思路。

访问状态

当前公开资料主要用于了解 Motubrain；本站没有提供自助 API、可下载模型或公开演示。

为什么机器人行业关注 Motubrain

发布信息将 Motubrain 描述为从任务专用机器人系统走向可扩展具身智能的一步。

一个大脑，多种技能

官方材料称，任务种类越多，多任务表现越强，而不是为每个技能单独训练一套系统。

一个大脑，适配多种机器人

Motubrain 被定位为跨本体模型，目标是适配不同机器人形态，而不是绑定某一个硬件平台。

长程任务执行

官方称模型直接学习完整任务序列，覆盖比短原子动作更复杂的多步骤任务。

WorldArena 语境

WorldArena 从感知和功能效用两个方向评估具身世界模型，其中包括动作规划角色。

RoboTwin 2.0 语境

RoboTwin 2.0 是包含 50 个任务并带有域随机化的大规模双臂操作基准。

谨慎的来源姿态

本站展示的基准数字是来源声明，不是 Motubrain.org 对模型成绩的独立认证。

Motubrain 常见问题