感觉pi模型进步神速啊,前段时间short-memory才没过去多久(我们都还在训练),结果又推出了一个新的。
按照学长给的思路+Opus 4.7学习了一下,以下是学习笔记:
π0.7 深度解读:从"数据清洗"走向"上下文引导"的范式转变¶
约 6528 个字 预计阅读时间 33 分钟
0. 核心思想先行¶
π0.7 的中心论点可以用一句话概括:与其费力清洗数据,不如让 prompt 承担消歧的职责(prompt-level disambiguation over data-level curation)。
传统 VLA 训练的困境在于:当你把高质量示教、含错误的示教、RL 自主 rollout、人类视频混在一起训练时,模型倾向于把所有模式"平均"掉,产生次优行为。Physical Intelligence 的解法是——在训练时为每一条轨迹注入一个多模态、细粒度的 context \(\mathcal{C}_t\),让模型学会"在什么条件下该模仿什么",运行时再通过精心构造的 prompt 把模型"steer"到你想要的那个模式上。这本质上是把 prompt engineering 搬到了 VLA 领域,并配合 dropout 训练出一个可以任意子集组合的 steerable policy。
模型架构是 5B 参数(4B Gemma3 VLM backbone + 400M 视觉编码器 + 860M 动作专家),输入包括最多 4 路相机(front + 2 wrist + optional rear)、每路最多 6 帧历史、最多 3 张 subgoal images,全部通过 MEM 风格的时空压缩编码器压成固定 token 数。
下面按你给的四个技术点展开。
1. 知识隔离 (Knowledge Insulation, KI)¶
定位与背景¶
首先要澄清一个常见误解:KI 不是 π0.7 的原创,而是继承自 π0.5 的训练配方(论文 Section III 明确引用 [103])。π0.7 直接用它,因此不再展开讨论。但它是理解整个训练 loss 设计的前提。
机制¶
在标准 VLA 里,VLM backbone 被 action expert 的梯度拉着走。问题是:flow matching 的梯度不稳定(连续动作空间的回归 loss 方差大),而且会让 VLM 逐渐"忘掉"预训练学到的视觉-语言语义。
KI 的做法很直接——双头监督 + 梯度切断:
- VLM backbone 用 FAST tokens(离散化后的动作 token)做交叉熵监督——和 LLM 预训练一致的稳定 discrete loss
- Action expert 通过 cross-attention 读取 VLM 的 activations,用 flow matching loss 训练连续动作
- 关键:从 action expert 反传到 VLM backbone 的梯度被切断
为什么这对 π0.7 尤其关键¶
π0.7 要处理的 context 复杂度远超以前:语言、metadata、subgoal images、control mode 全塞进 prompt。如果让 flow matching 的噪声梯度直接冲击 VLM,VLM 对这些异质语义信号的理解会迅速退化。KI 让 VLM 可以专心做"把多模态 context 映射成有用的 activation 表示"这件事,action expert 则负责把这些表示解码成连续动作。
用你熟悉的语言讲:这和你在 Memory-Augmented RL-VLA 里把 MoH memory-gated attention 独立出来训练的动机类似——把不同 loss 性质差异巨大的组件解耦,避免一个 head 的噪声污染另一个。
2. 情节元数据引导 (Episode Metadata Steering)¶
这才是 π0.7 的第一个核心创新,也是整个 "steerability" 故事的主角。
要解决的具体问题¶
训练数据来源五花八门(Section VI-A):
- 高质量人类示教
- 低质量示教(失败或含错误)
- 先前模型版本的 rollout(包括 RL 训练中产生的 π₀.₆* 数据)
- 人类第一视角视频
- 开源机器人数据集(如 DROID)
- Web 数据(VQA、object localization 等)
朴素混训的失败模式:模型在给定 (observation, language) 时会面对"成功 demo"和"失败 rollout"两种行为,flow matching 把它们的模式平均掉,产生模糊甚至危险的动作。
Metadata 的三个字段¶
论文 Section V-C 定义了三种 metadata:
Overall speed — episode 的总时长(timesteps),按 500 步一档离散化("2000 steps", "8000 steps" 等)。背后的假设是:速度快通常意味着少犯错、策略更干脆,所以速度成为质量的代理信号。
Overall quality — 人工标注的 1–5 分质量评分,5 最高。
Mistake — 布尔标签,表示某个 action segment 内机器人是否犯错(没抓起、子任务错误等)。这是段级的(由人工粗标),比 quality 更细粒度。
训练-推理的不对称使用¶
这是最妙的一步。训练时:ground-truth 的 speed、quality、mistake 全部注入 prompt——让模型学会"这一段是 quality=2 且 mistake=true,所以即将看到笨拙动作";也学会"这一段 quality=5 且 speed 很快,所以即将看到高效动作"。
推理时:固定地设置
- speed = 该任务训练集 episode 长度的 15th percentile(即希望模型表现得比训练集 85% 的轨迹都快)
- quality = 5(最高)
- mistake = false(不要犯错)
模型从来没见过这种"极端理想"的组合,但由于它学到了 (metadata, behavior) 的条件分布,它会外推出更好的行为。这和扩散模型里用 CFG 把 prompt 强度调高是同一个路数。
为什么这是"distillation"¶
Section VI-A 原话:这是一种蒸馏过程——generalist π0.7 通过吸收 π₀.₆* 专家 RL 策略的 rollout 数据,继承了专家的能力。关键是 metadata 让模型能区分"这是 RL 专家的动作"和"这是失败示教",从而有选择地模仿前者。
实验验证 (Section IX-A, Fig. 7)¶
两个消融对照:
- π0.7 (no metadata):去掉 metadata 字段
- π0.7 (no eval data):排除所有自主评估数据
在 π₀.₆ release 里的任务上(espresso、box building、laundry),两个消融都显著低于完整 π0.7,throughput 的差距最明显。这说明:metadata + suboptimal data 是一个不可分割的 pair*——没有 metadata,suboptimal data 反而有害;没有 suboptimal data,metadata 没有足够的方差可学。
最有说服力的实验:Fig. 18 left — 数据扩展性¶
这是一个非常 clean 的消融。T-shirt folding 任务,把人工示教按质量+速度排序,分成 4 个桶:
1. 前 30%(最高质量)
2. 前 50%
3. 前 80%
4. 全部数据
分别用 带 metadata 和 不带 metadata 的配方训练,得到 8 个模型。
结果:
- 不带 metadata:随着数据扩大(质量平均下降),性能反而下降 — 经典的"数据越多越差"悖论
- 带 metadata:数据扩大时性能单调提升 — 即使 avg quality 下降也继续提升
这个图是 π0.7 最硬的证据:它证明 metadata prompting 把 VLA 训练从"需要精心策划的高质量小数据"的 regime,推向了"给定任何 quality 的数据都能变好"的 scalable regime。这对整个领域是 game changer——意味着未来可以直接无差别收数据。
运行时的 CFG 放大¶
Section VII 末尾提到,因为每个 prompt 组件训练时都会 dropout,π0.7 可以对任意 prompt 组件做 classifier-free guidance。公式标准:
论文主要对 episode metadata 施加 CFG(比如放大对"高质量、快速度"的条件依赖),典型 \(\beta \in \{1.3, 1.7, 2.2\}\)。这进一步把 steerability 压榨出来。
3. 子目标图像训练机制 (Training with Subgoal Images)¶
这是 π0.7 的第二个核心创新,也是我认为对你 Memory-Augmented RL-VLA 工作最有启发的部分。
动机¶
语言子任务("open the fridge door")无法表达执行细节——抓握角度、手臂姿态、物体应该如何呈现。视觉 subgoal 直接给出"未来应该长什么样",提供比语言密度高得多的监督信号。
数据结构¶
Multi-view subgoals \(\mathbf{g}_t = [G_t^1, \ldots, G_t^n]\),其中:
- Base view 里放环境/物体层面的结果(e.g., 冰箱门应该开到什么角度)
- Wrist views 里放手臂/夹爪层面的结果(e.g., 夹爪应该如何握住把手)
这种分工非常符合人类直觉,也是 MEM 架构的自然延伸。π0.7 具体用最多 3 张 subgoal images(省略 rear view)。
World model \(g_\psi\) 的训练 (Section V-B)¶
运行时 subgoal 由一个 lightweight world model 实时生成,它本身是从 BAGEL(一个 14B 的图像理解/编辑/生成 mixture-of-transformers)初始化的。训练目标:
其中 \(\mathbf{g}_t^\star\) 是真实 episode 里段末的观测(\(\mathbf{o}_{t_{\text{end}}}\))——也就是说,segment 的最后一帧作为它的 ground-truth subgoal。\(\mathcal{D}_g\) 只取高质量 subtask 标注的子集。
World model 通过吸收 web 数据、egocentric 视频、其他视频数据,获得大量机器人数据之外的语义和物理概念,然后通过 subgoal image 这个桥梁注入到 π0.7。这比直接让 π0.7 去看 web 数据要干净很多——分工明确。
π0.7 训练中的 subgoal 采样策略 (Section VI-C)¶
这个设计有三个精心的选择:
选择 1:real + generated 混用
既用真实未来帧,也用 world model 生成的帧。关键是后者 —— 避免了 train-test 的分布错配:运行时 subgoal 总是生成的(不完美),训练时如果只用真实 subgoal,模型就会过拟合到"完美 subgoal"的条件分布上。
选择 2:真实 subgoal 的时间采样
- 0.25 概率:采 segment 末尾帧(和 world model 的预测目标保持一致)
- 0.75 概率:采 0–4 秒均匀分布的未来帧
这样做让模型学会在不同时间距离的 subgoal 下工作——有时 subgoal 是"2 秒后",有时是"segment 结束时"。
选择 3:subgoal 只出现在 25% 的 batch
论文给出了一个非常 important 的观察——加 subgoal 之后,action prediction 本质上变成了 inverse dynamics 问题(知道当前状态和近未来状态,推 action),训练信号变强,收敛加快。但如果 100% 都用,模型就对 subgoal 过度依赖,语言指令的权重反而下降。所以只在 25% 的 batch 加 subgoal,其余 75% 保留纯语言/metadata 的训练信号。
在这 25% 里,还有 30% 的概率 drop 掉 subtask instruction \(\hat{\ell}_t\)——因为 subgoal image 往往能完全替代语言子任务。
推理时的异步刷新 (Algorithm 1)¶
运行时,subgoal 在以下两种情况之一时异步刷新:
- 语义意图变化(新的 \(\hat{\ell}_t\) 到达)
- 距离上次生成超过 \(\Delta = 4\) 秒
异步是关键——world model 的生成比 VLA 推理慢,不能阻塞主控制循环。线程分工:high-level policy 输出 \(\hat{\ell}_t\),world model 吃 \((\mathbf{o}_t, \hat{\ell}_t, m)\) 生成 \(\mathbf{g}^\star\),VLA 用最新可用的 \(\mathbf{g}^\star\)。
实验证据¶
Fig. 10 (complex referential instructions):对于"pick up the object I would use to eat soup"这种需要语义推理的指令,π0.7 本身就比 π0.5/π0.6 好,加上 GC(generated subgoals)又进一步提升。世界模型从 web 预训练里吸收的常识("soup → spoon")通过 subgoal 注入进来。
Fig. 11 (反数据集偏置):"Reverse Fridge to Microwave"任务——训练数据只有 fridge→microwave 的方向,测试时要反过来。没有 subgoal 时模型被数据偏置完全压制,加了 GC 才能成功。这是 subgoal 作用最纯粹的 case:语言被数据偏置淹没时,视觉 subgoal 仍然能表达用户意图。
Fig. 12 (cross-embodiment shirt folding):从小型 bimanual 源机器人迁移到 UR5e 目标机器人,π0.7 达到 85.6% task progress / 80% success,接近人类远程操作专家首次上手 UR5e 的表现(90.9% progress / 80.6% success)。加了 world model subgoals 后,因为 world model 能生成"UR5e 大机械臂应该用什么样的抓取姿态"的视觉类比,性能又有明显提升。
4. 多样化提示丢弃 (Dropout)¶
机制¶
Section V-E 给出精确的 dropout 规则:
| 组件 | Dropout 概率 |
|---|---|
| Subgoal images(整体不加) | 75%(只 25% 加) |
| Subtask instruction \(\hat{\ell}_t\) (在有 subgoal 的样本里) | 30% |
| Episode metadata(整体丢弃) | 15% |
| Metadata 的每个字段(speed/quality/mistake)独立丢弃 | 5% |
| Control mode | 不 dropout |
| History frames 整体丢弃 | 30% |
| Rear view image 丢弃 | 30% |
三个作用¶
作用一:test-time 灵活性。训练时见过所有 \(2^k\) 种 prompt 组合子集,推理时你可以任意裁剪——只给语言、给语言+metadata、给语言+metadata+subgoal,模型都能工作。Fig. 10 里"π0.7 vs π0.7 (GC)"的比较就是这种灵活性的产物。
作用二:避免对某个组件的过度依赖。如果 subgoal 始终存在,模型会把 subgoal 当作主要信号,忽略语言——这会毁掉你想要的"语言可操控"性质。dropout 强制模型在每种条件下都能独立工作。
作用三:启用 classifier-free guidance。CFG 需要模型知道"conditional"和"unconditional"两种模式;dropout 天然提供了 unconditional 训练分布。没有 dropout,CFG 无法运作。前面提到的 \(\beta \in \{1.3, 1.7, 2.2\}\) 的 metadata CFG 完全依赖于 15% 的 metadata 整体丢弃率。
为什么 control mode 不 dropout¶
因为 control mode(joint vs ee)是物理约束,不是软 steering。同一条轨迹在关节空间和末端执行器空间下的 action 值完全不同——模型必须明确知道当前输出的是哪种,不能"猜"。这反映了 dropout 设计背后的核心原则:可以软调的维度上 dropout,物理上必须明确的维度不 dropout。
5. 几个你应该特别关注的实验细节¶
结合你自己的 Memory-Augmented RL-VLA 工作,几个点值得重点看:
(a) Fig. 18 right — task diversity 的因果消融。 对比去掉"最多样化的 20% 数据"和"随机 20% 数据",前者的性能显著差。这给你的 episodic memory bank 设计启示:memory 检索时或许应该偏向检索任务多样性高的片段,而不是单纯按相似度 top-k。
(b) 运行时延迟处理 — RTC(Section VI-B)。训练时就模拟 0–12 timesteps 的推理延迟(对应 50Hz 机器人上最多 240ms),让模型学会在 action chunk 接续时保持平滑。这对你之后做真机 RL 评估 M4 feasibility 很有参考价值。
© Memory 任务的 out-of-box 性能(Fig. 8)。π0.7 不做任何 fine-tuning,在 MEM 论文里需要任务特定 fine-tuning 的记忆任务上达到相当或更好的性能。这间接验证了 MEM-style 历史编码器 + 多模态 prompt 的组合已经足够表达短期记忆,至少在 6 帧历史范围内。对你 episodic memory 的研究意义:显式 memory bank 的增量价值要在超过 6 帧 × 1 秒 = 6 秒的时间尺度之外才能显现。你需要设计实验证明你的 memory 在长 horizon 上超越 MEM 这种隐式历史编码。
(d) "Coaching" 范式 (IX-D)。我觉得这是论文最 underrated 的部分——用语言教会新任务,然后把 coaching 数据蒸馏成 high-level policy,不需要任何额外的 action-level demonstration。这给所有做 VLA 的人提供了一条全新的数据采集路径:行为数据 = 语言 coaching + 已有 action 数据的 recombination。
6. 局限与未来方向(从论文 Section X + 我的判断)¶
论文本身承认的局限:zero-shot 任务成功率 60–80%,远低于 in-distribution 任务的 90%+。以及"真正的 unseen 任务"难以定义——训练数据太大,很难保证某个行为不以某种形式出现过。这是 LLM 时代所有 foundation model 评估都面对的问题。
我个人额外的观察:
metadata 的依赖于人工标注。论文里 quality 和 mistake 标签都是人工粗标的。当数据规模继续扩大(百万级 episodes),这个方式不可持续。合理的下一步是让 VLM 自己标 metadata——这又回到了 self-training 的老问题。
world model 和 VLA 是分开训练的。subgoal 质量的上限被 world model 卡住。端到端联合训练 world model + VLA,让 subgoal 被 action-level 信号 shape,理论上更好,但工程上极其复杂(14B BAGEL 和 5B VLA 一起训非常贵)。
总结¶
π0.7 技术上最重要的贡献不是某个单独的组件(KI 来自 π0.5、MEM 视觉编码器来自 Torne et al.、subgoal image 条件化有大量先例),而是把一整套 steerability 机制系统性地组合起来,让 VLA 训练摆脱了"高质量数据瓶颈"——这是一个 recipe 级的贡献,而非架构级的。
对你自己的工作,我认为两个最直接的借鉴方向是:(1) 把 metadata 作为 retrieval-policy 的辅助条件——你的 RETRIEVE 策略可以基于 metadata 决定是否检索,低质量记忆应当被有意识地忽略或用不同方式利用;(2) 用 dropout + CFG 的训练范式处理你的 memory-gated attention——让 memory 既可以被使用又可以被"禁用",在推理时做 CFG 放大,可能比 always-retrieve 和 never-retrieve 的硬对比学出更鲁棒的 gate。
补充问题:
1. "自主评估数据"和"suboptimal data"到底指什么¶
先厘清两个概念的包含关系。
自主评估数据 (autonomous evaluation data):当 Physical Intelligence 训练出一个模型(比如 π₀.₆ 或 π₀.₆)之后,他们要评估这个模型好不好用,于是在各种任务上让机器人自己跑(autonomous rollout),产生大量 (observation, action, outcome) 轨迹。这些轨迹就叫"自主评估数据"——它是由前代模型*产生的,不是人类远程操作采集的。
这批数据的特点是质量参差不齐:
- 有些任务模型做得很好(比如 π₀.₆* 是 RL 微调的专家,在 espresso 任务上表现极佳)
- 有些任务模型做得烂(失败、卡住、犯错)
- 同一个任务内也是好坏参半(前半程做对,后半程翻车)
注意论文里有一个重要的脚注:在任何"泛化测试任务"上产生的评估数据都被排除在训练之外——这是为了避免测试集污染。所以进入训练集的自主评估数据都是非泛化任务上的 rollout。
Suboptimal data(次优数据):这是一个更广的概念,包含三类:
- 低质量人工示教 — 人类远程操作时犯了错、手抖、中途放弃的轨迹
- 失败的 episode — 任务根本没完成
- 自主评估数据 — 上面那种
所以关系是:autonomous evaluation data ⊂ suboptimal data。
为什么要专门做 "no eval data" 这个消融¶
Fig. 7 里的两个消融测的是不同的东西:
- π0.7 (no metadata):有 suboptimal data,但不告诉模型"这段质量怎么样"——测试metadata 的消歧价值
- π0.7 (no eval data):排除自主评估数据,只用人工示教(无论质量高低)——测试"蒸馏前代模型"这件事本身是否重要
第二个消融尤其有意思。论文想证明的是:π0.7 之所以能达到 RL 专家 π₀.₆ 的水平,很大程度是因为它吸收了 π₀.₆ 自己跑出来的 rollout。这就是为什么前面我把它叫做"蒸馏"——π₀.₆* 是老师,它的 rollout 就是老师产生的"解题步骤",π0.7 作为学生通过模仿学到专家的策略。
如果把这部分数据拿掉(no eval data),π0.7 就失去了"偷师"的机会,性能就降下来了。Fig. 7 里这个消融在 throughput 上掉得最狠,正是因为"高 throughput"本来就是 RL 专家的标志性优势。
2. CFG 是什么,和 dropout 什么关系¶
CFG = Classifier-Free Guidance,最早是 Ho & Salimans 2022 年为了扩散模型图像生成提的技巧。现在在 flow matching / diffusion 领域是标配。
先讲 CFG 在图像生成里干什么¶
你用 Stable Diffusion 生图,prompt 是 "a cat wearing sunglasses"。模型可以学到两个分布:
- 条件分布 \(p(\text{image} | \text{prompt})\) — "给定这个 prompt,图像应该长什么样"
- 无条件分布 \(p(\text{image})\) — "不管 prompt,图像一般长什么样"(训练里随机 drop 掉 prompt 时学到的)
生成时,CFG 不是简单用条件分布,而是把条件往"远离无条件"的方向推:
直觉是:把"有 prompt 的方向"放大 β 倍。\(\beta = 1\) 就是普通条件生成;\(\beta = 2\) 意味着"比 prompt 告诉你的方向,再多走一倍"。这让生成结果更贴合 prompt,代价是多样性下降(容易过饱和)。
在 π0.7 里是什么意思¶
π0.7 的 flow matching action expert 本质和扩散模型一样,生成的是 action 而不是图像。CFG 公式完全平移:
论文对 metadata 做 CFG,意思是:"给定 quality=5, speed=最快"这个条件的方向,我再放大 β 倍。结果就是模型输出的动作比单纯条件化更"极端地快、极端地高质量"——比它在训练集里见过的任何 episode 都更像专家。
为什么必须有 dropout,CFG 才能工作¶
CFG 公式里需要计算两个量:
- \(\pi_\theta(\mathbf{a} | \mathcal{C}_t)\) — 有完整 prompt 的条件预测
- \(\pi_\theta(\mathbf{a} | \mathcal{C}_t^{\text{uncond}})\) — prompt 被拿掉时的无条件预测
第二个量模型得会算。如果训练时 prompt 从来没被拿掉过,模型压根没见过"prompt 为空"这种输入,它根本不知道该输出什么。这时你强行把 prompt 置空去查询模型,得到的是一个完全 out-of-distribution 的乱七八糟结果,拿去做 CFG 就是放大噪声,不是放大信号。
所以训练时必须按概率随机把 prompt 丢掉,让模型在两种 regime 下都被监督过:
- 15% 的 batch 里 metadata 被整体丢掉 → 模型学会"没有 metadata 时输出一个平均行为"
- 85% 的 batch 里 metadata 存在 → 模型学会"有 metadata 时按 metadata 调整"
这样 \(\pi_\theta(\mathbf{a} | \mathcal{C}_t^{\text{uncond}})\) 才是一个有意义的量,CFG 做减法才能提取出"metadata 贡献的那部分方向"。
用一句话总结:Dropout 是 CFG 的训练前提;没有 dropout,"unconditional 分布"这个概念根本不存在。这就是为什么论文 Section VII 特意说"因为每个 prompt 组件都有 dropout 训练,π0.7 可以对任意部分做 CFG"——dropout 不只是为了让测试时 prompt 灵活,它本身就是在为 CFG 铺训练数据。
3. Coaching 范式到底在做什么¶
我换一种讲法,从你熟悉的场景切入。
场景:你想让机器人做一个训练集里没有的新任务¶
假设目标是"用空气炸锅烤红薯"。传统 VLA 的做法是:
1. 找个远程操作员,亲自用机器人把这个任务做 50 次
2. 把这 50 条 (observation, action) 轨迹加入训练集
3. 重新训练或微调模型
这很贵:每个新任务都要远程操作员花几小时采数据,而且烤红薯这种 5 分钟的长流程任务,采一次要 5 分钟,50 次就是 4 小时纯操作时间,还不算布场、清理、失败重来。
π0.7 的 coaching:根本不需要远程操作¶
π0.7 的 language following 能力已经够强了,所以可以用语言一步步教它:
- 你站在机器人旁边,语音说"pick up the sweet potato"
- π0.7 收到这个 subtask instruction,自己产出 action 去抓红薯(action 能力来自训练数据里见过的"抓取物体"这个子技能)
- 成功后,你说"open the air fryer"
- π0.7 去开空气炸锅(action 来自训练数据里见过的"打开容器"这个子技能)
- 你说"put the sweet potato in"
- 它放进去(来自"把物体放进容器")
- 你说"close the air fryer"
- ... 直到任务完成
关键点:每一个 subtask 都是 π0.7 已经会做的动作(抓、开、放、关),只是组合方式是新的。你不是在教它新动作,你是在教它动作的编排顺序。你的嘴替代了"远程操作员的手"。
第二步:把 coaching 数据蒸馏成自主策略¶
你刚才做 coaching 的过程被完整记录下来:
- 每个时刻机器人的观察 \(\mathbf{o}_t\)
- 你当时喊的 subtask 指令 \(\hat{\ell}_t\)
注意这里面没有 action 标注——action 是 π0.7 自己产生的,你从没碰机器人。你提供的数据是 (observation, subtask_instruction) 对。
然后他们训练一个 high-level policy,输入是 \((\mathbf{o}_t, \text{总任务描述})\),输出是 \(\hat{\ell}_t\)。也就是训练一个"会自己喊口令"的模型——它看到机器人当前状态,自动决定下一步该喊什么 subtask。
部署时,high-level policy 自动喊口令,π0.7 听到口令去执行,整个任务全自动运行。你在训练过程中贡献的是嘴,而不是手。Fig. 16 的实验就证明,这样训出来的自主策略性能接近 coaching 时的性能。
为什么这是范式转变¶
传统数据采集的成本结构:
其中 T 可能是几分钟,需要有经验的操作员。
Coaching 范式的成本结构:
两个巨大差异:
1. 技能门槛降低 — 喊口令不需要远程操作技能,一个没受过训练的人就能做
2. 时间降低 — coaching 时机器人自己执行,人只是监督和口令,比手动操作快
我用一个比喻你可能更有感觉:传统 VLA 数据采集像在教幼儿写字——你得握着他的手一笔一划画。Coaching 像在教一个已经会写字的大学生写论文——你只需要指导"先写引言,然后方法,然后实验",他自己会去组织句子。
为什么只有 π0.7 做得到,π0.5/π0.6 不行¶
论文 Fig. 15 明确指出:先前模型的 language following 能力不够——你喊"open the air fryer",π0.5/π0.6 可能根本没反应,或者去做训练集里某个相似但错误的动作。π0.7 的 language following 被 subgoal + diverse prompt 训练强化到足够可靠的水平,coaching 才从"理论可行"变成"实际有用"。
这就是为什么我说这部分被 underrated——它看起来只是一个 follow-up 实验,但实际上把 VLA 的数据采集路径从"手动示教"扩展到"语言指导"。任何拥有强 language following 的 VLA 都可以用这个方法生产数据,而不再受限于远程操作的瓶颈。