感觉pi模型进步神速啊，前段时间short-memory才没过去多久（我们都还在训练），结果又推出了一个新的。
按照学长给的思路+Opus 4.7学习了一下，以下是学习笔记：

π0.7 深度解读:从"数据清洗"走向"上下文引导"的范式转变¶

约 6528 个字预计阅读时间 33 分钟

0. 核心思想先行¶

π0.7 的中心论点可以用一句话概括:与其费力清洗数据,不如让 prompt 承担消歧的职责(prompt-level disambiguation over data-level curation)。

传统 VLA 训练的困境在于:当你把高质量示教、含错误的示教、RL 自主 rollout、人类视频混在一起训练时,模型倾向于把所有模式"平均"掉,产生次优行为。Physical Intelligence 的解法是——在训练时为每一条轨迹注入一个多模态、细粒度的 context \(\mathcal{C}_t\),让模型学会"在什么条件下该模仿什么",运行时再通过精心构造的 prompt 把模型"steer"到你想要的那个模式上。这本质上是把 prompt engineering 搬到了 VLA 领域,并配合 dropout 训练出一个可以任意子集组合的 steerable policy。

模型架构是 5B 参数(4B Gemma3 VLM backbone + 400M 视觉编码器 + 860M 动作专家),输入包括最多 4 路相机(front + 2 wrist + optional rear)、每路最多 6 帧历史、最多 3 张 subgoal images,全部通过 MEM 风格的时空压缩编码器压成固定 token 数。

下面按你给的四个技术点展开。

1. 知识隔离 (Knowledge Insulation, KI)¶

定位与背景¶

首先要澄清一个常见误解:KI 不是 π0.7 的原创,而是继承自 π0.5 的训练配方(论文 Section III 明确引用 [103])。π0.7 直接用它,因此不再展开讨论。但它是理解整个训练 loss 设计的前提。

机制¶

在标准 VLA 里,VLM backbone 被 action expert 的梯度拉着走。问题是:flow matching 的梯度不稳定(连续动作空间的回归 loss 方差大),而且会让 VLM 逐渐"忘掉"预训练学到的视觉-语言语义。

KI 的做法很直接——双头监督 + 梯度切断:

VLM backbone 用 FAST tokens(离散化后的动作 token)做交叉熵监督——和 LLM 预训练一致的稳定 discrete loss
Action expert 通过 cross-attention 读取 VLM 的 activations,用 flow matching loss 训练连续动作
关键:从 action expert 反传到 VLM backbone 的梯度被切断

为什么这对 π0.7 尤其关键¶

π0.7 要处理的 context 复杂度远超以前:语言、metadata、subgoal images、control mode 全塞进 prompt。如果让 flow matching 的噪声梯度直接冲击 VLM,VLM 对这些异质语义信号的理解会迅速退化。KI 让 VLM 可以专心做"把多模态 context 映射成有用的 activation 表示"这件事,action expert 则负责把这些表示解码成连续动作。

用你熟悉的语言讲:这和你在 Memory-Augmented RL-VLA 里把 MoH memory-gated attention 独立出来训练的动机类似——把不同 loss 性质差异巨大的组件解耦,避免一个 head 的噪声污染另一个。

2. 情节元数据引导 (Episode Metadata Steering)¶

这才是 π0.7 的第一个核心创新,也是整个 "steerability" 故事的主角。

要解决的具体问题¶

训练数据来源五花八门(Section VI-A):
- 高质量人类示教
- 低质量示教(失败或含错误)
- 先前模型版本的 rollout(包括 RL 训练中产生的 π₀.₆* 数据)
- 人类第一视角视频
- 开源机器人数据集(如 DROID)
- Web 数据(VQA、object localization 等)

朴素混训的失败模式:模型在给定 (observation, language) 时会面对"成功 demo"和"失败 rollout"两种行为,flow matching 把它们的模式平均掉,产生模糊甚至危险的动作。

Metadata 的三个字段¶

论文 Section V-C 定义了三种 metadata:

Overall speed — episode 的总时长(timesteps),按 500 步一档离散化("2000 steps", "8000 steps" 等)。背后的假设是:速度快通常意味着少犯错、策略更干脆,所以速度成为质量的代理信号。

Overall quality — 人工标注的 1–5 分质量评分,5 最高。

Mistake — 布尔标签,表示某个 action segment 内机器人是否犯错(没抓起、子任务错误等)。这是段级的(由人工粗标),比 quality 更细粒度。

训练-推理的不对称使用¶

这是最妙的一步。训练时:ground-truth 的 speed、quality、mistake 全部注入 prompt——让模型学会"这一段是 quality=2 且 mistake=true,所以即将看到笨拙动作";也学会"这一段 quality=5 且 speed 很快,所以即将看到高效动作"。

推理时:固定地设置
- speed = 该任务训练集 episode 长度的 15^th percentile(即希望模型表现得比训练集 85% 的轨迹都快)
- quality = 5(最高)
- mistake = false(不要犯错)

模型从来没见过这种"极端理想"的组合,但由于它学到了 (metadata, behavior) 的条件分布,它会外推出更好的行为。这和扩散模型里用 CFG 把 prompt 强度调高是同一个路数。

为什么这是"distillation"¶

Section VI-A 原话:这是一种蒸馏过程——generalist π0.7 通过吸收 π₀.₆* 专家 RL 策略的 rollout 数据,继承了专家的能力。关键是 metadata 让模型能区分"这是 RL 专家的动作"和"这是失败示教",从而有选择地模仿前者。

实验验证 (Section IX-A, Fig. 7)¶

两个消融对照:
- π0.7 (no metadata):去掉 metadata 字段
- π0.7 (no eval data):排除所有自主评估数据

在 π₀.₆ release 里的任务上(espresso、box building、laundry),两个消融都显著低于完整 π0.7,throughput 的差距最明显。这说明:metadata + suboptimal data 是一个不可分割的 pair*——没有 metadata,suboptimal data 反而有害;没有 suboptimal data,metadata 没有足够的方差可学。

最有说服力的实验:Fig. 18 left — 数据扩展性¶

这是一个非常 clean 的消融。T-shirt folding 任务,把人工示教按质量+速度排序,分成 4 个桶:
1. 前 30%(最高质量)
2. 前 50%
3. 前 80%
4. 全部数据

分别用 带 metadata 和 不带 metadata 的配方训练,得到 8 个模型。

结果:
- 不带 metadata:随着数据扩大(质量平均下降),性能反而下降 — 经典的"数据越多越差"悖论
- 带 metadata:数据扩大时性能单调提升 — 即使 avg quality 下降也继续提升

这个图是 π0.7 最硬的证据:它证明 metadata prompting 把 VLA 训练从"需要精心策划的高质量小数据"的 regime,推向了"给定任何 quality 的数据都能变好"的 scalable regime。这对整个领域是 game changer——意味着未来可以直接无差别收数据。

运行时的 CFG 放大¶

Section VII 末尾提到,因为每个 prompt 组件训练时都会 dropout,π0.7 可以对任意 prompt 组件做 classifier-free guidance。公式标准:

\[ \nabla_{\mathbf{a}} \log \pi_\theta(\mathbf{a} | \mathbf{o}_t, \mathcal{C}_t) + \beta \big( \nabla_{\mathbf{a}} \log \pi_\theta(\mathbf{a} | \mathbf{o}_t, \mathcal{C}_t) - \nabla_{\mathbf{a}} \log \pi_\theta(\mathbf{a} | \mathbf{o}_t, \mathcal{C}_t^{\text{uncond}}) \big) \]

论文主要对 episode metadata 施加 CFG(比如放大对"高质量、快速度"的条件依赖),典型 \(\beta \in \{1.3, 1.7, 2.2\}\)。这进一步把 steerability 压榨出来。

3. 子目标图像训练机制 (Training with Subgoal Images)¶

这是 π0.7 的第二个核心创新,也是我认为对你 Memory-Augmented RL-VLA 工作最有启发的部分。

动机¶

语言子任务("open the fridge door")无法表达执行细节——抓握角度、手臂姿态、物体应该如何呈现。视觉 subgoal 直接给出"未来应该长什么样",提供比语言密度高得多的监督信号。

数据结构¶

Multi-view subgoals \(\mathbf{g}_t = [G_t^1, \ldots, G_t^n]\),其中:
- Base view 里放环境/物体层面的结果(e.g., 冰箱门应该开到什么角度)
- Wrist views 里放手臂/夹爪层面的结果(e.g., 夹爪应该如何握住把手)

这种分工非常符合人类直觉,也是 MEM 架构的自然延伸。π0.7 具体用最多 3 张 subgoal images(省略 rear view)。

World model \(g_\psi\) 的训练 (Section V-B)¶

运行时 subgoal 由一个 lightweight world model 实时生成,它本身是从 BAGEL(一个 14B 的图像理解/编辑/生成 mixture-of-transformers)初始化的。训练目标:

\[ \max_\psi \mathbb{E}_{\mathcal{D}_g} \Big[ \mathcal{L}_{\text{CFM}}\big(\mathbf{g}_t^\star, g_\psi(\mathbf{o}_t, \hat{\ell}_t, m)\big) \Big] \]

其中 \(\mathbf{g}_t^\star\) 是真实 episode 里段末的观测(\(\mathbf{o}_{t_{\text{end}}}\))——也就是说,segment 的最后一帧作为它的 ground-truth subgoal。\(\mathcal{D}_g\) 只取高质量 subtask 标注的子集。

World model 通过吸收 web 数据、egocentric 视频、其他视频数据,获得大量机器人数据之外的语义和物理概念,然后通过 subgoal image 这个桥梁注入到 π0.7。这比直接让 π0.7 去看 web 数据要干净很多——分工明确。

π0.7 训练中的 subgoal 采样策略 (Section VI-C)¶

这个设计有三个精心的选择:

选择 1:real + generated 混用
既用真实未来帧,也用 world model 生成的帧。关键是后者 —— 避免了 train-test 的分布错配:运行时 subgoal 总是生成的(不完美),训练时如果只用真实 subgoal,模型就会过拟合到"完美 subgoal"的条件分布上。

选择 2:真实 subgoal 的时间采样
- 0.25 概率:采 segment 末尾帧(和 world model 的预测目标保持一致)
- 0.75 概率:采 0–4 秒均匀分布的未来帧

这样做让模型学会在不同时间距离的 subgoal 下工作——有时 subgoal 是"2 秒后",有时是"segment 结束时"。

选择 3:subgoal 只出现在 25% 的 batch
论文给出了一个非常 important 的观察——加 subgoal 之后,action prediction 本质上变成了 inverse dynamics 问题(知道当前状态和近未来状态,推 action),训练信号变强,收敛加快。但如果 100% 都用,模型就对 subgoal 过度依赖,语言指令的权重反而下降。所以只在 25% 的 batch 加 subgoal,其余 75% 保留纯语言/metadata 的训练信号。

在这 25% 里,还有 30% 的概率 drop 掉 subtask instruction \(\hat{\ell}_t\)——因为 subgoal image 往往能完全替代语言子任务。

推理时的异步刷新 (Algorithm 1)¶

运行时,subgoal 在以下两种情况之一时异步刷新:
- 语义意图变化(新的 \(\hat{\ell}_t\) 到达)
- 距离上次生成超过 \(\Delta = 4\) 秒

异步是关键——world model 的生成比 VLA 推理慢,不能阻塞主控制循环。线程分工:high-level policy 输出 \(\hat{\ell}_t\),world model 吃 \((\mathbf{o}_t, \hat{\ell}_t, m)\) 生成 \(\mathbf{g}^\star\),VLA 用最新可用的 \(\mathbf{g}^\star\)。

实验证据¶

Fig. 10 (complex referential instructions):对于"pick up the object I would use to eat soup"这种需要语义推理的指令,π0.7 本身就比 π0.5/π0.6 好,加上 GC(generated subgoals)又进一步提升。世界模型从 web 预训练里吸收的常识("soup → spoon")通过 subgoal 注入进来。

Fig. 11 (反数据集偏置):"Reverse Fridge to Microwave"任务——训练数据只有 fridge→microwave 的方向,测试时要反过来。没有 subgoal 时模型被数据偏置完全压制,加了 GC 才能成功。这是 subgoal 作用最纯粹的 case:语言被数据偏置淹没时,视觉 subgoal 仍然能表达用户意图。

Fig. 12 (cross-embodiment shirt folding):从小型 bimanual 源机器人迁移到 UR5e 目标机器人,π0.7 达到 85.6% task progress / 80% success,接近人类远程操作专家首次上手 UR5e 的表现(90.9% progress / 80.6% success)。加了 world model subgoals 后,因为 world model 能生成"UR5e 大机械臂应该用什么样的抓取姿态"的视觉类比,性能又有明显提升。

4. 多样化提示丢弃 (Dropout)¶

机制¶

Section V-E 给出精确的 dropout 规则:

组件	Dropout 概率
Subgoal images(整体不加)	75%(只 25% 加)
Subtask instruction \(\hat{\ell}_t\) (在有 subgoal 的样本里)	30%
Episode metadata(整体丢弃)	15%
Metadata 的每个字段(speed/quality/mistake)独立丢弃	5%
Control mode	不 dropout
History frames 整体丢弃	30%
Rear view image 丢弃	30%

三个作用¶

作用一:test-time 灵活性。训练时见过所有 \(2^k\) 种 prompt 组合子集,推理时你可以任意裁剪——只给语言、给语言+metadata、给语言+metadata+subgoal,模型都能工作。Fig. 10 里"π0.7 vs π0.7 (GC)"的比较就是这种灵活性的产物。

作用二:避免对某个组件的过度依赖。如果 subgoal 始终存在,模型会把 subgoal 当作主要信号,忽略语言——这会毁掉你想要的"语言可操控"性质。dropout 强制模型在每种条件下都能独立工作。

作用三:启用 classifier-free guidance。CFG 需要模型知道"conditional"和"unconditional"两种模式;dropout 天然提供了 unconditional 训练分布。没有 dropout,CFG 无法运作。前面提到的 \(\beta \in \{1.3, 1.7, 2.2\}\) 的 metadata CFG 完全依赖于 15% 的 metadata 整体丢弃率。

为什么 control mode 不 dropout¶

因为 control mode(joint vs ee)是物理约束,不是软 steering。同一条轨迹在关节空间和末端执行器空间下的 action 值完全不同——模型必须明确知道当前输出的是哪种,不能"猜"。这反映了 dropout 设计背后的核心原则:可以软调的维度上 dropout,物理上必须明确的维度不 dropout。

5. 几个你应该特别关注的实验细节¶

结合你自己的 Memory-Augmented RL-VLA 工作,几个点值得重点看:

(a) Fig. 18 right — task diversity 的因果消融。 对比去掉"最多样化的 20% 数据"和"随机 20% 数据",前者的性能显著差。这给你的 episodic memory bank 设计启示:memory 检索时或许应该偏向检索任务多样性高的片段,而不是单纯按相似度 top-k。

(b) 运行时延迟处理 — RTC(Section VI-B)。训练时就模拟 0–12 timesteps 的推理延迟(对应 50Hz 机器人上最多 240ms),让模型学会在 action chunk 接续时保持平滑。这对你之后做真机 RL 评估 M4 feasibility 很有参考价值。

© Memory 任务的 out-of-box 性能(Fig. 8)。π0.7 不做任何 fine-tuning,在 MEM 论文里需要任务特定 fine-tuning 的记忆任务上达到相当或更好的性能。这间接验证了 MEM-style 历史编码器 + 多模态 prompt 的组合已经足够表达短期记忆,至少在 6 帧历史范围内。对你 episodic memory 的研究意义:显式 memory bank 的增量价值要在超过 6 帧 × 1 秒 = 6 秒的时间尺度之外才能显现。你需要设计实验证明你的 memory 在长 horizon 上超越 MEM 这种隐式历史编码。

(d) "Coaching" 范式 (IX-D)。我觉得这是论文最 underrated 的部分——用语言教会新任务,然后把 coaching 数据蒸馏成 high-level policy,不需要任何额外的 action-level demonstration。这给所有做 VLA 的人提供了一条全新的数据采集路径:行为数据 = 语言 coaching + 已有 action 数据的 recombination。

6. 局限与未来方向(从论文 Section X + 我的判断)¶

论文本身承认的局限:zero-shot 任务成功率 60–80%,远低于 in-distribution 任务的 90%+。以及"真正的 unseen 任务"难以定义——训练数据太大,很难保证某个行为不以某种形式出现过。这是 LLM 时代所有 foundation model 评估都面对的问题。

我个人额外的观察:

metadata 的依赖于人工标注。论文里 quality 和 mistake 标签都是人工粗标的。当数据规模继续扩大(百万级 episodes),这个方式不可持续。合理的下一步是让 VLM 自己标 metadata——这又回到了 self-training 的老问题。

world model 和 VLA 是分开训练的。subgoal 质量的上限被 world model 卡住。端到端联合训练 world model + VLA,让 subgoal 被 action-level 信号 shape,理论上更好,但工程上极其复杂(14B BAGEL 和 5B VLA 一起训非常贵)。

总结¶

π0.7 技术上最重要的贡献不是某个单独的组件(KI 来自 π0.5、MEM 视觉编码器来自 Torne et al.、subgoal image 条件化有大量先例),而是把一整套 steerability 机制系统性地组合起来,让 VLA 训练摆脱了"高质量数据瓶颈"——这是一个 recipe 级的贡献,而非架构级的。

对你自己的工作,我认为两个最直接的借鉴方向是:(1) 把 metadata 作为 retrieval-policy 的辅助条件——你的 RETRIEVE 策略可以基于 metadata 决定是否检索,低质量记忆应当被有意识地忽略或用不同方式利用;(2) 用 dropout + CFG 的训练范式处理你的 memory-gated attention——让 memory 既可以被使用又可以被"禁用",在推理时做 CFG 放大,可能比 always-retrieve 和 never-retrieve 的硬对比学出更鲁棒的 gate。

补充问题：

1. "自主评估数据"和"suboptimal data"到底指什么¶

先厘清两个概念的包含关系。

自主评估数据 (autonomous evaluation data):当 Physical Intelligence 训练出一个模型(比如 π₀.₆ 或 π₀.₆)之后,他们要评估这个模型好不好用,于是在各种任务上让机器人自己跑(autonomous rollout),产生大量 (observation, action, outcome) 轨迹。这些轨迹就叫"自主评估数据"——它是由前代模型*产生的,不是人类远程操作采集的。

这批数据的特点是质量参差不齐:
- 有些任务模型做得很好(比如 π₀.₆* 是 RL 微调的专家,在 espresso 任务上表现极佳)
- 有些任务模型做得烂(失败、卡住、犯错)
- 同一个任务内也是好坏参半(前半程做对,后半程翻车)

注意论文里有一个重要的脚注:在任何"泛化测试任务"上产生的评估数据都被排除在训练之外——这是为了避免测试集污染。所以进入训练集的自主评估数据都是非泛化任务上的 rollout。

Suboptimal data(次优数据):这是一个更广的概念,包含三类:

低质量人工示教 — 人类远程操作时犯了错、手抖、中途放弃的轨迹
失败的 episode — 任务根本没完成
自主评估数据 — 上面那种

所以关系是:autonomous evaluation data ⊂ suboptimal data。

为什么要专门做 "no eval data" 这个消融¶

Fig. 7 里的两个消融测的是不同的东西:

π0.7 (no metadata):有 suboptimal data,但不告诉模型"这段质量怎么样"——测试metadata 的消歧价值
π0.7 (no eval data):排除自主评估数据,只用人工示教(无论质量高低)——测试"蒸馏前代模型"这件事本身是否重要

第二个消融尤其有意思。论文想证明的是:π0.7 之所以能达到 RL 专家 π₀.₆ 的水平,很大程度是因为它吸收了 π₀.₆ 自己跑出来的 rollout。这就是为什么前面我把它叫做"蒸馏"——π₀.₆* 是老师,它的 rollout 就是老师产生的"解题步骤",π0.7 作为学生通过模仿学到专家的策略。

如果把这部分数据拿掉(no eval data),π0.7 就失去了"偷师"的机会,性能就降下来了。Fig. 7 里这个消融在 throughput 上掉得最狠,正是因为"高 throughput"本来就是 RL 专家的标志性优势。

2. CFG 是什么,和 dropout 什么关系¶

CFG = Classifier-Free Guidance,最早是 Ho & Salimans 2022 年为了扩散模型图像生成提的技巧。现在在 flow matching / diffusion 领域是标配。

先讲 CFG 在图像生成里干什么¶

你用 Stable Diffusion 生图,prompt 是 "a cat wearing sunglasses"。模型可以学到两个分布:

条件分布 \(p(\text{image} | \text{prompt})\) — "给定这个 prompt,图像应该长什么样"
无条件分布 \(p(\text{image})\) — "不管 prompt,图像一般长什么样"(训练里随机 drop 掉 prompt 时学到的)

生成时,CFG 不是简单用条件分布,而是把条件往"远离无条件"的方向推:

\[ \text{score}_{\text{CFG}} = \text{score}_{\text{uncond}} + \beta \cdot (\text{score}_{\text{cond}} - \text{score}_{\text{uncond}}) \]

直觉是:把"有 prompt 的方向"放大 β 倍。\(\beta = 1\) 就是普通条件生成;\(\beta = 2\) 意味着"比 prompt 告诉你的方向,再多走一倍"。这让生成结果更贴合 prompt,代价是多样性下降(容易过饱和)。

在 π0.7 里是什么意思¶

π0.7 的 flow matching action expert 本质和扩散模型一样,生成的是 action 而不是图像。CFG 公式完全平移:

\[ \nabla_{\mathbf{a}} \log \pi_\theta(\mathbf{a} | \mathbf{o}_t, \mathcal{C}_t) + \beta \big( \nabla_{\mathbf{a}} \log \pi_\theta(\mathbf{a} | \mathcal{C}_t) - \nabla_{\mathbf{a}} \log \pi_\theta(\mathbf{a} | \mathcal{C}_t^{\text{uncond}}) \big) \]

论文对 metadata 做 CFG,意思是:"给定 quality=5, speed=最快"这个条件的方向,我再放大 β 倍。结果就是模型输出的动作比单纯条件化更"极端地快、极端地高质量"——比它在训练集里见过的任何 episode 都更像专家。

为什么必须有 dropout,CFG 才能工作¶

CFG 公式里需要计算两个量:
- \(\pi_\theta(\mathbf{a} | \mathcal{C}_t)\) — 有完整 prompt 的条件预测
- \(\pi_\theta(\mathbf{a} | \mathcal{C}_t^{\text{uncond}})\) — prompt 被拿掉时的无条件预测

第二个量模型得会算。如果训练时 prompt 从来没被拿掉过,模型压根没见过"prompt 为空"这种输入,它根本不知道该输出什么。这时你强行把 prompt 置空去查询模型,得到的是一个完全 out-of-distribution 的乱七八糟结果,拿去做 CFG 就是放大噪声,不是放大信号。

所以训练时必须按概率随机把 prompt 丢掉,让模型在两种 regime 下都被监督过:
- 15% 的 batch 里 metadata 被整体丢掉 → 模型学会"没有 metadata 时输出一个平均行为"
- 85% 的 batch 里 metadata 存在 → 模型学会"有 metadata 时按 metadata 调整"

这样 \(\pi_\theta(\mathbf{a} | \mathcal{C}_t^{\text{uncond}})\) 才是一个有意义的量,CFG 做减法才能提取出"metadata 贡献的那部分方向"。

用一句话总结:Dropout 是 CFG 的训练前提;没有 dropout,"unconditional 分布"这个概念根本不存在。这就是为什么论文 Section VII 特意说"因为每个 prompt 组件都有 dropout 训练,π0.7 可以对任意部分做 CFG"——dropout 不只是为了让测试时 prompt 灵活,它本身就是在为 CFG 铺训练数据。

3. Coaching 范式到底在做什么¶

我换一种讲法,从你熟悉的场景切入。

场景:你想让机器人做一个训练集里没有的新任务¶

假设目标是"用空气炸锅烤红薯"。传统 VLA 的做法是:
1. 找个远程操作员,亲自用机器人把这个任务做 50 次
2. 把这 50 条 (observation, action) 轨迹加入训练集
3. 重新训练或微调模型

这很贵:每个新任务都要远程操作员花几小时采数据,而且烤红薯这种 5 分钟的长流程任务,采一次要 5 分钟,50 次就是 4 小时纯操作时间,还不算布场、清理、失败重来。

π0.7 的 coaching:根本不需要远程操作¶

π0.7 的 language following 能力已经够强了,所以可以用语言一步步教它:

你站在机器人旁边,语音说"pick up the sweet potato"
π0.7 收到这个 subtask instruction,自己产出 action 去抓红薯(action 能力来自训练数据里见过的"抓取物体"这个子技能)
成功后,你说"open the air fryer"
π0.7 去开空气炸锅(action 来自训练数据里见过的"打开容器"这个子技能)
你说"put the sweet potato in"
它放进去(来自"把物体放进容器")
你说"close the air fryer"
... 直到任务完成

关键点:每一个 subtask 都是 π0.7 已经会做的动作(抓、开、放、关),只是组合方式是新的。你不是在教它新动作,你是在教它动作的编排顺序。你的嘴替代了"远程操作员的手"。

第二步:把 coaching 数据蒸馏成自主策略¶

你刚才做 coaching 的过程被完整记录下来:
- 每个时刻机器人的观察 \(\mathbf{o}_t\)
- 你当时喊的 subtask 指令 \(\hat{\ell}_t\)

注意这里面没有 action 标注——action 是 π0.7 自己产生的,你从没碰机器人。你提供的数据是 (observation, subtask_instruction) 对。

然后他们训练一个 high-level policy,输入是 \((\mathbf{o}_t, \text{总任务描述})\),输出是 \(\hat{\ell}_t\)。也就是训练一个"会自己喊口令"的模型——它看到机器人当前状态,自动决定下一步该喊什么 subtask。

部署时,high-level policy 自动喊口令,π0.7 听到口令去执行,整个任务全自动运行。你在训练过程中贡献的是嘴,而不是手。Fig. 16 的实验就证明,这样训出来的自主策略性能接近 coaching 时的性能。

为什么这是范式转变¶

传统数据采集的成本结构:

\[ \text{新任务成本} = N_{\text{episodes}} \times T_{\text{per episode}} \times \text{远程操作员时薪} \]

其中 T 可能是几分钟,需要有经验的操作员。

Coaching 范式的成本结构:

\[ \text{新任务成本} = N_{\text{episodes}} \times T_{\text{per episode}} \times \text{普通人喊口令的时薪} \]

两个巨大差异:
1. 技能门槛降低 — 喊口令不需要远程操作技能,一个没受过训练的人就能做
2. 时间降低 — coaching 时机器人自己执行,人只是监督和口令,比手动操作快

我用一个比喻你可能更有感觉:传统 VLA 数据采集像在教幼儿写字——你得握着他的手一笔一划画。Coaching 像在教一个已经会写字的大学生写论文——你只需要指导"先写引言,然后方法,然后实验",他自己会去组织句子。

为什么只有 π0.7 做得到,π0.5/π0.6 不行¶

论文 Fig. 15 明确指出:先前模型的 language following 能力不够——你喊"open the air fryer",π0.5/π0.6 可能根本没反应,或者去做训练集里某个相似但错误的动作。π0.7 的 language following 被 subgoal + diverse prompt 训练强化到足够可靠的水平,coaching 才从"理论可行"变成"实际有用"。

这就是为什么我说这部分被 underrated——它看起来只是一个 follow-up 实验,但实际上把 VLA 的数据采集路径从"手动示教"扩展到"语言指导"。任何拥有强 language following 的 VLA 都可以用这个方法生产数据,而不再受限于远程操作的瓶颈。