Thoughts
把VLM用Robotics Dataset Finetune,提升其VQA能力,同时又不损失其本身的QA能力。(冻结某些头可能可以实现,具体可以看相关论文)
我们可能需要同一个VLM Backbone,然后设计不同的projection来完成不同的任务。我们需要机器人视觉输入+指令->发掘因果关系,将因果关系应用到Robot动作指令生成(离散的?),如何用Flow Matching获得连续流畅的动作?
Now we are focusing on Causal Discovery Framework.