要約
Vision-Language-actionモデル(VLA)は、多くの場合、実証されたタスクで高性能を達成しますが、異なるタスクから学んだスキルを斬新な方法で組み合わせるために必要な場合は大幅に苦労します。
たとえば、VLAはクリームチーズをボウルの中に置き、キャビネットの上にボウルを置くことに成功する可能性がありますが、それでもキャビネットの上にクリームチーズを置くことができません。
この作業では、推論時にVLAの内部表現を操作することにより、異なるタスクからの行動を効果的に再結合できることを実証します。
具体的には、特定のベースタスクのすべての実証された軌跡にわたってテキストトークンの非表示状態を平均することにより、テキストが潜在することを識別します。
外挿されたタスクを実行するために、2つのベースタスクの潜在的なテキストを一時的に補間し、それをテキストの隠された状態に追加することができます。そのため、2つのタスクからのサブベハビアーは順次アクティブになります。
このアプローチを、新しく作成したリベロウッドベンチマークを使用して、標準的なリベロスイートから外挿された20のタスクを備えたものを評価します。
Libero-Ooodの結果は、すべてのSOTA VLAが15%未満の成功率を達成し、テキスト潜在補間を備えた$ \ PI0 $が83%の成功率に達することを示しています。
さらなる定性分析により、VLAが本物のオブジェクトと目標の理解を達成するのではなく、実証された場所にオブジェクト名を空間的に過剰に適合させる傾向が示されます。
さらに、テキストの潜在的な潜在性を解読すると、標準的なリベロスイートで70%の成功率を達成するようVLAに指示し、プライベートな指導やバックドア攻撃を可能にするように指示できることがわかります。
要約(オリジナル)
Vision-language-action models (VLAs) often achieve high performance on demonstrated tasks but struggle significantly when required to extrapolate, combining skills learned from different tasks in novel ways. For instance, VLAs might successfully put the cream cheese in the bowl and put the bowl on top of the cabinet, yet still fail to put the cream cheese on top of the cabinet. In this work, we demonstrate that behaviors from distinct tasks can be effectively recombined by manipulating the VLA’s internal representations at inference time. Concretely, we identify the text latent by averaging the text tokens’ hidden states across all demonstrated trajectories for a specific base task. For executing an extrapolated task, we can temporally interpolate the text latent of the two base tasks and add it back to the text hidden states, so sub-behaviors from the two tasks will be activated sequentially. We evaluate this approach using the newly created libero-ood benchmark, featuring 20 tasks extrapolated from standard LIBERO suites. The results on libero-ood show that all SOTA VLAs achieve < 15% success rate, while $\pi0$ with text latent interpolation reaches an 83% success rate. Further qualitative analysis reveals a tendency for VLAs to exhibit spatial overfitting, mapping object names to demonstrated locations rather than achieving genuine object and goal understanding. Additionally, we find that decoding the text latent yields human-unreadable prompts that can nevertheless instruct the VLA to achieve a 70% success rate on standard LIBERO suites, enabling private instruction or backdoor attacks.
arxiv情報
著者 | Quanyi Li |
発行日 | 2025-05-06 13:05:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google