SwitchVLA: Execution-Aware Task Switching for Vision-Language-Action Models

要約

動的環境に展開されたロボットは、多様な言語の指示に従うだけでなく、ユーザーの意図が解釈の中で変更されたときに柔軟に適応できる必要があります。
最近のVision-Language-action(VLA)モデルには、マルチタスクの学習と指示に続いて高度なものがありますが、通常、静的タスクの意図を想定しており、継続的な実行中に新しい指示が届いたときに応答できません。
この制限は、リアルタイムの意図の変更が一般的な小売や家庭環境など、動的な設定での自然で堅牢な相互作用を妨げます。
外部プランナーまたは追加のスイッチ固有のデータなしでスムーズでリアクティブなタスクの切り替えを可能にする統一された実行アウェアフレームワークであるSwitchVLAを提案します。
タスクの切り替えを、実行状態と命令のコンテキストを条件とする動作変調問題としてモデル化します。
専門家のデモンストレーションは、一時的に接地された接触フェーズに分割され、ポリシーがタスクの進行を推測し、それに応じて動作を調整できるようにします。
次に、条件付けられた軌道モデリングを通じて、さまざまな動作モードの下で柔軟なアクションチャンクを生成するために、多目的条件付きポリシーが訓練されます。
シミュレーションと現実世界のロボット操作の両方での実験により、SwitchVLAは、タスクの成功率と相互作用の自然性の両方で、堅牢な命令の順守、流体タスクの切り替え、および以前のVLAベースラインを強化することを可能にすることが示されています。

要約(オリジナル)

Robots deployed in dynamic environments must be able to not only follow diverse language instructions but flexibly adapt when user intent changes mid-execution. While recent Vision-Language-Action (VLA) models have advanced multi-task learning and instruction following, they typically assume static task intent, failing to respond when new instructions arrive during ongoing execution. This limitation hinders natural and robust interaction in dynamic settings, such as retail or household environments, where real-time intent changes are common. We propose SwitchVLA, a unified, execution-aware framework that enables smooth and reactive task switching without external planners or additional switch-specific data. We model task switching as a behavior modulation problem conditioned on execution state and instruction context. Expert demonstrations are segmented into temporally grounded contact phases, allowing the policy to infer task progress and adjust its behavior accordingly. A multi-behavior conditional policy is then trained to generate flexible action chunks under varying behavior modes through conditioned trajectory modeling. Experiments in both simulation and real-world robotic manipulation demonstrate that SwitchVLA enables robust instruction adherence, fluid task switching, and strong generalization-outperforming prior VLA baselines in both task success rate and interaction naturalness.

arxiv情報

著者 Meng Li,Zhen Zhao,Zhengping Che,Fei Liao,Kun Wu,Zhiyuan Xu,Pei Ren,Zhao Jin,Ning Liu,Jian Tang
発行日 2025-06-04 04:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク