CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models

要約

Vision-Language-actionモデル(VLA)は、一般化可能な感覚運動制御を学習するための、前提条件の視覚言語モデルと多様なロボットデモンストレーションを活用する可能性を示しています。
このパラダイムは、ロボットソースと非ロボットソースの両方からの大規模なデータを効果的に利用していますが、現在のVLAは主に直接入力であるアウトプットマッピングに焦点を当てており、複雑な操作タスクに重要な中間推論ステップがありません。
その結果、既存のVLAには、時間的計画または推論能力がありません。
このペーパーでは、これらの目標を達成するために短いアクションシーケンスを生成する前に視覚目標として将来の画像フレームを自動的に予測することにより、視覚的な視覚チェーン(COT)推論を視覚言語アクションモデル(VLA)に組み込む方法を紹介します。
視覚的およびアクショントークンを理解して生成できる最先端の7B VLAであるCOT-VLAを紹介します。
実験結果は、COT-VLAが強力なパフォーマンスを達成し、現実世界の操作タスクで最先端のVLAモデルを17%、シミュレーションベンチマークで6%上回ることを示しています。
プロジェクトWebサイト:https://cot-vla.github.io/

要約(オリジナル)

Vision-language-action models (VLAs) have shown potential in leveraging pretrained vision-language models and diverse robot demonstrations for learning generalizable sensorimotor control. While this paradigm effectively utilizes large-scale data from both robotic and non-robotic sources, current VLAs primarily focus on direct input–output mappings, lacking the intermediate reasoning steps crucial for complex manipulation tasks. As a result, existing VLAs lack temporal planning or reasoning capabilities. In this paper, we introduce a method that incorporates explicit visual chain-of-thought (CoT) reasoning into vision-language-action models (VLAs) by predicting future image frames autoregressively as visual goals before generating a short action sequence to achieve these goals. We introduce CoT-VLA, a state-of-the-art 7B VLA that can understand and generate visual and action tokens. Our experimental results demonstrate that CoT-VLA achieves strong performance, outperforming the state-of-the-art VLA model by 17% in real-world manipulation tasks and 6% in simulation benchmarks. Project website: https://cot-vla.github.io/

arxiv情報

著者 Qingqing Zhao,Yao Lu,Moo Jin Kim,Zipeng Fu,Zhuoyang Zhang,Yecheng Wu,Zhaoshuo Li,Qianli Ma,Song Han,Chelsea Finn,Ankur Handa,Ming-Yu Liu,Donglai Xiang,Gordon Wetzstein,Tsung-Yi Lin
発行日 2025-03-27 22:23:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク