Vision-Language Foundation Models as Effective Robot Imitators

要約

近年の視覚言語基盤モデルの進歩により、マルチモーダルデータを理解し、ロボット操作を含む複雑な視覚言語タスクを解決する能力が示されている。我々は、既存の視覚言語モデル(VLM)をロボット工学データ上で簡単な微調整を行いながら利用する簡単な方法を模索している。そのために、オープンソースのVLMであるOpenFlamingoをベースに、RoboFlamingoと呼ばれるシンプルで新しい視覚言語操作フレームワークを導出する。先行研究とは異なり、RoboFlamingoは、単一ステップの視覚-言語理解のために事前に訓練されたVLMを利用し、明示的なポリシーヘッドを用いて逐次的な履歴情報をモデル化し、言語条件付き操作データセット上でのみ模倣学習によってわずかに微調整される。このような構成により、RoboFlamingoはオープンループ制御や低性能プラットフォームへの展開に柔軟に対応できる。テストされたベンチマークにおいて最先端の性能を大きく上回ることにより、RoboFlamingoがVLMをロボット制御に適応させるための効果的で競争力のある代替手段となり得ることを示す。また、我々の広範な実験結果から、様々な事前学習済みVLMの操作タスクにおける挙動に関して、いくつかの興味深い結論が得られた。我々は、RoboFlamingoがロボット操作のための費用対効果が高く、使いやすいソリューションになる可能性があり、独自のロボット操作ポリシーを微調整する能力をすべての人に与えることができると信じている。

要約(オリジナル)

Recent progress in vision language foundation models has shown their ability to understand multimodal data and resolve complicated vision language tasks, including robotics manipulation. We seek a straightforward way of making use of existing vision-language models (VLMs) with simple fine-tuning on robotics data. To this end, we derive a simple and novel vision-language manipulation framework, dubbed RoboFlamingo, built upon the open-source VLMs, OpenFlamingo. Unlike prior works, RoboFlamingo utilizes pre-trained VLMs for single-step vision-language comprehension, models sequential history information with an explicit policy head, and is slightly fine-tuned by imitation learning only on language-conditioned manipulation datasets. Such a decomposition provides RoboFlamingo the flexibility for open-loop control and deployment on low-performance platforms. By exceeding the state-of-the-art performance with a large margin on the tested benchmark, we show RoboFlamingo can be an effective and competitive alternative to adapt VLMs to robot control. Our extensive experimental results also reveal several interesting conclusions regarding the behavior of different pre-trained VLMs on manipulation tasks. We believe RoboFlamingo has the potential to be a cost-effective and easy-to-use solution for robotics manipulation, empowering everyone with the ability to fine-tune their own robotics policy.

arxiv情報

著者 Xinghang Li,Minghuan Liu,Hanbo Zhang,Cunjun Yu,Jie Xu,Hongtao Wu,Chilam Cheang,Ya Jing,Weinan Zhang,Huaping Liu,Hang Li,Tao Kong
発行日 2024-02-05 03:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク